CategoríaSEO y SEM

Qué es el TF-IDF y qué relación tiene con el SEO

Tiempo de lectura: 6 min
2

Si una de las patas centrales de tu negocio y/o actividad profesional está relacionada con la creación de contenido y su optimización estoy seguro que te resultará de lo más jugoso de lo que vamos a hablar en este artículo; el TF-IDF.

Por de pronto, y por llegar hasta aquí… tienes este Curso de SEO Gratis por si te interesa.

¡Ah! y si lees hasta el final tienes otro regalito 😉

Qué es el TF-IDF

TF-IDF son las siglas en inglés de «Term frequency – Inverse document frequency» que traducido al español será «Frecuencia de términos – Frecuencia inversa del documento».

Su ámbito de aplicación y procedencia son los sistemas de recuperación de información y minería de texto que por ejemplo usan la mayoría de las bibliotecas digitales y que para nuestro cometido, está directamente relacionado con los buscadores que utilizan una variación de este algoritmo en su proceso de indexación, posicionamiento y muestra al usuario de un contenido determinado.

Es una medida que pondera el uso de una determinada palabra dentro de un conjunto de documentos y que supone por lo tanto un elemento importante y relevante para la clasificación de documentos frente a la consulta de un usuario.

Este indicador se obtiene con el producto entre TF y IDF.

TF x IDF

Empezaremos por clarificar la esencia de los conceptos de TF e IDF

TF: Frecuencia de términos

La frecuencia de un término determinado dado un documento, es sencillamente la cantidad de veces que aparece dicho término en dicho documento.

Para entendiendo mejor acerca de cómo funciona el TD-IDF piensa en que tuvieras delante de tí un montón de documentos y quieres averiguar qué documento es más relevante para una consulta determinada por ejemplo «playas del mediterraneo». Posiblemente, para empezar, dejarías fuera todos aquéllos documentos que no contengan dicha cadena de búsqueda, no obstante continuarías teniendo muchos documentos.

Así pues podrías determinar que aquél documento en el que más veces se repitiera la cadena de búsqueda es el más relevante, pero no todos los documentos tienen la misma extensión, y esto sí es importante.

TF puede calcularse de manera «sencilla» como el número de veces que se repite un término en un documento o de formas mucho más complejas con expresiones matemáticas como operadores booleanos o logaritmos.

TF = Nº Total de la KW en el documento / Nº Total de palabras en el documento

IDF: Frecuencia inversa de documento

Prosiguiendo con nuestra aventura de determinar qué documento es más relevante para nuestra cadena de búsqueda «playas del mediterraneo» nos encontraríamos con el problema de que «del» se encuentra con una frecuencia muchísimo mayor dentro de los documentos que «playas» o «mediterraneo». En consecuencia «del» no es una buena palabra para determinar la relevancia de un determinado documento con respecto a la consulta a diferencia de palabras menos frecuentes como «playas» o «mediterraneo». Y es aquí, ante este problema donde se incorpora el IDF cuyo efecto es el de disminuir el peso de aquéllos términos que se repiten mucho en el total de los documentos y otorga mayor valor a esas palabras menos frecuentes.

Igualmente en este caso puede expresarse matemáticamente con expresiones que incluyen logaritmos o de manera simplificada:

IDF = Nº Total de documentos / Nº de documentos con la KW

Ejemplo de cálculo del TF*IDF:

Supón que estás leyendo un documento de 100 palabras dónde la palabra «playa» aparece 3 veces.

El TF se calcularía:

TF = 3/100 = 0,03

Se encuentran 10 millones de documentos y la palabra «playa» supongamos aparece en 1.000.

El IDF se calcularía:

log (10.000.000/1.000) = 4

Finalmente aplicamos la expresión completa del TF*IDF y tenemos que:

Master en SEO y Posicionamiento Web en Buscadores

Aprende SEO de la mano de los mejores profesionales

¡Quiero informarme!

TF x IDF = 0.03 x 4 = 0,12

Algoritmos, SEO y TF*IDF

Los que nos dedicamos al SEO somos conscientes de que Google continuamente está cambiando introduciendo modificaciones en el su algoritmo. Modificaciones menores por así decirlo de 2 a 5 diarias y grandes cambios en el algoritmo que son comunicadas desde Google y que corren como la pólvora por la blogosfera.

Dichos cambios van dirigidos en gran parte, o así se cree, a mostrar los resultados más relevantes ante la consulta del usuario en el motor de búsqueda. Pues bien, me gustaría resaltar un par de dichos cambios que dan lugar a relacionar la importancia de, precisamente, el TF*IDF en la estrategia SEO sobre todo en lo que la generación de contenidos se refiere.

Hummingbirg (Colibrí)

Este cambio en el algoritmo (Google Hummingbirg) trata de descifrar búsquedas complejas por parte del usuario, que hasta el momento de introducir dicha modificación, no aportaba los mejores resultados a las búsquedas en cuestión.

El hecho de cambios en la conducta del usuario con respecto a la búsqueda estaría detrás de esto. Búsquedas en un lenguaje más informal derivadas de contextos en los que smartphone es el protagonista y situaciones espontáneas, la familiaridad con el propio buscador, realización de búsquedas en lenguaje más descriptivo y coloquial, búsquedas más sofisticadas y búsquedas por voz empujan a Google a refinar su motor de búsqueda.

Por ejemplo en lugar de buscar «hoteles en mallorca», podemos preguntar «cual es el mejor hotel en mallorca»

Anteriormente ante una búsqueda Google buscaba palabras y sinónimos y  atendiendo a los más de 200 factores que influyen en el posicionamiento mostraba el resultado al usuario. Ahora Google está tratando de entender el significado de las palabras en cambio ahora se tiene mucho más en cuenta la interacción del usuario con los resultados y su actividad dentro de dichos sites.

Algunos ejemplos de cómo Google va consiguiendo descifrar las búsquedas más complejas podemos verlas en los siguientes ejemplos:

Búsqueda#1. «cuando murio prince»

Qué es el TF-IDF y qué relación tiene con el SEO - cuando murió Prince

Búsqueda#2. «quien es barack obama»

Qué es el TF-IDF y qué relación tiene con el SEO - quién es Barack Obama

Búsqueda#3 «albumes iron maiden»

Qué es el TF-IDF y qué relación tiene con el SEO - albumes iron maiden

Búsqueda#4 «farmacias cerca»

Qué es el TF-IDF y qué relación tiene con el SEO - farmacias cerca

Dicho todo esto, podemos empezar a vislumbrar que la máxima de contenido de valor para el usuario va si a seguir aumentando en importancia con lo que podemos considerar que si bien es cierto que el concepto de keyword a atacar seguirá teniendo un papel central, no es menos cierto que debido a lo expuesto anteriormente, que contenidos que puedan no tener una prominencia de determinadas keywords pero que aporten al usuario lo que anda buscando estén bien posicionados ante determinadas búsquedas en base a esas otras señales que el buscador se está esforzando en identificar.

Y ahora… regalito por leer hasta aqui 😀

Herramientas para calcular el TF*IDF

Estas herramientas analizan un site y proporcionan una lista de palabras que están directamente relacionadas con las palabras clave o temáticas.

Especialmente interesante para descubrir qué temas, palabras y conceptos relacionados con nuestro negocio no estamos utilizando.

Las más destacadas son:

Si conoces alguna otra o quieres aportar algo a este artículo déjame un comentario.

Si te ha parecido interesante este tema y quieres especializarte en Posicionamiento SEO en Buscadores, te recomiendo el Master en SEO y Posicionamiento Web, que de la mano de los mejores profesionales, podrás adquirir toda la formación necesaria para poder posicionar en el Top 1 lo que te propongas.

Artículos relacionados:

Master en SEO y Posicionamiento Web en Buscadores

Aprende SEO de la mano de los mejores profesionales

¡Quiero informarme!

José Luis López Lorente

Leer más

6 comentarios en Qué es el TF-IDF y qué relación tiene con el SEO

  1. José Luis López Lorente dice:

    Hola Rafael! gracias por tu comentario, pues tienes toda la razon, voy a tratar de solucionarlo lo antes posible, gracias de nuevo 🙂

  2. Muy buen artículo Jose Luis, la única duda que se me plantea es a la hora de calcular el factor IDF. En el ejemplo puesto si hay 10 millones de resultados y 1.000 documentos con esa KW la cuenta no sería log (10.000.000/1.000)?? ?
    Por lo demás muy buen post ????

    1. José Luis López Lorente dice:

      Estimado Rafael, ya está corregido 🙂

  3. José Luis López Lorente dice:

    Un placer participar! Un saludo a toda la Comunidad IEBS y cualquier comentario es bienvenido 🙂

    1. Luis Marcelo Quinchalef Astorga dice:

      Hola José Luis,

      Gran artículo. Respondiendo a tu sugerencia comento que Seolyze es una gran herramienta que mide todo lo explicado aquí de forma efectiva. Creo que fue la pionera de eso. También Xovi cuenta con ese apartado para medir esos factores en uno de sus apartados.
      Espero sirva de ayuda el comentario. Un saludo!!

    2. José Luis López Lorente dice:

      Muchas gracias Marcelo! tomo nota
      Un saludo

Deja una respuesta

Síguenos en las redes