No es NO by Gary Illes

Estaba entretenido terminando de preparar las próximas clases de clasificación y detección de similaridad entre URLs, cuando me surgió la duda de si Google seguía usando SVMs (Support Vector Machines) como modelo de entrenamiento de su filtro Panda. "¿Qué es eso de SVM?" Tranquil@ que ahora lo vemos.

Pues en esas estaba, insisto, cuando se me ocurrió preguntarl a Gary Illes, si explicar cómo funcionan los SVM era un buen método para explicar cómo funciona Panda. Y me contestó... Dos veces. Y menudas contestaciones... "Ahora vas y lo cascas"

Primero me da largas... Me suelta un enlace que, para ser franco Gary, para mi consulta de búsqueda tu resultado no era más que THIN CONTENT... así entre tú y yo, ahora que nadie nos oye... Que no esperaba que me dieses la fórmula, pero decir qué modelos de clasificación o clustering estáis gastando, tampoco va a hacer que nosotros simples mortales, podamos siquiera soñar con acercarnos a la potencia de vuestros datasets y datacenters... Que sólo es por tratar de ser un poco profesional y entender cómo funciona lo que me da de comer... que no voy a montar un buscador...

Cuando le explico los motivos de mi pregunta, su respuesta fué que funcionase así hace 5 años no significa que lo siguiese haciendo ahora... Claro! Me lo creo! En 5 años han evolucionado hasta mis calzoncillos (y la moda no es lo mío...), no espero menos de vosotros... Pero no te has querido mojar, así que ahora toca meternos en el río para aclarar un poco todo ésto.

CÓMO FUNCIONA EL INDEXADOR DE GOOGLE (Versión corta)

Para entender cómo funciona el filtro panda, antes debemos entender cómo funciona el propio buscador. Voy a usar la imagen del paper original, aunque la estructura haya sufrido bastantes cambios producidos principalmente por caffeine, hummingbird y rankbrain. Pero para lo que quiero explicar, nos sobra.

El indexador de Google es el encargado de parsear la información almacenada en el repositorio, prepara un archivo con los enlaces externos (from, to & anchor) econtrados en cada documento... Y es el encargado de vectorizar dichos documentos. Es decir, cada URL que encuentra, la transforma al espacio vectorial para poder trabajar de manera matemática.

 

Por un lado, crea un índice directo de documentos, que es un listado de documentos donde se asignan los términos que aparecen en cada uno de ellos, el peso TFIDF que tienen cada uno de esos términos, y en que posición aparecen. A este conjunto de términos Google le llama hit, aunque en el resto de literatura científica se le conozca como BoW (Bag of Words).

También crea un índice inverso de términos, que es un listado de términos con los documentos en los que se encuentran cada uno de ellos. Es el típico índice trasero de un libro técnico.

Una vez que tiene los documentos convertidos en vectores, ya puede comparar la similaridad entre documentos y consultas de los usuarios, y hacer un listado de posibles documentos que respondan a dichas consultas. Este proceso se realiza mediante la fórmula del coseno, que tenderá a 0 cuanto más similares sean consulta y documento.

Todo esto es muy básico. Es sólo para que entendáis cómo funciona un buscador. Tan básico que este modelo no nos devolvería documentos que no contengan el término exacto de la consulta. Para eso se usa el algoritmo LSI, o Latent Semantic Indexing. que detectará sinonimias y polisemias, y el algoritmo LDA o Latent Dirichlet Allocation, para clasificar los documentos mediante distribuciones probabilísticas Bayesianas, por los temas o topics que tratan.

Por supuesto en este proceso no hemos hablado aún de los filtros Penguin y Panda. Ni tampoco de Hummingbird. Todo llegará... pero hoy me veo con poca gana de escribir

CÓMO FUNCIONA GOOGLE PANDA

Una vez entendido cómo se representa un documento de manera vectorial, ya podemos meternos en cómo analizar enormes conjuntos de datos de documentos, que es lo que es internet. En la conversación con Gary, le puse un enlace a un post donde se hablaba de una entrevista que Matt Cutts (bufff... cuánto tiempo sin escribir su nombre) y Amit Shingal dieron para la revista Wired, y dejaron algunas perlas sobre cómo funciona Panda (o funcionaba).

Wired.com: But how do you implement that algorithmically?

CuttsI think you look for signals that recreate that same intuition, that same experience that you have as an engineer and that users have. Whenever we look at the most blocked sites, it did match our intuition and experience, but the key is, you also have your experience of the sorts of sites that are going to be adding value for users versus not adding value for users. And we actually came up with a classifier to say, okay, IRS or Wikipedia or New York Times is over on this side, and the low-quality sites are over on this side. And you can really see mathematical reasons …

SinghalYou can imagine in a hyperspace a bunch of points, some points are red, some points are green, and in others there’s some mixture. Your job is to find a plane which says that most things on this side of the place are red, and most of the things on that side of the plane are the opposite of red.

En la entrevista comentan varias cosas interesantes para nosotros, como que los Quality Raters son simples entrenadores que ayudan al algoritmo (mediante sus ratings) a detectar señales, que les ayuden a generar modelos que puedan generalizarse para cualquier sitio web. Pero vamos, que dejan claro que utilizan SVMs, o que utilizaban...

Si buceáis por papers de Google, encontraréis unos cuantos haciendo referencia a estudios comparativos entre modelos de aprendizaje, y más o menos podemos hacernos una idea de por dónde van los tiros. Son de las cosas que veremos en los cursos de clasificación y similaridad de URLs, ya que prácticamente veremos todos los modelos de aprendizaje y algoritmos existentes a día de hoy.

El crack de Carlos Redondo también intervino en la conversación, y SEOs que entiendan el core de Google mejor que él, conozco a pocos:

Pero vamos a dejarlo aquí por hoy... Que aún no hemos sacado los cursos y veo que si sigo así acabo publicándolos en abierto... jejejeje... Si te preocupa Panda, deberías conocer la herramienta Safecont que te ayudará a detectar problemas de ThinContent y Similaridad, y a dormir mejor por las noches... En todo caso, no hay nada como investigar y que cada uno saque sus propias conclusiones. Esperaremos a Octubre que viene a Barcelona, e intentaremos "secuestrarle" en alguna barra de bar, y seguiremos informando...

0
0
0
s2smodern

Instagram Feed

SEO.school

  • hola@seo.school
  • 653785838
amethystcustomturquoise