Google, si estás leyendo esto, es demasiado tarde 😉 .
Ok. Cruje los nudillos. Vayamos al grano. Se ha filtrado documentación interna de la API Content Warehouse de Google Search. Los microservicios internos de Google parecen reflejar lo que ofrece Google Cloud Platform y la versión interna de la documentación para el obsoleto Document AI Warehouse se publicó accidentalmente de forma pública en un repositorio de código para la biblioteca de clientes. La documentación de este código también fue capturada por un servicio externo de documentación automatizada.
Según el historial de cambios, este error en el repositorio de código se corrigió el 7 de mayo, pero la documentación automatizada sigue activa. En un esfuerzo por limitar la responsabilidad potencial, no la enlazaré aquí, pero debido a que todo el código en ese repositorio fue publicado bajo la licencia Apache 2.0, a cualquiera que lo encontrara se le concedió un amplio conjunto de derechos, incluyendo la capacidad de usarlo, modificarlo y distribuirlo de todos modos.

He revisado los documentos de referencia de la API y los he contextualizado con otras filtraciones anteriores de Google y con el testimonio antimonopolio del Departamento de Justicia. Estoy combinando esto con la investigación exhaustiva de patentes y libros blancos realizada para mi próximo libro, The Science of SEO (La ciencia del SEO). Aunque no hay detalles sobre las funciones de puntuación de Google en la documentación que he revisado, hay una gran cantidad de información sobre los datos almacenados para el contenido, los enlaces y las interacciones de los usuarios. También hay diversos grados de descripciones (desde decepcionantemente escasas hasta sorprendentemente reveladoras) de las características que se manipulan y almacenan.
Estaríamos tentados de llamarlos «factores de clasificación», pero sería impreciso. Muchos de ellos, incluso la mayoría, son factores de clasificación, pero muchos no lo son. Lo que voy a hacer aquí es contextualizar algunos de los sistemas y características de clasificación más interesantes (al menos, los que he podido encontrar en las primeras horas de revisión de esta filtración masiva) basándome en mi extensa investigación y en cosas que Google nos ha contado o mentido a lo largo de los años.
«Mentir» es duro, pero es la única palabra precisa que se puede usar aquí. Aunque no culpo necesariamente a los representantes públicos de Google por proteger su información privada, sí discrepo de sus esfuerzos por desacreditar activamente a personas del mundo del marketing, la tecnología y el periodismo que han presentado descubrimientos reproducibles. Mi consejo a los futuros Googlers que hablen de estos temas: A veces es mejor decir simplemente «no podemos hablar de eso». Tu credibilidad importa, y cuando salen a la luz filtraciones como esta y testimonios como el del juicio del DOJ, resulta imposible confiar en tus futuras declaraciones.
Advertencias sobre el artículo
Creo que todos sabemos que la gente se esforzará por desacreditar mis conclusiones y análisis de esta filtración. Algunos se preguntarán por qué importa y dirán «pero eso ya lo sabíamos». Así que quitemos las advertencias de en medio antes de pasar a lo bueno.
- Tiempo y contexto limitados – Con el fin de semana festivo, sólo he podido dedicar unas 12 horas a concentrarme a fondo en todo esto. Estoy increíblemente agradecido a algunas partes anónimas que fueron de gran ayuda al compartir sus conocimientos conmigo para ayudarme a ponerme al día rápidamente. Además, al igual que con la filtración de Yandex que cubrí el año pasado, no tengo una imagen completa. Mientras que en el caso de Yandex teníamos el código fuente para analizar y ninguna de las ideas que había detrás, en este caso tenemos algunas de las ideas que hay detrás de miles de funciones y módulos, pero no el código fuente. Tendrás que perdonarme por compartir esto de una manera menos estructurada de lo que lo haré en unas semanas después de haberme sentado con el material por más tiempo.
- No hay funciones de puntuación – No sabemos cómo se ponderan las características en las distintas funciones de puntuación posteriores. No sabemos si se utiliza todo lo disponible. Sabemos que algunas características están obsoletas. A menos que se indique explícitamente, no sabemos cómo se utilizan las cosas. No sabemos dónde ocurre cada cosa en el proceso. Tenemos una serie de sistemas de clasificación con nombre que se ajustan vagamente a cómo Google los ha explicado, cómo los SEO han observado las clasificaciones en la naturaleza, y cómo las solicitudes de patentes y la literatura IR explica. En última instancia, gracias a esta filtración, ahora tenemos una imagen más clara de lo que se está considerando que puede informar a lo que nos centramos en contra de ignorar en SEO de cara al futuro.
- Probablemente el primero de varios posts – Este post será mi puñalada inicial de lo que he revisado. Es posible que publique entradas posteriores a medida que continúe profundizando en los detalles. Sospecho que este artículo dará lugar a que la comunidad SEO se apresure a analizar estos documentos y, colectivamente, estaremos descubriendo y recontextualizando cosas durante los próximos meses.
- Esta parece ser la información actual – Lo mejor que puedo decir, esta fuga representa la arquitectura actual, activa de Google Search Content Storage a partir de marzo de 2024. (Que una persona de relaciones públicas de Google diga que me equivoco. En realidad, vamos a saltarnos la canción y el baile). Según el historial de confirmaciones, el código relacionado se publicó el 27 de marzo de 2024 y no se eliminó hasta el 7 de mayo de 2024.

- Correlación no es causalidad – Vale, esta no es realmente aplicable aquí, pero quería asegurarme de que cubría todas las bases.
HAY 14.000 FUNCIONES DE CLASIFICACIÓN DE GOOGLE Y MÁS EN LOS DOCUMENTOS
Hay 2.596 módulos representados en la documentación de la API con 14.014 atributos (características) que tienen este aspecto:

Los módulos están relacionados con componentes de YouTube, Assistant, Books, búsqueda de vídeos, enlaces, documentos web, infraestructura de rastreo, un sistema de calendario interno y la API People. Al igual que Yandex, los sistemas de Google funcionan en un repositorio monolítico (o «monorepo») y las máquinas operan en un entorno compartido. Esto significa que todo el código se almacena en un único lugar y que cualquier máquina de la red puede formar parte de cualquiera de los sistemas de Google.

La documentación filtrada describe cada módulo de la API y los desglosa en resúmenes, tipos, funciones y atributos. La mayor parte de lo que estamos viendo son las definiciones de propiedades para varios búferes de protocolo (o protobufs) a los que se accede a través de los sistemas de clasificación para generar SERPs (Search Engine Result Pages – lo que Google muestra a los buscadores después de realizar una consulta).

Por desgracia, muchos de los resúmenes hacen referencia a enlaces Go, que son URL de la intranet corporativa de Google, que ofrecen detalles adicionales sobre distintos aspectos del sistema. Sin las credenciales de Google adecuadas para acceder y ver estas páginas (lo que casi con toda seguridad requeriría ser un Googler actual del equipo de Búsqueda), nos vemos abandonados a nuestra suerte para interpretarlas.
LOS DOCUMENTOS DE LA API REVELAN ALGUNAS MENTIRAS NOTABLES DE GOOGLE
Los portavoces de Google han hecho todo lo posible para desorientarnos y engañarnos sobre diversos aspectos del funcionamiento de sus sistemas, en un esfuerzo por controlar nuestro comportamiento como SEO. No voy a llegar al extremo de llamarlo «ingeniería social» debido a la historia cargada de ese término. En su lugar, lo llamaremos «gaslighting». Las declaraciones públicas de Google probablemente no son esfuerzos intencionados para mentir, sino más bien para engañar a los spammers potenciales (y a muchos SEOs legítimos también) para despistarnos sobre cómo impactar en los resultados de búsqueda.
A continuación, presento afirmaciones de empleados de Google junto con hechos de la documentación con comentarios limitados para que puedas juzgar por ti mismo.
«No tenemos nada parecido a la autoridad de dominio»
Los portavoces de Google han dicho en numerosas ocasiones que no utilizan la «autoridad de dominio». Siempre he supuesto que se trataba de una mentira por omisión y ofuscación.
Al decir que no utilizan la autoridad de dominio, podrían estar diciendo específicamente que no utilizan la métrica de Moz llamada «Domain Authority» (obviamente ). También podrían estar diciendo que no miden la autoridad o importancia de un tema específico (o dominio) en relación con un sitio web. Esta confusión semántica les permite no responder nunca directamente a la pregunta de si calculan o utilizan métricas de autoridad para todo el sitio.
Gary Ilyes, analista del equipo de búsqueda de Google que se dedica a publicar información para ayudar a los creadores de sitios web, ha repetido esta afirmación en numerosas ocasiones.

Y Gary no está solo. John Mueller, un «defensor de las búsquedas que coordina las relaciones de búsqueda de Google» declaró en este vídeo «no tenemos puntuación de autoridad del sitio web».
En realidad, como parte de las Señales de Calidad Comprimidas que se almacenan por documento, Google tiene una característica que computan llamada «siteAuthority».

No sabemos específicamente cómo se calcula esta medida o cómo se utiliza en las funciones de puntuación posteriores, pero ahora sabemos definitivamente que existe y que se utiliza en el sistema de clasificación Q*. Resulta que Google sí tiene una autoridad de dominio global. Los Googlers afirman que «la tenemos, pero no la utilizamos», o «no entiendes lo que significa», o… espera, he dicho «comentarios limitados», ¿no? Sigamos.
«No utilizamos los clics para la clasificación»
Acabemos con esto de una vez por todas.
El testimonio de Pandu Nayak en el juicio antimonopolio del DOJ reveló recientemente la existencia de los sistemas de clasificación Glue y NavBoost. NavBoost es un sistema que emplea medidas basadas en los clics para mejorar, degradar o reforzar una clasificación en la búsqueda web. Nayak indicó que Navboost existe desde 2005 e históricamente utilizaba 18 meses consecutivos de datos de clics. El sistema se actualizó recientemente para utilizar 13 meses de datos y se centra en los resultados de búsqueda web, mientras que un sistema llamado Glue se asocia con otros resultados de búsqueda universales. Pero, incluso antes de esa revelación, disponíamos de varias patentes (incluida la de 2007 sobre Time Based Ranking) que indican específicamente cómo pueden utilizarse los registros de clics para cambiar los resultados.
También sabemos que los clics como medida del éxito es una práctica recomendada en la recuperación de información. Sabemos que Google ha pasado a utilizar algoritmos basados en el aprendizaje automático y que el aprendizaje automático requiere variables de respuesta para perfeccionar su rendimiento. A pesar de esta asombrosa evidencia, todavía hay confusión en la comunidad SEO debido a la mala dirección de los portavoces de Google y la publicación vergonzosamente cómplice de artículos en todo el mundo del marketing de búsqueda que repiten acríticamente las declaraciones públicas de Google.
Gary Ilyes ha abordado esta cuestión de la medición de clics muchas veces. En una ocasión reforzó lo que el ingeniero de Google Search Paul Haahr compartió en su charla de SMX West de 2016 sobre experimentos en vivo, diciendo que «utilizar los clics directamente en los rankings sería un error».

Más tarde, utilizó su plataforma para menospreciar a Rand Fishkin (fundador y CEO de Moz, y un veterano en SEO) diciendo que «el tiempo de permanencia, el CTR, cualquiera que sea la nueva teoría de Fishkin, son generalmente basura inventada».

En realidad, Navboost dispone de un módulo específico dedicado por completo a las señales de clic.
El resumen de ese módulo lo define como «señales de clics e impresiones para Craps», uno de los sistemas de clasificación. Como vemos a continuación, se consideran como métricas los clics malos, los clics buenos, los últimos clics más largos, los clics no aplastados y los últimos clics más largos no aplastados. Según la patente de Google «Scoring local search results based on location prominence», «Squashing is a function that prevents one large signal from dominating the others». En otras palabras, los sistemas normalizan los datos de clics para garantizar que no haya una manipulación descontrolada basada en la señal de clics. Los responsables de Google argumentan que los sistemas que aparecen en patentes y libros blancos no son necesariamente los que están en producción, pero NavBoost sería un sinsentido construirlo e incluirlo si no fuera una parte fundamental de los sistemas de recuperación de información de Google.

Muchas de estas mismas medidas basadas en los clics se encuentran también en otro módulo relacionado con las señales de indexación. Una de las medidas es la fecha del «último buen clic» en un documento determinado. Esto sugiere que el deterioro del contenido (o la pérdida de tráfico a lo largo del tiempo) también es una función de una página de clasificación que no genera la cantidad de clics esperada para su posición en la SERP.
Además, la documentación representa a los usuarios como votantes y sus clics se almacenan como sus votos. El sistema cuenta el número de clics erróneos y segmenta los datos por país y dispositivo.
También almacenan qué resultado tuvo el clic más largo durante la sesión. Por tanto, no basta con realizar la búsqueda y hacer clic en el resultado, los usuarios también tienen que pasar un tiempo significativo en la página. Los clics largos son una medida del éxito de una sesión de búsqueda, al igual que el tiempo de permanencia, pero en esta documentación no existe una función específica denominada «tiempo de permanencia». No obstante, los clics prolongados son efectivamente medidas de lo mismo, lo que contradice las declaraciones de Google al respecto.
Varias fuentes han indicado que NavBoost es «ya una de las señales de clasificación más potentes de Google». La documentación filtrada especifica «Navboost» por su nombre 84 veces, con cinco módulos que incluyen Navboost en el título. También hay pruebas de que contemplan su puntuación a nivel de subdominio, dominio raíz y URL, lo que indica intrínsecamente que tratan de forma diferente los distintos niveles de un sitio. No voy a entrar en la discusión subdominio vs. sudominio, pero más adelante hablaremos de cómo los datos del sistema también han informado al algoritmo Panda.
Así que, sí, Google no menciona «CTR» o «tiempo de permanencia» con esas palabras exactas en esta documentación, pero se incluye el espíritu de lo que Rand demostró: clics en los resultados de búsqueda y medidas de una sesión de búsqueda satisfactoria. Las pruebas son bastante definitivas, no cabe duda de que Google utiliza los clics y el comportamiento posterior al clic como parte de sus algoritmos de clasificación.
«No hay Sandbox»
Los portavoces de Google han sido categóricos al afirmar que no existe un sandbox al que se segreguen los sitios web en función de su antigüedad o de la falta de señales de confianza. En un tuit ahora eliminado, John Muller respondió a una pregunta sobre cuánto tiempo se tarda en ser elegible para clasificar indicando que «No hay sandbox».

En el módulo PerDocData, la documentación indica un atributo llamado hostAge que se utiliza específicamente «para sandbox spam fresco en tiempo de servicio».
Resulta que hay una caja de arena después de todo. ¿Quién lo sabía? Ah, sí, Rand lo sabía.
«No utilizamos nada de Chrome para el Ranking»
Anteriormente se había citado a Matt Cutts diciendo que Google no utiliza los datos de Chrome como parte de la búsqueda orgánica. Más recientemente, John Mueller reforzó esta idea.

Uno de los módulos relacionados con las puntuaciones de calidad de las páginas presenta una medida a nivel de sitio de las visitas desde Chrome. Otro módulo que parece estar relacionado con la generación de sitelinks también tiene un atributo relacionado con Chrome.
![The image is a slide titled "Realtime Boost Signal" with a link to (go/realtime-boost). The content of the slide includes information on the sources and uses of real-time boost signals, as well as graphs illustrating query trends. Here are the details: Title: Realtime Boost Signal (go/realtime-boost) Spikes and Correlations on Content Creation Location (S2), Entities, Salient Terms, NGrams... Sources: Freshdocs-instant Chrome Visits (soon) (highlighted in yellow) Instant Navboost (soon) Not restricted by Twitter contract Run in Query Rewriter: Can be used anywhere: Freshbox, Stream... Graphs: Top Right Graph: Titled "Twitter Hemlock Query Trend" with a red line indicating "Noise level (median + 1IQR)" and a spike indicated by an arrow labeled "Spike." Bottom Right Graph: Titled "Query [Dilma]" with the caption "Spike 5 mins after impeachment process announced." It shows a spike in the score time series for the term "Dilma." At the bottom, the slide has a note saying "No birds were hurt in the making of Realtime Boost signal," and the Google logo is displayed in the bottom left corner.](http://agenciacero.com/wp-content/uploads/2024/12/unnamed.png)
Una presentación interna filtrada de mayo de 2016 sobre el sistema RealTime Boost también indica que los datos de Chrome iban a llegar a las búsquedas. Es decir, ya me entiendes.
Los portavoces de Google tienen buenas intenciones, pero ¿podemos fiarnos de ellos?
La respuesta rápida es que no cuando te acercas demasiado a la salsa secreta.
No albergo mala voluntad contra las personas que he citado aquí. Estoy seguro de que todos ellos hacen todo lo posible por ofrecer apoyo y valor a la comunidad dentro de los límites permitidos. Sin embargo, estos documentos dejan claro que debemos seguir tomando lo que dicen como una aportación y nuestra comunidad debe seguir experimentando para ver qué funciona.
ARQUITECTURA DE LOS SISTEMAS DE CLASIFICACIÓN DE GOOGLE
Conceptualmente, puedes pensar en «el algoritmo de Google» como una sola cosa, una ecuación gigante con una serie de factores de clasificación ponderados. En realidad, se trata de una serie de microservicios en los que muchas funciones se procesan previamente y se ponen a disposición en tiempo de ejecución para componer la SERP. Según los distintos sistemas a los que se hace referencia en la documentación, puede haber más de cien sistemas de clasificación diferentes. Suponiendo que estos no sean todos los sistemas, quizás cada uno de los sistemas por separado represente una «señal de clasificación» y quizás así es como Google llega a las 200 señales de clasificación de las que habla a menudo.
En la charla de Jeff Dean «Building Software Systems at Google and Lessons Learned», mencionó que las primeras iteraciones de Google enviaban cada consulta a 1.000 máquinas para que la procesaran y respondieran en menos de 250 milisegundos. También hizo un diagrama de una versión anterior de la abstracción de la arquitectura del sistema. Este diagrama ilustra que Super Root es el cerebro de la Búsqueda de Google que envía las consultas y lo une todo al final.

El distinguido ingeniero de investigación Marc Najork, en su reciente presentación sobre la recuperación de información generativa, mostró un modelo abstracto de la búsqueda de Google con su sistema RAG (también conocido como Search Generative Experience/AI Overviews). Este diagrama ilustra una serie de diferentes almacenes de datos y servidores que procesan las distintas capas de un resultado.

El informante de Google, Zach Vorhies, filtró esta diapositiva que muestra las relaciones de diferentes sistemas dentro de Google por sus nombres internos. En la documentación se hace referencia a varios de ellos.
![The image is a diagram titled "a sample of ML across the company" and shows how machine learning (ML) is integrated into various Google and Alphabet products. The diagram illustrates connections between different ML teams and products, with circle size proportional to the number of connections. Title: a sample of ML across the company Subtitle: Machine learning is core to a wide range of Google products and Alphabet companies. Components: ML Teams (green circles): Sibyl Drishti Brain Laser SAFT Alphabet companies (red circles): [X] Chauffeur Life Sciences Google products (yellow circles): Nest Search Indexing Android Speech Geo Play Music, Movies, Books, Games Image Search G+ GDN Context Ads YouTube Search Translate Email Inbox Play Apps Product Ads GMob Mobile Ads Google TV Security Google Now WebAnswers Genie Connections: Lines connect various ML teams to multiple Google products and Alphabet companies, indicating collaboration or integration of machine learning technologies. For example, the "Brain" ML team connects to numerous products such as Nest, Search Indexing, Android Speech, Geo, YouTube, and Translate, among others. The "Laser" team connects to products like Google TV, Security, Google Now, and Play Apps. Legend: Green circles: ML team Red circles: Alphabet companies Yellow circles: Google products Circle size is proportional to the number of connections Logo and Disclaimer: Google logo at the bottom left corner "Confidential & Proprietary" note at the bottom right corner This diagram visually represents the extensive integration of machine learning across various products and services within Google and its parent company Alphabet.](http://agenciacero.com/wp-content/uploads/2024/12/unnamed.png)
Utilizando estos tres modelos de alto nivel, podemos empezar a pensar en cómo algunos de estos componentes juegan juntos. Por lo que puedo deducir de la documentación, parece que esta API se basa en Spanner de Google. Spanner es una arquitectura que básicamente permite una escalabilidad infinita de almacenamiento de contenidos y computación, al tiempo que trata una serie de ordenadores conectados en red globalmente como uno solo.
Hay que admitir que es algo difícil entender la relación entre todo a partir de la documentación, pero el currículum de Paul Haahr ofrece una valiosa perspectiva de lo que hacen algunos de los sistemas de clasificación mencionados. Destacaré los que conozco por su nombre y los segmentaré según su función.
Rastreo
- Trawler – El sistema de rastreo web. Dispone de una cola de rastreo, mantiene las tasas de rastreo y comprende la frecuencia con la que cambian las páginas.
Indexación
- Alexandria – El núcleo del sistema de indexación.
- SegIndexer – Sistema que coloca los documentos en niveles dentro del índice.
- TeraGoogle – Sistema de indexación secundario para documentos que viven en el disco a largo plazo.
Renderización
- HtmlrenderWebkitHeadless – Sistema de renderizado para páginas JavaScript. Curiosamente, su nombre se debe a Webkit y no a Chromium. En la documentación se menciona Chromium, por lo que es probable que Google utilizara WebKit en un principio y cambiara a Headless Chrome en cuanto llegó.
Procesamiento
- LinkExtractor – Extrae enlaces de las páginas.
- WebMirror – Sistema para gestionar la canonicalización y la duplicación.
Clasificación
- Mustang – El sistema primario de puntuación, clasificación y servicio.
- Ascorer – El algoritmo primario de clasificación que clasifica las páginas antes de cualquier ajuste de re-clasificación.
- NavBoost – Sistema de re-ranking basado en los registros de clics del comportamiento de los usuarios.
- FreshnessTwiddler – Sistema de reordenación de documentos basado en la frescura.
- WebChooserScorer – Define los nombres de las características utilizadas en la puntuación de fragmentos.
Servidor
- Google Web Server – GWS es el servidor con el que interactúa el frontend de Google. Recibe las cargas útiles de datos para mostrarlas al usuario.
- SuperRoot: es el cerebro de la Búsqueda de Google que envía mensajes a los servidores de Google y gestiona el sistema de postprocesamiento para la reclasificación y la presentación de resultados.
- SnippetBrain – El sistema que genera snippets para los resultados.
- Glue – El sistema para reunir resultados universales utilizando el comportamiento del usuario.
- Cookbook – Sistema de generación de señales. Hay indicios de que los valores se crean en tiempo de ejecución.
Como ya he dicho, hay muchos más sistemas descritos en estos documentos, pero no está del todo claro lo que hacen. Por ejemplo, SAFT y Drishti del diagrama anterior también están representados en estos documentos, pero sus funciones no están claras.
¿QUÉ SON LOS TWIDDLERS (¿DESORIENTADORES?)?
Hay poca información en línea sobre los Twiddlers en general, así que creo que merece la pena explicarlos aquí para que podamos contextualizar mejor los distintos sistemas Boost que encontramos en los documentos.
Los Twiddlers son funciones de re-clasificación que se ejecutan después del algoritmo primario de búsqueda Ascorer. Funcionan de forma similar a como lo hacen los filtros y las acciones en WordPress, donde lo que se muestra se ajusta justo antes de ser presentado al usuario. Los Twiddlers pueden ajustar la puntuación de recuperación de información de un documento o cambiar la clasificación de un documento. Muchos de los experimentos en vivo y los sistemas con nombre que conocemos se implementan de esta manera. Como demuestra este Xoogler, son bastante importantes en diversos sistemas de Google:

Los Twiddlers pueden ofrecer restricciones de categoría, lo que significa que se puede promover la diversidad limitando específicamente el tipo de resultados. Por ejemplo, el autor puede decidir permitir sólo 3 entradas de blog en una SERP determinada. Esto puede aclarar cuándo la clasificación es una causa perdida basada en el formato de su página.
Cuando Google dice que algo como Panda no formaba parte del algoritmo principal, probablemente significa que se lanzó como un Twiddler como un cálculo de mejora o degradación del reranking y más tarde se trasladó a la función de puntuación principal. Piense que es similar a la diferencia entre la renderización del lado del servidor y del lado del cliente.
Presumiblemente, cualquiera de las funciones con el sufijo Boost opera utilizando el marco Twiddler. Éstos son algunos de los Boosts identificados en la documentación:
- NavBoost
- QualityBoost
- RealTimeBoost
- WebImageBoost
Por sus convenciones de nomenclatura, todos son bastante autoexplicativos.
También hay un documento interno sobre Twiddlers que he revisado que habla de esto con más detalle, pero este post suena como si el autor hubiera visto el mismo documento que yo.
REVELACIONES CLAVE QUE PUEDEN INFLUIR EN SU FORMA DE HACER SEO
Vayamos a lo que realmente has venido a buscar. ¿Qué está haciendo Google que no sabíamos o de lo que no estábamos seguros y cómo puede afectar a mis esfuerzos de SEO?
Nota rápida antes de continuar. Siempre es mi objetivo exponer la industria SEO a nuevos conceptos. No es mi objetivo para darle una receta sobre cómo utilizarlo para su caso de uso específico. Si eso es lo que quiere, debe contratar iPullRank para su SEO. De lo contrario, siempre hay más que suficiente para que usted pueda extrapolar y desarrollar sus propios casos de uso.
Cómo funciona Panda
Cuando se lanzó Panda hubo mucha confusión. ¿Es aprendizaje automático? ¿Utiliza señales de usuario? ¿Por qué necesitamos una actualización para recuperarnos? ¿Es en todo el sitio? ¿Por qué he perdido tráfico en un determinado subdirectorio?
Panda se lanzó bajo la dirección de Amit Singhal. Singhal estaba decididamente en contra del aprendizaje automático debido a su limitada observabilidad. De hecho, hay una serie de patentes centradas en la calidad de los sitios para Panda, pero en la que quiero centrarme es en la no descriptiva «Clasificación de los resultados de búsqueda». La patente aclara que Panda es mucho más simple de lo que pensábamos. Se trata en gran medida de construir un modificador de puntuación basado en señales distribuidas relacionadas con el comportamiento de los usuarios y los enlaces externos. Ese modificador puede aplicarse a nivel de dominio, subdominio o subdirectorio.
«El sistema genera un factor de modificación para el grupo de recursos a partir del recuento de enlaces independientes y del recuento de consultas de referencia (paso 306). Por ejemplo, el factor de modificación puede ser una relación entre el número de enlaces independientes para el grupo y el número de consultas de referencia para el grupo. Es decir, el factor de modificación (M) puede expresarse como:
M=IL/RQ,
donde IL es el número de enlaces independientes contados para el grupo de recursos y RQ es el número de consultas de referencia contadas para el grupo de recursos».
Los enlaces independientes son básicamente lo que consideramos dominios raíz de enlace, pero las consultas de referencia son un poco más complicadas. Así es como se definen en la patente:
«Una consulta de referencia para un grupo particular de recursos puede ser una consulta de búsqueda previamente enviada que ha sido categorizada como referida a un recurso en el grupo particular de recursos. La categorización de una consulta de búsqueda particular previamente enviada como referida a un recurso en el grupo particular de recursos puede incluir: determinar que la consulta de búsqueda particular previamente enviada incluye uno o más términos que han sido determinados para referirse al recurso en el grupo particular de recursos.»
Ahora que tenemos acceso a esta documentación, está claro que las consultas de referencia son consultas de NavBoost.

Esto sugiere que las actualizaciones de Panda eran simplemente actualizaciones de la ventana móvil de consultas, de forma similar a como funcionan los cálculos de Core Web Vitals. También podría significar que las actualizaciones del gráfico de enlaces no se procesaban en tiempo real para Panda.
No es por polemizar, pero otra patente de Panda, la puntuación de calidad del sitio, también contempla una puntuación que es una relación entre las consultas de referencia y las selecciones o clics del usuario.
La conclusión es que es necesario conseguir más clics con éxito utilizando un conjunto más amplio de consultas y obtener más diversidad de enlaces si se quiere seguir clasificando. Conceptualmente, tiene sentido porque una pieza muy fuerte de contenido hará eso. Centrarse en dirigir más tráfico cualificado hacia una mejor experiencia de usuario enviará señales a Google de que su página merece clasificarse. Deberías centrarte en lo mismo para recuperarte de la Actualización de Contenido Útil.
Los autores son una característica explícita
Se ha escrito mucho sobre E-E-A-T. Muchos SEO son incrédulos debido a lo nebuloso que es puntuar la experiencia y la autoridad. También he destacado anteriormente lo poco que el marcado de autor está realmente en la web. Antes de conocer las incrustaciones vectoriales, no creía que la autoría fuera una señal suficientemente viable a escala web.

No obstante, Google almacena explícitamente los autores asociados a un documento como texto:

También buscan determinar si una entidad de la página es también el autor de la misma.

Esto, combinado con el mapeo exhaustivo de entidades e incrustaciones que se muestra en estos documentos, deja bastante claro que existe una medición exhaustiva de los autores.
Demostraciones
Hay una serie de degradaciones algorítmicas comentadas en la documentación. Las descripciones son limitadas, pero vale la pena mencionarlas. Ya hemos hablado de Panda, pero el resto de degradaciones que he encontrado son:
- Anchor Mismatch – Cuando el enlace no coincide con el sitio de destino al que enlaza, el enlace es degradado en los cálculos. Como he dicho antes, Google busca relevancia en ambos lados de un enlace.
- Descenso de la SERP: señal que indica un descenso basado en factores observados en la SERP, lo que sugiere una posible insatisfacción del usuario con la página, medida probablemente por los clics.
- Nav Demotion – Presumiblemente, se trata de una degradación aplicada a páginas que muestran malas prácticas de navegación o problemas de experiencia de usuario.
- Descenso de dominios de coincidencia exacta – A finales de 2012, Matt Cutts anunció que los dominios de coincidencia exacta no recibirían tanto valor como lo hacían históricamente. Existe una función específica para su degradación.
- Product Review Demotion – No hay información específica sobre esto, pero está listado como una degradación y probablemente relacionado con la reciente actualización de 2023 de las revisiones de productos.
- Degradación de ubicación: se indica que las páginas «globales» y «superglobales» pueden degradarse. Esto sugiere que Google intenta asociar páginas con una ubicación y clasificarlas en consecuencia.
- Descensos de porno – Este es bastante obvio.
- Otras degradaciones de enlaces: lo veremos en la siguiente sección.
Todas estas degradaciones potenciales pueden informar una estrategia, pero se reduce a hacer un contenido estelar con una fuerte experiencia de usuario y la construcción de una marca, si somos honestos.
Los enlaces siguen siendo importantes
No he visto ninguna prueba que refute las recientes afirmaciones de que los enlaces se consideran menos importantes. Una vez más, es probable que esto se deba a las propias funciones de puntuación y no a la forma en que se almacena la información. Dicho esto, se ha puesto mucho cuidado en extraer y diseñar características para comprender en profundidad el gráfico de enlaces.
El nivel de indexación influye en el valor de los enlaces
Una métrica denominada sourceType que muestra una relación poco clara entre el lugar en el que se indexa una página y su valor. Para que te hagas una idea, el índice de Google está estratificado en niveles en los que el contenido más importante, que se actualiza con regularidad y al que se accede, se almacena en memoria flash. El contenido menos importante se almacena en unidades de estado sólido y el contenido que se actualiza de forma irregular se almacena en discos duros estándar.

Efectivamente, esto viene a decir que cuanto más alto es el nivel, más valioso es el enlace. Las páginas que se consideran «frescas» también se consideran de alta calidad. Basta con decir que usted quiere que sus enlaces provengan de páginas que sean frescas o que aparezcan en el nivel superior. Esto explica en parte por qué obtener rankings de páginas de alto ranking y de páginas de noticias produce un mejor rendimiento en el ranking. Mira, ¡acabo de hacer que las relaciones públicas digitales vuelvan a estar de moda!
Señales de velocidad de spam de enlaces
Hay toda una serie de métricas sobre la identificación de picos de spam anchor text. Tomando nota de la función phraseAnchorSpamDays, Google tiene efectivamente la capacidad de medir la velocidad de enlace de spam.

Esto podría utilizarse fácilmente para identificar cuándo un sitio está haciendo spam y para anular un ataque de SEO negativo. Para aquellos que son escépticos acerca de esto último, Google puede utilizar estos datos para comparar una línea de base de descubrimiento de enlaces contra una tendencia actual y simplemente no contar esos enlaces en cualquier dirección.
Google sólo utiliza los últimos 20 cambios de una URL determinada al analizar los enlaces.
Ya he hablado anteriormente de cómo el sistema de archivos de Google es capaz de almacenar versiones de páginas a lo largo del tiempo de forma similar a Wayback Machine. Según tengo entendido, Google guarda para siempre lo que ha indexado. Esta es una de las razones por las que no se puede simplemente redirigir una página a un objetivo irrelevante y esperar que el link equity fluya.

Los docs refuerzan esta idea dando a entender que guardan todos los cambios que han visto para la página.

Cuando sacan datos a la superficie para compararlos recuperando DocInfo, sólo tienen en cuenta las 20 últimas versiones de la página.

Esto debería darte una idea de cuántas veces tienes que cambiar las páginas y hacer que se indexen para hacer «borrón y cuenta nueva» en Google.
El PageRank de la página de inicio se tiene en cuenta para todas las páginas
Cada documento tiene asociado su PageRank de página de inicio (la versión Nearest Seed). Es probable que se utilice como proxy para las páginas nuevas hasta que obtengan su propio PageRank.

Es probable que esto y siteAuthority se utilicen como proxies para nuevas páginas hasta que tengan su propio PageRank calculado.
Página principal de Confianza
Google decide cómo valorar un enlace en función de cuánto confía en la página de inicio.

Como siempre, deberías centrarte en la calidad y relevancia de tus enlaces en lugar de en el volumen.
El tamaño de letra de los términos y enlaces es importante
Cuando empecé a hacer SEO en 2006, una de las cosas que hacíamos era poner en negrita y subrayar el texto o agrandar ciertos pasajes para que parecieran más importantes. En los últimos 5 años he visto a gente decir que todavía merece la pena hacerlo. Yo era escéptico, pero ahora veo que Google hace un seguimiento del tamaño medio ponderado de la fuente de los términos en los documentos.

Están haciendo lo mismo con el texto ancla de los enlaces.

Penguin elimina los enlaces internos
En muchos de los módulos relacionados con el anclaje, la idea de «local» significa el mismo sitio. Este droppedLocalAnchorCount sugiere que algunos enlaces internos no se contabilizan.
No he visto ni una sola mención a Disavow
Aunque los datos de desautorización podrían almacenarse en otro lugar, no se encuentran específicamente en esta API. Lo encuentro específicamente porque los datos de los calificadores de calidad son directamente accesibles aquí. Esto sugiere que los datos de desautorización están desvinculados de los sistemas de clasificación principales.

Mi suposición a largo plazo ha sido que disavow ha sido un esfuerzo de ingeniería de características de origen popular para entrenar a los clasificadores de spam de Google. El hecho de que los datos no estén «en línea» sugiere que esto puede ser cierto.
Podría seguir hablando de enlaces y de características como IndyRank, PageRankNS, etc., pero basta con decir que Google tiene el análisis de enlaces muy marcado y gran parte de lo que están haciendo no se aproxima a nuestros índices de enlaces. Es un buen momento para reconsiderar sus programas de construcción de enlaces basándose en todo lo que acaba de leer.
Los documentos se truncan
Google cuenta el número de tokens y la relación entre el total de palabras del cuerpo y el número de tokens únicos. Los documentos indican que existe un número máximo de tokens que se pueden tener en cuenta para un documento en concreto en el sistema Mustang, lo que refuerza la idea de que los autores deben seguir poniendo su contenido más importante al principio.

Los contenidos breves se puntúan por su originalidad
La OriginalContentScore sugiere que los contenidos breves se puntúan por su originalidad. Esta es probablemente la razón por la que el contenido escaso no siempre está en función de la longitud.

A la inversa, también existe una puntuación de relleno de palabras clave.
Los títulos de las páginas siguen midiéndose en función de las consultas
La documentación indica que existe un titlematchScore. La descripción sugiere que Google sigue valorando la adecuación del título de la página a la consulta.

Colocar sus palabras clave objetivo en primer lugar sigue siendo la jugada.
No hay medidas de recuento de caracteres
A su favor, Gary Ilyes ha dicho que los SEO se inventaron todo el recuento de caracteres óptimos para los metadatos. No hay ninguna métrica en este conjunto de datos que cuente la longitud de los títulos de las páginas o de los fragmentos. La única medida de recuento de caracteres que he encontrado en la documentación es el snippetPrefixCharCount que parece estar configurado para determinar lo que se puede utilizar como parte del snippet.

Esto refuerza lo que hemos comprobado muchas veces: los títulos de página largos no son óptimos para generar clics, pero sí para mejorar la clasificación.
Las fechas son muy importantes
Google está muy centrado en los resultados frescos y los documentos ilustran sus numerosos intentos de asociar fechas a las páginas.
- bylineDate – Es la fecha establecida explícitamente en la página.

- syntacticDate – Es una fecha extraída de la URL o en el título.

- emanticDate – Es la fecha derivada del contenido de la página.

Lo mejor es especificar una fecha y ser coherente con ella en los datos estructurados, los títulos de página y los sitemaps XML. Poner fechas en su URL que entren en conflicto con las fechas en otros lugares de la página probablemente producirá un menor rendimiento del contenido.
La información de registro del dominio se almacena sobre las páginas
Ha sido una teoría conspirativa durante mucho tiempo que el estatus de Google como registrador alimenta el algoritmo. Podemos actualizar a un hecho conspirativo. Almacenan la información de registro más reciente a nivel de documento compuesto.

Como se ha comentado anteriormente, es probable que esto se utilice para informar sobre el aislamiento de nuevos contenidos. También puede utilizarse para bloquear un dominio previamente registrado que ha cambiado de propietario. Sospecho que el peso de esto se ha incrementado recientemente con la introducción de la política de spam de abuso de dominios expirados
Los sitios centrados en el vídeo reciben un trato diferente.
Si más del 50% de las páginas del sitio contienen vídeo, se considera que el sitio está centrado en el vídeo y recibirá un tratamiento diferente.

Tu dinero, tu vida tiene una puntuación específica
La documentación indica que Google dispone de clasificadores que generan puntuaciones para YMYL Health y para YMYL News.

También hacen una predicción de las «consultas marginales» o las que no se han visto antes para determinar si son YMYL o no.
![The image displays a section from a technical documentation page. It includes the following elements and text: encodedChardXlqYmylPrediction Type: integer(), default: nil An encoding of the Chard XLQ-YMYL prediction in [0,1].](http://agenciacero.com/wp-content/uploads/2024/12/unnamed.png)
Por último, YMYL se basa en el nivel de trozos, lo que sugiere que todo el sistema se basa en incrustaciones.

Existen documentos de referencia
No hay ninguna indicación de lo que esto significa, pero la descripción menciona «documentos etiquetados por humanos» frente a «anotaciones etiquetadas automáticamente». Me pregunto si esto es una función de las calificaciones de calidad, pero Google dice que las calificaciones de calidad no afectan a las clasificaciones. Así que puede que nunca lo sepamos.

Los site embeddings se utilizan para medir la actualidad de una página.
Hablaré de las incrustaciones con más detalle en un post posterior, pero vale la pena señalar que Google está vectorizando específicamente páginas y sitios y comparando las incrustaciones de la página con las incrustaciones del sitio para ver lo fuera de tema que está la página.

La puntuación siteFocusScore refleja el grado en que el sitio se ciñe a un único tema. El radio del sitio mide hasta qué punto la página se sale del tema central basándose en los vectores site2vec generados para el sitio.
Google podría estar quemando páginas web pequeñas a propósito
Google tiene una bandera específica que indica si un sitio es un «pequeño sitio personal». No existe una definición de este tipo de sitios, pero basándonos en todo lo que sabemos, no les resultaría difícil añadir un Twiddler que potenciara este tipo de sitios o uno que los degradara.

Teniendo en cuenta la reacción y las pequeñas empresas que se han visto perjudicadas por la Actualización de Contenido Útil, es de extrañar que utilicen esta función para hacer algo al respecto.
MIS PREGUNTAS ABIERTAS
Podría seguir, y lo haré, pero es hora de un intermedio. Mientras tanto, sospecho que es inevitable que otros se metan en esta filtración y saquen sus propias conclusiones. De momento, tengo algunas preguntas abiertas que me encantaría que todos nos planteáramos.
¿Es la actualización de contenidos útiles conocida como Baby Panda?
Hay dos referencias a algo llamado «baby panda» en las Señales de Calidad Comprimidas. Baby Panda es un Twiddler que consiste en un ajuste posterior a la clasificación inicial.

Se menciona que funciona sobre Panda, pero no hay más información en la documentación.

Creo que en general estamos de acuerdo en que la Actualización de Contenido Útil tiene muchos de los mismos comportamientos de Panda. Si se construye sobre un sistema que utiliza consultas de referencia, enlaces y clics esas son las cosas en las que tendrás que centrarte después de mejorar tu contenido.
¿NRS significa Recuperación Semántica Neuronal?
Hay un montón de referencias a módulos y atributos con NSR como parte de la convención de nomenclatura. Muchos de ellos están relacionados con fragmentos de sitios e incrustaciones. Google ya ha hablado anteriormente de «Neural Matching» como uno de los principales objetivos de mejora. Mi conjetura es que NSR significa Neural Semantic Retrieval (recuperación semántica neuronal) y que todas estas funciones están relacionadas con la búsqueda semántica. Sin embargo, en algunos casos mencionan junto a un «site rank».
Me encantaría que algún Googler rebelde se dirigiera a go/NSR y me enviara un «tienes razón» desde una dirección de correo electrónico anónima o algo así.
MIS RECOMENDACIONES
Como he dicho, no tengo recetas para ti. Sin embargo, tengo algunos consejos estratégicos.
- Envía una disculpa a Rand Fishkin – Desde mi keynote «Todo sobre lo que Google nos mintió» en PubCon, he estado en una campaña para limpiar el nombre de Rand en lo que se refiere a NavBoost. Rand hizo un trabajo ingrato tratando de ayudar a nuestra industria a elevarse durante años. Recibió muchas críticas por parte de Google y del SEO. A veces no hacía las cosas bien, pero su corazón siempre estaba en el lugar correcto y se esforzaba por hacer que lo que hacemos sea respetado y simplemente mejor. En concreto, no se equivocó en las conclusiones de sus experimentos de clics, en sus repetidos intentos de demostrar la existencia de un Google Sandbox, en sus estudios de casos que demuestran que Google clasifica los subdominios de forma diferente y en su creencia, largamente cuestionada, de que Google emplea señales de autoridad en todo el sitio. También hay que darle las gracias por este análisis, ya que fue él quien compartió la documentación conmigo. Ahora es un buen momento para que muchos de vosotros le mostréis vuestro cariño en Threads.
- Haz un gran contenido y promociónalo bien – Estoy bromeando, pero también hablo en serio. Google ha seguido dando ese consejo y nosotros lo rechazamos como no procesable. Para algunos SEO está fuera de su control. Después de revisar estas características que dan a Google sus ventajas, es bastante obvio que hacer mejor contenido y promoverlo a audiencias con las que resuene producirá el mejor impacto en esas medidas. Las medidas de las características de los enlaces y el contenido sin duda te llevarán bastante lejos, pero si realmente quieres ganar en Google a largo plazo, vas a tener que hacer cosas que sigan mereciendo clasificar.
- Traer de vuelta los estudios de correlación – Ahora tenemos una comprensión mucho mejor de muchas de las características que Google está utilizando para construir clasificaciones. A través de una combinación de datos de flujo de clics y extracción de características, podemos replicar más de lo que podíamos antes. Creo que ha llegado el momento de recuperar los estudios de correlación verticales específicos.
- Prueba y aprende – Deberías haber visto suficientes gráficos de visibilidad y tráfico con ejes Y para saber que no puedes confiar en nada de lo que leas o escuches en SEO. Esta filtración es otro indicio de que debe tomar las entradas y experimentar con ellas para ver qué funcionará para su sitio web. No basta con mirar las reseñas anecdóticas de las cosas y asumir que así es como funciona Google. Si su organización no tiene un plan de experimentación para SEO, ahora es un buen momento para empezar uno.
SABEMOS LO QUE HACEMOS
Una cosa importante que todos podemos sacar de esto es: Los SEO saben lo que hacen. Después de años de que nos digan que estamos equivocados es bueno ver detrás de la cortina y descubrir que hemos tenido razón todo el tiempo. Y, aunque hay matices interesantes de cómo funciona Google en estos documentos, no hay nada que vaya a hacer que cambie drásticamente el rumbo de mi estrategia SEO.
Para aquellos que profundizan, estos documentos servirán principalmente para validar lo que los SEOs experimentados han defendido durante mucho tiempo. Entender a su público, identificar lo que quieren, hacer lo mejor posible que se alinee con eso, hacerlo técnicamente accesible, y promoverlo hasta que se clasifique.
A todos los SEO que no estén seguros de lo que hacen: sigan probando, sigan aprendiendo y sigan haciendo crecer sus negocios. Google no puede hacer lo que hace sin nosotros.
DESCARGAR LAS CLASIFICACIONES
Bueno, alguien va a descargar y organizar todas las características en una hoja de cálculo para ti. También podría ser yo. Sólo nos queda un mes en el trimestre y quiero conseguir nuestros MQL de todos modos.
Hazte con tu copia de la lista de características de la clasificación.
ACABAMOS DE EMPEZAR
Lo que siempre me ha gustado del SEO es que es un rompecabezas en constante evolución. Y aunque ayudar a las marcas a ganar miles de millones de dólares con nuestros esfuerzos es divertido, hay algo muy satisfactorio en alimentar mi curiosidad con todas las pesquisas relacionadas con descifrar cómo funciona Google. Ha sido una gran alegría poder ver por fin detrás del telón.
Esto es todo lo que tengo por ahora, pero ¡hacedme saber lo que encontráis! Cualquiera que quiera compartir algo conmigo puede hacerlo. Soy muy fácil de encontrar.
Palabras de AgenciaCero
Este artículo ha sido traducido directamente por AgenciaCero Group desde IpullRank, el artículo original de Mike King, es el siguiente que puedes consultar aquí.
Si encuentras un error háznoslo saber para corregir.
Agradecemos a Mike King que es el fundador y CEO de iPullRank. Profundamente técnico y altamente creativo, Mike ha ayudado a generar más de 2.000 millones de dólares en ingresos para sus clientes. Rapero y hombre de agencia en recuperación. Un tremendo artículo que traemos al español para que los SEO del mundo de LATAM tomen más riesgos para mejorar su batalla contra La Gran G.
