«SEO» en los resultados de inteligencia artificial generativa
Aquí podéis encontrar una lista de acciones a emprender para influir en los resultados que dan los LLM.
O sea, lo que se llama SEO para influir en los resultados de Google y demás buscadores, aplicado a la inteligencia artificial generativa.
Un modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés: Large Language Models) es un sistema de inteligencia artificial avanzado que procesa y genera lenguaje natural de forma avanzada. Estos modelos son entrenados con grandes cantidades de texto para entender y responder a consultas con un alto grado de coherencia y relevancia.
Los términos GEO (Generative Engine Optimization), AIO (AI Optimization o Artificial Intelligence Optimization) y LLMO (LLM Optimization o Large Language Optimization) describen lo mismo. Aunque parece ser que hay un consenso que el término LLMO es el más apropiado.
¿Qué es LLMO?
LLMO son las siglas de Large Language Model Optimization (Optimización de Grandes Modelos Lingüísticos) y describe un conjunto de actividades que un webmaster puede realizar para influir en los resultados de los sistemas de Experiencia Generativa basados en LLM como Google SGE o Perplexity AI – de forma similar a como se utiliza el SEO (Search Engine Optimization) para influir en los resultados de motores de búsqueda como Google o Bing.
¿Es posible el LLMO?
Sí. Para entrenar un LLM como GPT, los investigadores de IA utilizan técnicas como Word2Vec para transformar un gran corpus de documentos en vectores. Sobre estos vectores, pueden utilizar el álgebra para encontrar relaciones entre palabras. O el análisis estadístico para encontrar co-ocurrencias de palabras.
Esto se realiza a una escala tal que el resultado es similar al de los humanos que utilizan la comprensión semántica para formar una ontología de todas las palabras que terminan en entidades.
Por ejemplo: Como humano, sabes que un perro es un animal. En un grafo de conocimiento, el tripel de conocimiento correspondiente (entidad 1, relación, entidad 2) podría ser (perro, es_subgrupo, animal). Un LLM no sabe esto. Pero puede utilizar los enfoques mencionados para formar una respuesta que parezca conocer esta relación específica.
Si podemos inyectar 1 millón de artículos en los datos de entrenamiento que mencionen Adidas en el contexto de «zapatillas de correr» y otro millón de artículos que mencionen Nike en el contexto de «mala calidad», un LLM podría ser engañado para asociar Adidas con zapatillas de correr y Nike con mala calidad.
Si quieres saber más sobre este tema, merece la pena investigar la PNL (Natural Language Processing · Procesamiento del Lenguaje Natural), concretamente la PNL basada en transformadores, la NLU (Natural Language Understanding · Comprensión del Lenguaje Natural), la NLG (Natural Language Generation · Generación del Lenguaje Natural) y la extracción de entidades. NLU se utiliza durante el entrenamiento de un LLM. NLG se utiliza cuando se pide a un LLM que genere una respuesta.
Trucos concretos para GEO, AIO y LLMO
Influir en las respuestas de los LLM
Asegúrate de que tu marca (o sitio web) se menciona en un contexto positivo y en relación con tus palabras clave/temas objetivo en sitios con autoridad. Este concepto se denomina co-ocurrencias, ya que tu marca aparece junto con el término con el que deseas que se asocie.
Hay tres tipos de sitios web a los que debe dirigirse específicamente.
- Sitios grandes y activamente moderados como Wikipedia, Reddit o Quora, que publican el contenido generado por el usuario (UGC · User Generated Content) más valioso sobre cualquier tema.
- Sitios web con bases de datos, como Crunchbase, Yelp o IMDB.
- Grandes sitios web editoriales como New York Times, Bloomberg, FT, Yahoo, Forbes, Reuters o CNBC.
Un buen punto de partida son los más de 63.000 sitios web que se citan actualmente como fuentes para el Gráfico de conocimiento de Google[2].
En sitios web como Forbes o Times of India, puedes publicar contenidos pagando una pequeña cantidad de dinero.
En reddit, Wikipedia, Crunchbase o IMDB puedes intentar formar parte de la comunidad -de forma anónima o pública- y publicar tu contenido de forma gratuita.
Para salir en el New York Times o en Reuters, lo ideal es un comunicado de prensa, a ser posible interesante.
Mientras que tradicionalmente te pondrías en contacto con un SEO técnico para hablar de la recuperación de información y de cómo Google podría extraerla y almacenarla, para manipular adecuadamente un LLM a gran escala se necesita el libro de jugadas de las relaciones públicas digitales.
Si quieres empear a hacer cosas, algunas ideas para seleccionar los sitios donde publicar son:
- Sitios en la lista de fuentes de Google Knowledge Graph de Kalicube.
- Sitios que no bloqueen agentes de usuario LLM en su robots.txt. Los principales agentes de usuario LLM actualmente son GPTBot, CCBot, Google-Extended, anthrophic-ai, omgilibot y omigili.
Conseguir tráfico desde la inteligencia artificial
- Escribe contenido de forma que pueda ser citado directamente cuando el LLM genere una respuesta.
- Posiciónate en el top 10 orgánico. Según un estudio de Onely/ZipTie, el 50% de las fuentes citadas por SGE están posicionados en el top 10 orgánico. Por otro lado, el estudio de Authoritas menciona un valor mucho más bajo de sólo el 5% de las fuentes de SGE clasificadas en el top 20 orgánico.
- Crea una URL por subtema. Un mismo dominio puede citarse varias veces en una misma respuesta de SGE. En el caso de las consultas de marca, es posible incluso ocupar todos los puestos del carrusel de fuentes.
- Tener reseñas de usuarios reales.
- Cuenta con la opinión de expertos.
- Citar a expertos.
- Tener una lista de pros y contras.
- Haz un resumen ejecutivo de cualquier contenido largo que sea relevante pero demasiado largo para ser citado.
- Añade más contenido. No te limites a aumentar el número de palabras, sino el número de palabras únicas relacionadas. Modelos como TF-IDF, Word2Vec, LSI, etc. pueden generarlas.
- Incluye UGC (contenido generado por el usuario · User Generated Content). Resúmelo de forma que se pueda citar.
- Escribe sobre nuevos temas y eventos que no formen parte de los datos de entrenamiento de LLMs.
- Mantén el tiempo de ejecución de scripts lo más bajo posible.
- Mantén el tiempo de respuesta del servidor por debajo de 500ms.
- Asegúrate de no tener problemas de rastreo o indexación.
- Asegúrate de que cualquier contenido relevante para LLM no depende de JavaScript.
- Si tus usuarios dejan comentarios o valoraciones, haz que sean rastreables e indexables.
- Ten una página larga con UGC (contenido generado por el usuario · User Generated Content), no la pagines.
- Si utilizas software de terceros para los comentarios o las reseñas, controla la carga de la página y la renderización.
- Escribe en un lenguaje persuasivo y haz afirmaciones con autoridad.
- Añade estadísticas y otros datos cuantitativos. No te limites a describir Berlín como una gran ciudad. Menciona que tiene 3,7 millones de habitantes en 344 kilómetros cuadrados.
- Añade citas de autoridades relevantes y márcalas como tales.
- Menciona explícitamente tus fuentes.
- Escribe en un lenguaje sencillo y fácil de entender.
- Escribe con un estilo fluido y legible.
- Escribe de forma clara, concisa e informativa.
- Menciona y explica los términos técnicos relacionados con el tema.
- Mantén el contenido actualizado.
- Elimina el contenido SEO. Si tiene un texto que parece superficial y escaso en información relevante -porque se escribió para tener 300 palabras en la página-, elimínalo.
- Cíñete a los hechos contrastados.
- Cita a expertos y personas influyentes. Elige a los que Google identifique como expertos.
- Utiliza listas, especialmente para los aspectos clave del tema que esté tratando.
- Utiliza el marcado schema. Incluso el marcado que ahora mismo no te proporcione un fragmento enriquecido en la búsqueda orgánica.
- Si tu sitio web estructura el contenido en categorías, intente alinearlas con la forma en que Google SGE agrupa el tema. Si tienes una tienda online de bicicletas y cuando se te pregunta por bicicletas, SGE siempre muestra las categorías bicicletas de ciudad, bicicletas de montaña y bicicletas eléctricas, plantéate si quieres estructurar tu sitio web de forma similar.
- También se aplican todos los consejos habituales de EEAT.
Limitaciones
- Algunos consejos son específicos para determinados sistemas.
- Algunas de las optimizaciones de texto sólo tienen un impacto positivo en determinados temas, pero no en otros.
- La aplicación de estas técnicas probablemente conducirá a una mejora si tienes un sitio de nicho pequeño. Si eres el actor dominante en tu campo, los resultados pueden variar.
- Si quieres influir en la percepción de una gran marca en un campo importante (como Adidas para zapatillas de correr), el gran tamaño de los datos de entrenamiento del modelo língüístico es un problema.
- Los modelos no se actualizan ni se reentrenan en tiempo real. Este retraso dificulta la medición del impacto de sus actividades. Por ejemplo Llama-2-7b-chat-coreml no se actualiza desde julio de 2023 por lo que cualquier aplicación construida este modelo (sin acceso a Internet) dará las mismas respuestas para siempre.
- Se desconocen las fuentes exactas de cada LLM.
Como SEO, las limitaciones de LLMO sólo significan una cosa: necesitas lanzar una amplia red y aplicar tantas técnicas como sea posible.
Sistemas para los que hacer LLMO
En teoría, cualquier sistema basado en LLM puede ser manipulado. Esto incluye:
- Google SGE (Experiencias Generativas de Búsqueda)
- Google Bard
- Bing Chat
- Microsoft Copilot
- Youchat
- Jasper Chat
- Chatsonic
- Copiloto de Github
- GTP de OpenAI (ChatGPT, GPT 3, GPT 4, GPT-3.5-Turbo, etc.)
Y, por supuesto, cualquier LLM actual o futuro que sea entrenado o reentrenado con datos web actualizados puede ser potencialmente manipulado. Por nombrar algunos, están AlexaTM (Amazon), Claude (Anthropic), Bloom (BigScience), C-A-L (You), Chinchilla (DeepMind), Falcon (Technology Innovation Institute), Gemini (Google), GLaM (Google), Gopher (Deepmind), Grok (xAI), Inflection, Jurassic (AI21), LaMDA (Google), LLaMA (Meta), Llama 2 (Meta), Megatron-Turing NLG (NVIDIA), OPT (Meta), PaLM (Google), PaLM2 (Google), StableM (Stability. ai), WizardLM (Microsoft), Starling (UC Berkeley), OpenHermes (NousResearch), Solar (Upstage AI), Dolphin (Cognitive Computations), Zephyr (HuggingFace), MPT (MosaicML), Vicuna (LMSYS), Qwen (Alibaba), Guanaco (Universidad de Washington), StripedHyena (Together AI), Koala (UC Berkeley), ChatGLM (Tsinghua), GPT4ALL (Nomic AI), Alpaca (Stanford), Dolly (Databricks), BayLing (Academia China de Ciencias) y muchos muchos más.
Este post está basado en la publicación de Malte Landwehr (Head of SEO at idealo | Ex VP Product & Management Consultant) en LinkedIn y unas semanas antes en reddit; además del estudio de Onely/ZipTie, el de Authoritas, el de Brightedge y el de Mike King.