Cómo aparecer en los resultados de búsqueda de ChatGPT sin entrenar su IA
OpenAI permite que los sitios web bloqueen o permitan que sus contenidos sean indexados por el motor de búsqueda de ChatGPT search.
Aquí te explico como incluir tus contenidos en los resultados de búsqueda pero a su vez impedir el uso de tus contenidos para entrenar los modelos de IA.
Cómo aparecer en los resultados de búsqueda de ChatGPT Search
OJO: En el caso de ChatGPT Search muchos de los resultados vienen de BING y el rastreo de la web lo hace BING y no ChatGPT. Por esta razón es complicado, a día de hoy, excluir completamente una web de los resultados de búsqueda de ChatGPT search. Podemos evitar el rastreo por ChatGPT pero si la web está indexada por Bing no podemos evitar que aparezca en los resultados de ChatGPT search.
El 31 de octubre de 2024, OpenAI anunció que su prototipo de motor de búsqueda de inteligencia artificial, SearchGPT, se rebautizaba e integraba en su producto estrella, ChatGPT. A través de ChatGPT search, el nuevo motor de búsqueda ofrece resultados similares a los de Google y Bing.
Conforme vaya aumentando su uso y popularidad, los editores querrán aparecer en sus resultados de búsqueda, sobre todo si existe la posibilidad de que atraiga tráfico a sus webs.
Sin embargo, muchos editores han bloqueado a todos los usuarios-agentes de OpenAI el rastreo de sus sitios para evitar que entrenen sus grandes modelos lingüísticos (LLM) con sus contenidos.
Afortunadamente, al igual que Google y Apple, OpenAI ha proporcionado un método para que los editores se incluyan en los resultados de búsqueda de ChatGPT al tiempo que les impide entrenar sus modelos de IA con su contenido.
Uno de los usuarios-agentes de OpenAI se llama OAI-SearchBot
. Utilizan OAI-SearchBot
para encontrar y enlazar sitios en los resultados de búsqueda de ChatGPT y declaran explícitamente que no se utiliza para rastrear contenidos para entrenar los modelos generativos de la base de IA de OpenAI.
Así pues, los sitios que excluyan a OAI-SearchBot
en su archivo robots.txt, podrán aparecer en los resultados de búsqueda de ChatGPT. OJO que también hay que asegurarse que a nivel de servidor no estén bloqueadas las IP utilizadas por OAI-Searchbot.
Listados de agentes de IA para robots.txt
Los editores interesados en aparecer en los resultados de búsqueda de ChatGPT, Google y Bing, pero que deseen bloquear el uso de su contenido para el entrenamiento de modelos LLM por parte de estas y otras empresas de IA, pueden utilizar la siguiente lista de exclusión de robots en su archivo robots.txt:
User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Applebot-Extended
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Magpie-crawler
User-agent: Omgili
User-agent: Omgilibot
User-agent: Peer39_crawler
User-agent: Peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /
Información basada en la lista de exclusión de robots siempre actualizada de henshaw/disallow-genai-bots.txt en Github y la explicación en su blog «How to appear in ChatGPT search results without training their AI«.