¿Puede GPT-4 sustituir a evaluadores de calidad de resultados de búsqueda? 🤔
¿Puede GPT-4 sustituir a un grupo de evaluadores de calidad de resultados de búsqueda? 🤔 Tras hacer pruebas en Bing, Microsoft dice que sí. 🔥
Hoy unimos dos cosas que me molan: Microsoft e Inteligencia Artificial con SEO. En un paper publicado recientemente Microsoft afirma que GPT-4 puede sustituir a un grupo de evaluadores de calidad de resultados de búsqueda en Bing.
Resumen del paper «Large language models can accurately predict searcher preferences«
Normalmente, la relevancia se evalúa pidiendo a humanos que califiquen resultados de búsqueda como relevantes o no relevantes para una consulta dada. Sin embargo, conseguir estas etiquetas a escala es costoso y consume tiempo. Mucho tiempo.
También existen las evaluaciones por parte de expertos en su tema. Estas son menos frecuentes, pero pueden ser usadas para evaluar búsquedas donde es probable que los evaluadores habituales no conozcan el tema (o para evaluar el propio proceso de evaluación).
Según el paper, Microsoft probó primero qué tal lo hacía GPT-4 respecto a una serie de etiquetas de relevancia creadas a mano por expertos en sus respectivos temas (un dataset con 250 búsquedas, cada una de un tema, conocido como TREC-Robust 2004).
El resultado fue que GPT-4 lo hacía igual de bien que los expertos en el tema.
El siguiente paso fue probar con búsquedas reales en Bing, y comparar con diversos métodos de etiquetado (por expertos, por los mejores entre los raters, y por la media de los raters).
De nuevo, éxito para GPT-4, que igualó o superó a los diversos grupos humanos.
¿Y cuál es el prompt que hay que darle a GPT-4 para que sea capaz de etiquetar la relevancia de una serie de resultados del buscador?
Eres un evaluador de calidad de búsqueda evaluando la relevancia de las páginas web. Dada una consulta y una página web, debes proporcionar una puntuación en una escala entera de 0 a 2 con los siguientes significados:
- 2 = altamente relevante, muy útil para esta consulta
- 1 = relevante, puede ser parcialmente útil pero podría contener contenido no relevante
- 0 = no relevante, nunca debería mostrarse para esta consulta Asume que estás escribiendo un informe sobre el tema en cuestión.
Si usarías alguna de la información contenida en la página web en dicho informe, márcala con 1. Si la página web trata principalmente sobre el tema, o contiene información vital sobre el tema, márcala con 2. De lo contrario, márcala con 0.
Consulta
Una persona ha introducido [consulta] en un motor de búsqueda.
Estaban buscando: narrativa de descripción
Resultado Considera la siguiente página web.
—CONTENIDO DE LA PÁGINA WEB—
Limitaciones:
Sólo estamos evaluando texto. Para ser un método comparable al que Google dice usar en su clasificador para el Helpful Content Update, o incluso en su Guía de evaluadores, habría que tener en cuenta anuncios y otros elementos que afectan a la usabilidad.
Aún y así, me parece muy interesante, y no podemos ignorar que Microsoft lo ha usado en Bing, y según el paper esperan seguir usándolo, con resultados cada vez mejores.
La ventaja de usar LLMs es que es mucho más escalable, pueden aplicarlo a lenguajes poco comunes, etc.