GraphRAG en GitHub: herramienta para descubrir datos complejos
GraphRAG es un enfoque basado en grafos para RAG que permite responder preguntas sobre conjuntos de datos.
A principios de este año, Microsoft presentó GraphRAG, un enfoque basado en grafos para la generación aumentada de recuperación (retrieval-augmented generation – RAG) que permite responder preguntas sobre conjuntos de datos privados o nunca vistos.
Desde principio de julio de 2024 GraphRAG ya está disponible en GitHub, ofreciendo una recuperación de información más estructurada y una generación de respuestas más completa que los enfoques RAG. El repositorio de código de GraphRAG se complementa con un acelerador de soluciones, que proporciona una experiencia de API fácil de usar alojada en Azure que puede desplegarse sin código en unos pocos clics.
GraphRAG utiliza un gran modelo de lenguaje (LLM) para automatizar la extracción de un rico grafo de conocimiento a partir de cualquier colección de documentos de texto. Una de las características más interesantes de este índice de datos basado en grafos es su capacidad para informar sobre la estructura semántica de los datos antes de cualquier consulta del usuario.
Para ello, detecta «comunidades» de nodos densamente conectados de forma jerárquica, particionando el grafo en múltiples niveles, desde temas de alto nivel hasta tópicos de bajo nivel.
El uso de un LLM para resumir cada una de estas comunidades crea un resumen jerárquico de los datos, proporcionando una visión general de un conjunto de datos sin necesidad de saber qué preguntas formular de antemano.
Cada comunidad sirve de base para un resumen comunitario que describe sus entidades y sus relaciones.
Información basada en la publicación «GraphRAG: New tool for complex data discovery now on GitHub» en Microsoft Research y en el proyecto de GraphRAG en Github.