GraphRAG en GitHub: herramienta para descubrir datos complejos

GraphRAG en GitHub: herramienta para descubrir datos complejos

GraphRAG es un enfoque basado en grafos para RAG que permite responder preguntas sobre conjuntos de datos.

A principios de este año, Microsoft presentó GraphRAG, un enfoque basado en grafos para la generación aumentada de recuperación (retrieval-augmented generation – RAG) que permite responder preguntas sobre conjuntos de datos privados o nunca vistos.

Desde principio de julio de 2024 GraphRAG ya está disponible en GitHub, ofreciendo una recuperación de información más estructurada y una generación de respuestas más completa que los enfoques RAG. El repositorio de código de GraphRAG se complementa con un acelerador de soluciones, que proporciona una experiencia de API fácil de usar alojada en Azure que puede desplegarse sin código en unos pocos clics.

GraphRAG utiliza un gran modelo de lenguaje (LLM) para automatizar la extracción de un rico grafo de conocimiento a partir de cualquier colección de documentos de texto. Una de las características más interesantes de este índice de datos basado en grafos es su capacidad para informar sobre la estructura semántica de los datos antes de cualquier consulta del usuario.

Para ello, detecta «comunidades» de nodos densamente conectados de forma jerárquica, particionando el grafo en múltiples niveles, desde temas de alto nivel hasta tópicos de bajo nivel.

El uso de un LLM para resumir cada una de estas comunidades crea un resumen jerárquico de los datos, proporcionando una visión general de un conjunto de datos sin necesidad de saber qué preguntas formular de antemano.

Cada comunidad sirve de base para un resumen comunitario que describe sus entidades y sus relaciones.

Gráfico de conocimiento de nodos de entidad y aristas de relación derivado de un conjunto de datos de noticias, con diferentes colores que representan varias comunidades. Las comunidades de nivel 0 (izquierda) representan los temas de más alto nivel del conjunto de datos, mientras que las comunidades de nivel 1 (derecha) muestran la aparición de temas más granulares dentro de estos temas.
Gráfico de conocimiento de nodos de entidad y aristas de relación derivado de un conjunto de datos de noticias, con diferentes colores que representan varias comunidades. Las comunidades de nivel 0 (izquierda) representan los temas de más alto nivel del conjunto de datos, mientras que las comunidades de nivel 1 (derecha) muestran la aparición de temas más granulares dentro de estos temas.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación «GraphRAG: New tool for complex data discovery now on GitHub» en Microsoft Research y en el proyecto de GraphRAG en Github.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.