La mejor forma de escrapear contenido: r.jina.ai
Jina Reader es la mejor herramienta para escrapear contenido con AI que he encontrado hasta ahora.
Jina Reader es:
- fácil de usar
- completamente gratis
- respuesta súper limpia en formato markdown
Esto significa que puedes alimentar tu LLM con datos mejores y más limpios a la vez que consumes menos tokens.
Simplemente usa este formato: https://r.jina.ai/www.consultor365.com
y sustituye www.consultor365.com
por cualquier sitio web que quieras escrapear y ¡funciona! sin claves api y no te hace falta nada más.
¿Qué es Jina Reader?
Introducir información web en los LLM es un paso importante, pero puede resultar complicado.
El método más sencillo consiste en escrapear la página web y alimentarla con HTML sin procesar.
Sin embargo, el scraping puede ser complejo y bloquearse con frecuencia, y el HTML sin procesar está repleto de elementos extraños como marcas y scripts.
La API de Jina Reader resuelve estos problemas extrayendo el contenido principal de una URL y convirtiéndolo en texto limpio y compatible con LLM, lo que garantiza una entrada de alta calidad.
Ejemplo de resultado de Jina Reader
https://r.jina.ai/www.consultor365.com
Puedes probar JINA READER aquí.