Comparativa modelos IA de transcripción de voz a texto

Comparativa modelos IA de transcripción de voz a texto

Análisis y comparación de modelos de transcripción de voz a texto y proveedores de API por Artificial Analysis.

Artificial Analysis ha analizado modelos de transcripción de voz a texto en función de distintas características, como la tasa de error de palabras (cuanto más baja, mejor), la velocidad y el precio. La velocidad está representada por el «factor de velocidad», que es el número de segundos de audio transcritos por segundo (cuanto mayor sea, mejor).

Tabla y gráficos resumen de resultados

Resumen modelos de transcripción de voz a texto
Resumen modelos de transcripción de voz a texto
Comparativa precios para la conversión de 1000 minutos de audio (cuanto más bajo, más barato es convertir 1000 minutos de audio a texto)
Comparativa precios para la conversión de 1000 minutos de audio
Velocidad de conversión por segundo (cuanto mayor, más rápido es el modelo)
Velocidad de conversión por segundo
Tasas de errores en la transcripción en % (cuanto menor es, menos fallos comete el modelo)
Tasas de errores en la transcripción en %

Modelos y proveedores de voz a texto comparados

  1. Whisper (L, v2), OpenAI
  2. Universal-1, AssemblyAI
  3. Speechmatics Standard
  4. Azure Speech Service
  5. Incredibly Fast Whisper, Replicate
  6. Whisper (L, v3), Replicate
  7. Whisper (L, v3), fal.ai
  8. Amazon Transcribe
  9. Rev AI
  10. Chirp, Google
  11. Whisper (large-v2) – Azure
  12. Whisper (large-v2)
  13. WhisperX
  14. Whisper (medium)
  15. Whisper (small)

Aspectos destacados de la conversión de audio a texto

Los modelos de voz a texto basados en Transformer han iniciado una nueva carrera hacia una precisión superior a la humana y velocidades >30X en tiempo real.

  • Universal-1 de Assembly AI, lanzado a principio de abril de 2024, es el líder indiscutible en el índice de errores con un 7,2%.
  • Incredibly Fast Whisper, de Replicate, es líder en precio con tan solo 1,5 dólares por cada 1.000 minutos de audio, a la vez que ofrece un factor de velocidad >30 veces superior.
  • Whisper de OpenAI sigue siendo el modelo de código abierto líder. Los modelos propios de Hyperscaler se acercan a la precisión de Whisper, pero su precio es >2 veces superior.

Se evalúan las ofertas de API de voz a texto a través de tres métricas:

  • Tasa de error: porcentaje de palabras transcritas incorrectamente en nuestra evaluación independiente basada en Common Voice v16.1, el principal conjunto de datos de voz de código abierto de Mozilla. Cuanto más bajo, mejor.
  • Factor de velocidad: Segundos de archivo de audio transcritos por segundo de tiempo de procesamiento. Cuanto más alto, mejor.
  • Precio: USD por 1000 minutos de audio. Cuanto más bajo, mejor.

Errores versus Precio

Azure

Precio: Azure Speech Service: 16,67 USD/1000 minutos; Azure Whisper L v2: 6 USD/1000 minutos.
Azure Speech Service: 16,67 USD/1000 minutos; Azure Whisper L v2: 6 USD/1000 minutos.
Velocidad. Azure Speech Service: 2 segundos transcritos por segundo; Azure Whisper L v2: 28,9 segundos transcritos por segundo
Azure Speech Service: 2 segundos transcritos por segundo; Azure Whisper L v2: 28,9 segundos transcritos por segundo
Errores. Azure Speech Service: 9,7% de errores; Azure Whisper L v2: 9,2% de errores.
Azure Speech Service: 9,7% de errores; Azure Whisper L v2: 9,2% de errores

¿Quieres saber más sobre la inteligencia artificial generativa? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Comparativa de Artificial Analysis (@ArtificialAnlys): Independent analysis of AI models and hosting providers – choose the best model and API provider for your use-case.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.