Comparativa modelos IA de transcripción de voz a texto

Análisis y comparación de modelos de transcripción de voz a texto y proveedores de API por Artificial Analysis.

Artificial Analysis ha analizado modelos de transcripción de voz a texto en función de distintas características, como la tasa de error de palabras (cuanto más baja, mejor), la velocidad y el precio. La velocidad está representada por el «factor de velocidad», que es el número de segundos de audio transcritos por segundo (cuanto mayor sea, mejor).

Contenidos mostrar

Tabla y gráficos resumen de resultados

Resumen modelos de transcripción de voz a texto

Comparativa precios para la conversión de 1000 minutos de audio (cuanto más bajo, más barato es convertir 1000 minutos de audio a texto) — Comparativa precios para la conversión de 1000 minutos de audio

Velocidad de conversión por segundo (cuanto mayor, más rápido es el modelo) — Velocidad de conversión por segundo

Tasas de errores en la transcripción en % (cuanto menor es, menos fallos comete el modelo) — Tasas de errores en la transcripción en %

Modelos y proveedores de voz a texto comparados

Whisper (L, v2), OpenAI
Universal-1, AssemblyAI
Speechmatics Standard
Azure Speech Service
Incredibly Fast Whisper, Replicate
Whisper (L, v3), Replicate
Whisper (L, v3), fal.ai
Amazon Transcribe
Rev AI
Chirp, Google
Whisper (large-v2) – Azure
Whisper (large-v2)
WhisperX
Whisper (medium)
Whisper (small)

Aspectos destacados de la conversión de audio a texto

Los modelos de voz a texto basados en Transformer han iniciado una nueva carrera hacia una precisión superior a la humana y velocidades >30X en tiempo real.

Universal-1 de Assembly AI, lanzado a principio de abril de 2024, es el líder indiscutible en el índice de errores con un 7,2%.
Incredibly Fast Whisper, de Replicate, es líder en precio con tan solo 1,5 dólares por cada 1.000 minutos de audio, a la vez que ofrece un factor de velocidad >30 veces superior.
Whisper de OpenAI sigue siendo el modelo de código abierto líder. Los modelos propios de Hyperscaler se acercan a la precisión de Whisper, pero su precio es >2 veces superior.

Se evalúan las ofertas de API de voz a texto a través de tres métricas:

Tasa de error: porcentaje de palabras transcritas incorrectamente en nuestra evaluación independiente basada en Common Voice v16.1, el principal conjunto de datos de voz de código abierto de Mozilla. Cuanto más bajo, mejor.
Factor de velocidad: Segundos de archivo de audio transcritos por segundo de tiempo de procesamiento. Cuanto más alto, mejor.
Precio: USD por 1000 minutos de audio. Cuanto más bajo, mejor.