Comparativa modelos IA de transcripción de voz a texto
Análisis y comparación de modelos de transcripción de voz a texto y proveedores de API por Artificial Analysis.
Artificial Analysis ha analizado modelos de transcripción de voz a texto en función de distintas características, como la tasa de error de palabras (cuanto más baja, mejor), la velocidad y el precio. La velocidad está representada por el «factor de velocidad», que es el número de segundos de audio transcritos por segundo (cuanto mayor sea, mejor).
Tabla y gráficos resumen de resultados
Modelos y proveedores de voz a texto comparados
- Whisper (L, v2), OpenAI
- Universal-1, AssemblyAI
- Speechmatics Standard
- Azure Speech Service
- Incredibly Fast Whisper, Replicate
- Whisper (L, v3), Replicate
- Whisper (L, v3), fal.ai
- Amazon Transcribe
- Rev AI
- Chirp, Google
- Whisper (large-v2) – Azure
- Whisper (large-v2)
- WhisperX
- Whisper (medium)
- Whisper (small)
Aspectos destacados de la conversión de audio a texto
Los modelos de voz a texto basados en Transformer han iniciado una nueva carrera hacia una precisión superior a la humana y velocidades >30X en tiempo real.
- Universal-1 de Assembly AI, lanzado a principio de abril de 2024, es el líder indiscutible en el índice de errores con un 7,2%.
- Incredibly Fast Whisper, de Replicate, es líder en precio con tan solo 1,5 dólares por cada 1.000 minutos de audio, a la vez que ofrece un factor de velocidad >30 veces superior.
- Whisper de OpenAI sigue siendo el modelo de código abierto líder. Los modelos propios de Hyperscaler se acercan a la precisión de Whisper, pero su precio es >2 veces superior.
Se evalúan las ofertas de API de voz a texto a través de tres métricas:
- Tasa de error: porcentaje de palabras transcritas incorrectamente en nuestra evaluación independiente basada en Common Voice v16.1, el principal conjunto de datos de voz de código abierto de Mozilla. Cuanto más bajo, mejor.
- Factor de velocidad: Segundos de archivo de audio transcritos por segundo de tiempo de procesamiento. Cuanto más alto, mejor.
- Precio: USD por 1000 minutos de audio. Cuanto más bajo, mejor.
Errores versus Precio
Azure
Comparativa de Artificial Analysis (@ArtificialAnlys): Independent analysis of AI models and hosting providers – choose the best model and API provider for your use-case.