¿Cuántos segundos de audio necesita la biometría de voz?
¿Cuánto audio necesitás para enrollment y verificación en biometría de voz? Requisitos mínimos, óptimos y cómo afecta la precisión.
Phonomica
Equipo de contenido
15 de junio de 2023
Actualizado: 15 de enero de 2025
¿Cuántos segundos de audio necesita la biometría de voz?
Tiempo de lectura: 5 minutos
“¿Cuánto tiene que hablar el usuario?” Es una de las primeras preguntas cuando se evalúa biometría de voz. La respuesta impacta directamente en la experiencia de usuario y en la viabilidad de la implementación.
La respuesta corta
| Operación | Mínimo | Óptimo | Máximo útil |
|---|---|---|---|
| Enrollment | 3 segundos | 5-10 segundos | 30 segundos |
| Verificación | 1 segundo | 2-3 segundos | 10 segundos |
Estos son segundos de voz activa (speech), no duración total del audio.
Voz activa vs duración total
Hay una distinción crucial: lo que importa es el tiempo de voz activa, no la duración total del audio.
Ejemplo:
- Audio total: 10 segundos
- Silencios y pausas: 4 segundos
- Voz activa: 6 segundos
El sistema usa los 6 segundos de voz activa, descartando los silencios.
Voice Activity Detection (VAD) es el proceso que separa los segmentos con voz de los silencios. Un buen VAD mejora significativamente los resultados.
¿Por qué importa la duración?
Más audio = más información
Las características de la voz se extraen de múltiples frames temporales. Más frames = estimación más precisa de las características del hablante.
Retornos decrecientes
La relación no es lineal. Cada segundo adicional aporta menos que el anterior:
Precisión relativa
│
100% │ ___________
│ ___/
90% │ ___/
│ ___/
80% │ ___/
│___/
└────────────────────────────── Segundos
1 3 5 10 15 20 30
Después de ~10 segundos, agregar más audio aporta mejoras marginales.
Requisitos para Enrollment
El enrollment es el proceso de registrar el voiceprint inicial. Es una operación que ocurre una sola vez por usuario.
Mínimo: 3 segundos de voz activa
Con 3 segundos podés generar un voiceprint funcional. La precisión no será óptima, pero funciona para casos de bajo riesgo.
Cuándo usar el mínimo:
- Usuarios que no pueden/quieren hablar más
- Enrollment oportunista (capturar lo que hay)
- Casos de muy bajo riesgo
Óptimo: 5-10 segundos de voz activa
Este es el sweet spot. Suficiente información para un voiceprint robusto sin ser excesivamente largo.
Por qué 5-10 segundos:
- Captura suficiente variabilidad
- Buena estimación de características
- UX razonable
- Precisión cercana al óptimo
Máximo útil: ~30 segundos
Más de 30 segundos de voz activa no mejora significativamente el voiceprint. Los retornos son marginales.
Excepción: En condiciones de audio muy ruidoso o de baja calidad, más audio puede ayudar a compensar.
Requisitos para Verificación
La verificación es comparar audio nuevo contra un voiceprint existente. Es más tolerante a audio corto que el enrollment.
Mínimo: 1 segundo de voz activa
Con 1 segundo de voz activa podés obtener un score de verificación. No es ideal, pero funciona.
Cuándo usar el mínimo:
- Verificación pasiva durante conversación
- Confirmaciones rápidas
- Audio limitado disponible
Óptimo: 2-3 segundos de voz activa
El balance ideal. Suficiente para alta precisión, lo suficientemente corto para buena UX.
Por qué 2-3 segundos:
- Alta precisión alcanzable
- Latencia total <1 segundo posible
- UX excelente
- Cubre la mayoría de casos de uso
Más de 5 segundos
Después de 5 segundos, las mejoras son marginales. No tiene sentido pedir más al usuario excepto en casos específicos (verificación de muy alto riesgo con audio ruidoso).
Cómo afecta la duración a la precisión
Datos de referencia con modelo ECAPA-TDNN:
| Duración verificación | EER aproximado |
|---|---|
| 1 segundo | 2.5-3.5% |
| 2 segundos | 1.5-2.0% |
| 3 segundos | 1.0-1.5% |
| 5 segundos | 0.8-1.2% |
| 10 segundos | 0.7-1.0% |
Nota: Estos números son orientativos. El EER real depende del modelo, la calidad del audio, y las condiciones de operación.
Factores que afectan los requisitos
Calidad del audio
Audio de mayor calidad necesita menos duración:
| Calidad | Duración mínima recomendada |
|---|---|
| Estudio (48kHz, sin ruido) | 2 segundos |
| Telefónica (8kHz, algo de ruido) | 3-5 segundos |
| VoIP comprimido | 4-6 segundos |
| Muy ruidoso | 6-10 segundos |
Modelo utilizado
Modelos más modernos son más eficientes:
| Modelo | Duración óptima enrollment |
|---|---|
| x-vector (2018) | 10-15 segundos |
| ECAPA-TDNN (2020) | 5-10 segundos |
| TitaNet (2022) | 3-8 segundos |
Caso de uso
El riesgo del caso de uso determina cuánta precisión necesitás:
| Riesgo | Duración recomendada |
|---|---|
| Bajo (consulta de saldo) | Mínimo viable |
| Medio (transacción estándar) | Óptimo |
| Alto (transacción grande) | Máximo posible |
Recomendaciones prácticas
Para Enrollment
- Apuntá a 5-10 segundos de voz activa
- Si estás en un call center, capturá durante la conversación inicial
- Si es una app, pedí al usuario que lea una oración
- Validá que tengas suficiente voz activa antes de crear el voiceprint
Para Verificación
- Apuntá a 2-3 segundos de voz activa
- En call center, capturá los primeros segundos de la llamada
- Usá verificación pasiva cuando sea posible
- Tené un plan B si el audio es insuficiente
Qué hacer si no hay suficiente audio
-
Enrollment:
- Pedí al usuario que hable un poco más
- Aceptá enrollment con advertencia de “baja calidad”
- Programá re-enrollment en próxima interacción
-
Verificación:
- Esperá más audio durante la conversación
- Usá verificación continua
- Complementá con otro factor de autenticación
En Phonomica
Nuestros requisitos:
| Operación | Mínimo | Recomendado |
|---|---|---|
| Enrollment | 3 seg voz activa | 5+ seg voz activa |
| Verificación estándar | 1 seg voz activa | 2+ seg voz activa |
| Verificación avanzada (anti-spoof) | 1.5 seg voz activa | 3+ seg voz activa |
La API te devuelve la duración de voz activa detectada, para que puedas decidir si es suficiente para tu caso de uso.
¿Querés probar con tu propio audio? Contactanos y te mostramos cómo funciona con tu audio real.
Recursos relacionados
Artículos relacionados
Cómo la biometría de voz mejora el NPS
La biometría de voz mejora el NPS en +40-60 puntos vs autenticación tradicional. Análisis de por qué y cómo medirlo.
ArtículoEl caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz
Análisis del caso CEO Fraud UK de 2019: cómo un deepfake de voz costó $243K a una empresa energética y qué lecciones podemos aprender.
ArtículoECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz
Comparación técnica entre ECAPA-TDNN y TitaNet, los dos modelos más usados en biometría de voz. Cuál elegir según tu caso de uso.
¿Querés implementar biometría de voz?
Agendá una demo y descubrí cómo Phonomica puede ayudarte.