¿Puede ElevenLabs engañar a un sistema de biometría de voz?
Probamos ElevenLabs contra sistemas de biometría de voz. ¿Puede la clonación de voz más popular engañar a la autenticación biométrica?
Phonomica
Equipo de contenido
15 de mayo de 2024
Actualizado: 15 de enero de 2025
¿Puede ElevenLabs engañar a un sistema de biometría de voz?
Tiempo de lectura: 6 minutos
ElevenLabs es la herramienta de clonación de voz más popular del mundo. Por $5-22/mes, cualquiera puede clonar una voz con calidad de broadcast. La pregunta obvia: ¿puede engañar a sistemas de biometría de voz?
Hicimos las pruebas.
El experimento
Setup
Víctima simulada: Creamos un voiceprint de un miembro del equipo usando 10 segundos de audio de una reunión (condiciones realistas, no estudio).
Ataque: Usamos ElevenLabs para clonar la misma voz con 30 segundos de audio de referencia, y generamos frases de verificación.
Sistemas probados:
- Sistema A: Biometría básica sin anti-spoofing
- Sistema B: Biometría con anti-spoofing estático
- Sistema C: Biometría con anti-spoofing adaptativo (Phonomica)
Métricas
- Score de similitud: Qué tan parecida es la voz clonada al voiceprint original
- Spoof flag: Si el sistema detecta que es audio sintético
- Decisión final: ¿Aceptaría el sistema esta autenticación?
Resultados
Sistema A: Sin anti-spoofing
| Intento | Score | Spoof Flag | Decisión |
|---|---|---|---|
| ElevenLabs intento 1 | 0.82 | N/A | ✅ ACCEPT |
| ElevenLabs intento 2 | 0.85 | N/A | ✅ ACCEPT |
| ElevenLabs intento 3 | 0.79 | N/A | ✅ ACCEPT |
| Voz real | 0.91 | N/A | ✅ ACCEPT |
Resultado: 3/3 ataques exitosos (100%)
El score de ElevenLabs es ligeramente menor que la voz real, pero está cómodamente por encima del threshold típico de 0.75-0.80. Sin anti-spoofing, el sistema no tiene forma de saber que es audio sintético.
Sistema B: Anti-spoofing estático
| Intento | Score | Spoof Flag | Decisión |
|---|---|---|---|
| ElevenLabs intento 1 | 0.82 | ⚠️ 0.35 | ❌ REJECT |
| ElevenLabs intento 2 | 0.84 | ⚠️ 0.42 | ❌ REJECT |
| ElevenLabs intento 3 | 0.81 | ✅ 0.18 | ✅ ACCEPT |
| Voz real | 0.91 | ✅ 0.05 | ✅ ACCEPT |
Resultado: 1/3 ataques exitosos (33%)
El anti-spoofing estático detecta la mayoría de los intentos, pero no todos. ElevenLabs genera cierta variabilidad, y algunos outputs pasan bajo el radar.
Sistema C: Anti-spoofing adaptativo (Phonomica)
| Intento | Score | Spoof Flag | Decisión |
|---|---|---|---|
| ElevenLabs intento 1 | 0.82 | ⚠️ 0.72 | ❌ REJECT |
| ElevenLabs intento 2 | 0.85 | ⚠️ 0.68 | ❌ REJECT |
| ElevenLabs intento 3 | 0.80 | ⚠️ 0.75 | ❌ REJECT |
| ElevenLabs intento 4 | 0.83 | ⚠️ 0.71 | ❌ REJECT |
| ElevenLabs intento 5 | 0.81 | ⚠️ 0.69 | ❌ REJECT |
| Voz real | 0.91 | ✅ 0.03 | ✅ ACCEPT |
Resultado: 0/5 ataques exitosos (0%)
El anti-spoofing adaptativo, específicamente entrenado para detectar ElevenLabs y actualizado regularmente, detecta todos los intentos con alta confianza.
Por qué ElevenLabs es detectable
1. Artefactos del vocoder
ElevenLabs usa un vocoder neural para generar audio. Este proceso deja patrones sutiles en el espectro que son invisibles al oído humano pero detectables por algoritmos.
2. Características de síntesis
El audio de ElevenLabs tiene:
- Distribución de energía diferente
- Patrones de pitch más regulares
- Menos micro-variabilidad
- Respiración artificial
3. La “firma” de ElevenLabs
Cada herramienta de síntesis tiene su firma. Los sistemas de detección que han visto ejemplos de ElevenLabs pueden reconocer esa firma.
Pero hay matices
La detección no es 100%
Incluso el mejor sistema tiene margen de error. Con suficientes intentos y variaciones, un atacante persistente podría encontrar un audio que pase.
Otras herramientas son diferentes
ElevenLabs es detectable porque es popular y los sistemas están entrenados para detectarla. Herramientas menos conocidas o custom pueden ser más difíciles.
La carrera armamentista continúa
ElevenLabs y otras herramientas mejoran constantemente. Lo que se detecta hoy puede no detectarse mañana sin actualización de modelos.
Qué significa para tu seguridad
Si tenés biometría SIN anti-spoofing
Riesgo: ALTO
ElevenLabs (y herramientas similares) probablemente pueden pasar tu autenticación. Deberías:
- Agregar anti-spoofing urgentemente
- No confiar solo en biometría de voz
- Implementar controles adicionales
Si tenés anti-spoofing estático
Riesgo: MEDIO
Detectás la mayoría de los ataques, pero no todos. Deberías:
- Verificar que tu proveedor actualice modelos regularmente
- Monitorear intentos de spoofing detectados
- Considerar upgrade a adaptativo
Si tenés anti-spoofing adaptativo
Riesgo: BAJO (pero no cero)
Tenés la mejor protección disponible. Deberías:
- Verificar frecuencia de actualización
- Implementar defensa multicapa de todos modos
- No confiar en ningún factor único
El experimento expandido
Probamos otras herramientas además de ElevenLabs:
| Herramienta | Sistema A (sin) | Sistema B (estático) | Sistema C (adaptativo) |
|---|---|---|---|
| ElevenLabs | 100% éxito | 33% éxito | 0% éxito |
| Resemble AI | 100% éxito | 40% éxito | 5% éxito |
| OpenVoice | 100% éxito | 55% éxito | 8% éxito |
| RVC | 100% éxito | 60% éxito | 12% éxito |
| XTTS | 100% éxito | 45% éxito | 3% éxito |
Observaciones:
- Sin anti-spoofing, todas las herramientas pasan
- El anti-spoofing estático es parcialmente efectivo
- El adaptativo es mucho mejor, pero RVC y OpenVoice son más difíciles de detectar
- Voice conversion (RVC) es el desafío más grande
Recomendaciones
Para empresas
- Verificá que tu sistema tenga anti-spoofing moderno
- Preguntá a tu proveedor con qué frecuencia actualiza
- No confíes solo en biometría: defensa multicapa
- Hacé pruebas regulares con herramientas de síntesis actuales
Para proveedores
- Actualización continua es obligatoria
- Monitorear nuevas herramientas constantemente
- Testing adversarial regular
- Transparencia con clientes sobre limitaciones
Para todos
- No asumas que “biometría de voz” significa “seguro”
- El anti-spoofing hace la diferencia
- La carrera armamentista es real: necesitás defensas que evolucionen
Conclusión
¿Puede ElevenLabs engañar a un sistema de biometría de voz?
- Sin anti-spoofing: Sí, fácilmente
- Con anti-spoofing estático: A veces
- Con anti-spoofing adaptativo: Raramente, pero el riesgo nunca es cero
La moraleja: la biometría de voz sin anti-spoofing actualizado es un riesgo, no una protección.
¿Querés probar tu sistema? Contactanos y te ayudamos a evaluarlo.
Recursos relacionados
Artículos relacionados
Cómo la biometría de voz mejora el NPS
La biometría de voz mejora el NPS en +40-60 puntos vs autenticación tradicional. Análisis de por qué y cómo medirlo.
ArtículoEl caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz
Análisis del caso CEO Fraud UK de 2019: cómo un deepfake de voz costó $243K a una empresa energética y qué lecciones podemos aprender.
ArtículoECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz
Comparación técnica entre ECAPA-TDNN y TitaNet, los dos modelos más usados en biometría de voz. Cuál elegir según tu caso de uso.
¿Querés implementar biometría de voz?
Agendá una demo y descubrí cómo Phonomica puede ayudarte.