¿Puede ElevenLabs engañar a un sistema de biometría de voz?

Tiempo de lectura: 6 minutos

ElevenLabs es la herramienta de clonación de voz más popular del mundo. Por $5-22/mes, cualquiera puede clonar una voz con calidad de broadcast. La pregunta obvia: ¿puede engañar a sistemas de biometría de voz?

Hicimos las pruebas.

El experimento

Setup

Víctima simulada: Creamos un voiceprint de un miembro del equipo usando 10 segundos de audio de una reunión (condiciones realistas, no estudio).

Ataque: Usamos ElevenLabs para clonar la misma voz con 30 segundos de audio de referencia, y generamos frases de verificación.

Sistemas probados:

Sistema A: Biometría básica sin anti-spoofing
Sistema B: Biometría con anti-spoofing estático
Sistema C: Biometría con anti-spoofing adaptativo (Phonomica)

Métricas

Score de similitud: Qué tan parecida es la voz clonada al voiceprint original
Spoof flag: Si el sistema detecta que es audio sintético
Decisión final: ¿Aceptaría el sistema esta autenticación?

Resultados

Sistema A: Sin anti-spoofing

Intento	Score	Spoof Flag	Decisión
ElevenLabs intento 1	0.82	N/A	✅ ACCEPT
ElevenLabs intento 2	0.85	N/A	✅ ACCEPT
ElevenLabs intento 3	0.79	N/A	✅ ACCEPT
Voz real	0.91	N/A	✅ ACCEPT

Resultado: 3/3 ataques exitosos (100%)

El score de ElevenLabs es ligeramente menor que la voz real, pero está cómodamente por encima del threshold típico de 0.75-0.80. Sin anti-spoofing, el sistema no tiene forma de saber que es audio sintético.

Sistema B: Anti-spoofing estático

Intento	Score	Spoof Flag	Decisión
ElevenLabs intento 1	0.82	⚠️ 0.35	❌ REJECT
ElevenLabs intento 2	0.84	⚠️ 0.42	❌ REJECT
ElevenLabs intento 3	0.81	✅ 0.18	✅ ACCEPT
Voz real	0.91	✅ 0.05	✅ ACCEPT

Resultado: 1/3 ataques exitosos (33%)

El anti-spoofing estático detecta la mayoría de los intentos, pero no todos. ElevenLabs genera cierta variabilidad, y algunos outputs pasan bajo el radar.

Sistema C: Anti-spoofing adaptativo (Phonomica)

Intento	Score	Spoof Flag	Decisión
ElevenLabs intento 1	0.82	⚠️ 0.72	❌ REJECT
ElevenLabs intento 2	0.85	⚠️ 0.68	❌ REJECT
ElevenLabs intento 3	0.80	⚠️ 0.75	❌ REJECT
ElevenLabs intento 4	0.83	⚠️ 0.71	❌ REJECT
ElevenLabs intento 5	0.81	⚠️ 0.69	❌ REJECT
Voz real	0.91	✅ 0.03	✅ ACCEPT

Resultado: 0/5 ataques exitosos (0%)

El anti-spoofing adaptativo, específicamente entrenado para detectar ElevenLabs y actualizado regularmente, detecta todos los intentos con alta confianza.

Por qué ElevenLabs es detectable

1. Artefactos del vocoder

ElevenLabs usa un vocoder neural para generar audio. Este proceso deja patrones sutiles en el espectro que son invisibles al oído humano pero detectables por algoritmos.

2. Características de síntesis

El audio de ElevenLabs tiene:

Distribución de energía diferente
Patrones de pitch más regulares
Menos micro-variabilidad
Respiración artificial

3. La “firma” de ElevenLabs

Cada herramienta de síntesis tiene su firma. Los sistemas de detección que han visto ejemplos de ElevenLabs pueden reconocer esa firma.

Pero hay matices

La detección no es 100%

Incluso el mejor sistema tiene margen de error. Con suficientes intentos y variaciones, un atacante persistente podría encontrar un audio que pase.

Otras herramientas son diferentes

ElevenLabs es detectable porque es popular y los sistemas están entrenados para detectarla. Herramientas menos conocidas o custom pueden ser más difíciles.

La carrera armamentista continúa

ElevenLabs y otras herramientas mejoran constantemente. Lo que se detecta hoy puede no detectarse mañana sin actualización de modelos.

Qué significa para tu seguridad

Si tenés biometría SIN anti-spoofing

Riesgo: ALTO

ElevenLabs (y herramientas similares) probablemente pueden pasar tu autenticación. Deberías:

Agregar anti-spoofing urgentemente
No confiar solo en biometría de voz
Implementar controles adicionales

Si tenés anti-spoofing estático

Riesgo: MEDIO

Detectás la mayoría de los ataques, pero no todos. Deberías:

Verificar que tu proveedor actualice modelos regularmente
Monitorear intentos de spoofing detectados
Considerar upgrade a adaptativo

Si tenés anti-spoofing adaptativo

Riesgo: BAJO (pero no cero)

Tenés la mejor protección disponible. Deberías:

Verificar frecuencia de actualización
Implementar defensa multicapa de todos modos
No confiar en ningún factor único

El experimento expandido

Probamos otras herramientas además de ElevenLabs:

Herramienta	Sistema A (sin)	Sistema B (estático)	Sistema C (adaptativo)
ElevenLabs	100% éxito	33% éxito	0% éxito
Resemble AI	100% éxito	40% éxito	5% éxito
OpenVoice	100% éxito	55% éxito	8% éxito
RVC	100% éxito	60% éxito	12% éxito
XTTS	100% éxito	45% éxito	3% éxito

Observaciones:

Sin anti-spoofing, todas las herramientas pasan
El anti-spoofing estático es parcialmente efectivo
El adaptativo es mucho mejor, pero RVC y OpenVoice son más difíciles de detectar
Voice conversion (RVC) es el desafío más grande

Recomendaciones

Para empresas

Verificá que tu sistema tenga anti-spoofing moderno
Preguntá a tu proveedor con qué frecuencia actualiza
No confíes solo en biometría: defensa multicapa
Hacé pruebas regulares con herramientas de síntesis actuales

Para proveedores

Actualización continua es obligatoria
Monitorear nuevas herramientas constantemente
Testing adversarial regular
Transparencia con clientes sobre limitaciones

Para todos

No asumas que “biometría de voz” significa “seguro”
El anti-spoofing hace la diferencia
La carrera armamentista es real: necesitás defensas que evolucionen

Conclusión

¿Puede ElevenLabs engañar a un sistema de biometría de voz?

Sin anti-spoofing: Sí, fácilmente
Con anti-spoofing estático: A veces
Con anti-spoofing adaptativo: Raramente, pero el riesgo nunca es cero

La moraleja: la biometría de voz sin anti-spoofing actualizado es un riesgo, no una protección.

¿Querés probar tu sistema? Contactanos y te ayudamos a evaluarlo.

¿Puede ElevenLabs engañar a un sistema de biometría de voz?

¿Puede ElevenLabs engañar a un sistema de biometría de voz?

El experimento

Setup

Métricas

Resultados

Sistema A: Sin anti-spoofing

Sistema B: Anti-spoofing estático

Sistema C: Anti-spoofing adaptativo (Phonomica)

Por qué ElevenLabs es detectable

1. Artefactos del vocoder

2. Características de síntesis

3. La “firma” de ElevenLabs

Pero hay matices

La detección no es 100%

Otras herramientas son diferentes

La carrera armamentista continúa

Qué significa para tu seguridad

Si tenés biometría SIN anti-spoofing

Si tenés anti-spoofing estático

Si tenés anti-spoofing adaptativo

El experimento expandido

Recomendaciones

Para empresas

Para proveedores

Para todos

Conclusión

Recursos relacionados

Artículos relacionados

Cómo la biometría de voz mejora el NPS

El caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz

ECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz

¿Querés implementar biometría de voz?