5 tipos de ataques a sistemas de biometría de voz

Tiempo de lectura: 6 minutos

La biometría de voz es una defensa efectiva, pero no es impenetrable. Entender los tipos de ataques que existen te ayuda a elegir las defensas correctas y configurar tu sistema adecuadamente.

Estos son los 5 tipos principales de ataques que enfrentan los sistemas de biometría de voz.

1. Replay Attack (Ataque de Reproducción)

Qué es

El atacante reproduce una grabación de la voz de la víctima para engañar al sistema.

Cómo funciona

El atacante obtiene una grabación de la víctima (llamada anterior, voicemail, video público)
Reproduce la grabación durante la autenticación
El sistema escucha la voz “correcta” y acepta

Por qué es peligroso

Muy fácil de ejecutar: No requiere conocimiento técnico
Audio abundante: Voicemails, videos de redes sociales, grabaciones de call centers
Bajo costo: Solo necesitás un dispositivo para reproducir

Prevalencia

~40% de los ataques a sistemas de biometría de voz son replay attacks.

Cómo detectar

Artefactos de reproducción: El audio reproducido tiene características de ambiente diferentes
Análisis de canal: El audio grabado y reproducido muestra patrones de compresión
Variabilidad: El audio reproducido es idéntico cada vez; voz real tiene micro-variaciones

Efectividad de detección

Los sistemas anti-spoofing modernos detectan replay attacks con >97% de efectividad.

2. Deepfake de Voz (Text-to-Speech Clonado)

Qué es

Audio generado por IA que imita la voz de la víctima, diciendo cualquier texto que el atacante quiera.

Cómo funciona

El atacante obtiene samples de la voz de la víctima (3-60 segundos)
Usa una herramienta de clonación (ElevenLabs, OpenVoice, etc.)
Genera audio con cualquier texto usando la voz clonada
Usa el audio generado para autenticarse

Por qué es peligroso

Alta calidad: Las herramientas modernas generan audio muy convincente
Flexible: Puede decir cualquier cosa (útil para autenticación dinámica)
Accesible: Herramientas disponibles desde $5/mes

Prevalencia

~35% de los ataques sofisticados usan deepfakes de voz. Creciendo rápido.

Cómo detectar

Artefactos de vocoder: Los generadores dejan patrones sutiles en el espectro
Falta de naturalidad: Respiración, pausas, micro-variaciones menos naturales
Patrones de la herramienta: Cada tool tiene su “firma”

Efectividad de detección

Con anti-spoofing adaptativo: 92-98% de detección. Sin anti-spoofing: <50%.

3. Voice Conversion (Conversión de Voz)

Qué es

El atacante habla con su propia voz, pero un sistema la transforma en tiempo real para sonar como la víctima.

Cómo funciona

El atacante entrena un modelo de conversión con audio de la víctima
Durante la llamada, habla normalmente
El software convierte su voz a la voz de la víctima en tiempo real
El sistema de biometría escucha “la voz de la víctima”

Por qué es peligroso

Tiempo real: Puede mantener una conversación, responder preguntas
Más natural: Tiene variabilidad humana real (respiración, pausas)
Difícil de distinguir: Combina elementos de voz real con características de la víctima

Prevalencia

~15% de los ataques, pero creciendo muy rápido con herramientas como RVC.

Cómo detectar

Inconsistencias en formantes: La conversión no es perfecta
Artefactos de procesamiento: Latencia, glitches, transiciones
Análisis de características: Algunas características del hablante original persisten

Efectividad de detección

Con anti-spoofing adaptativo: 85-95% de detección. Es el tipo más difícil de detectar.

4. Síntesis TTS (Text-to-Speech Genérico)

Qué es

Usar un sistema de text-to-speech genérico (no clonado) para generar audio que pase la autenticación.

Cómo funciona

El atacante obtiene acceso a las credenciales de la víctima
Intenta usar TTS genérico esperando que el sistema tenga baja precisión
Si el threshold está muy bajo o el sistema es malo, puede pasar

Por qué es (menos) peligroso

Voz diferente: No suena como la víctima específica
Fácilmente detectable: Voces TTS genéricas son muy detectables

Prevalencia

<5% de los ataques. Solo funciona contra sistemas muy pobres.

Cómo detectar

No match de voiceprint: La voz no coincide con el enrollment
Características de TTS: Voces sintéticas genéricas son muy detectables

Efectividad de detección

99% si el sistema tiene anti-spoofing básico.

5. Ataques Físicos/Híbridos

Qué es

Ataques que combinan elementos físicos o sociales con elementos técnicos.

Ejemplos

Coerción física:

Forzar a la víctima a autenticarse
Grabar a la víctima sin su conocimiento para usar después

Social engineering + técnico:

Llamar a la víctima, grabarla, usar esa grabación
Manipular al agente del call center para que ignore alertas

Man-in-the-middle:

Interceptar una llamada legítima
Usar el audio de la víctima en tiempo real para otra autenticación

Por qué es peligroso

Elude defensas técnicas: Si la víctima realmente habla, es su voz real
Difícil de detectar: El audio es genuino

Prevalencia

Difícil de medir. Probablemente <5% pero puede ser muy costoso cuando ocurre.

Cómo detectar

Análisis de stress/coerción: Detectar indicadores de que el hablante está bajo presión
Verificación contextual: ¿Tiene sentido esta transacción? ¿Desde dónde?
Capacitación de agentes: Reconocer situaciones sospechosas

Efectividad de detección

Variable. Requiere defensa en capas, no solo técnica.

Resumen: Matriz de amenazas

Ataque	Prevalencia	Sofisticación	Detección
Replay	40%	Baja	Muy alta (>97%)
Deepfake	35%	Media	Alta (92-98%)
Voice conversion	15%	Alta	Media-Alta (85-95%)
TTS genérico	<5%	Muy baja	Muy alta (>99%)
Físico/híbrido	<5%	Variable	Requiere multicapa

Cómo protegerse

Mínimo viable

Anti-spoofing de replay: Detecta reproducciones de grabaciones
Threshold adecuado: Ni muy permisivo ni muy restrictivo

Óptimo

Defensa multicapa: Audio + behavioral + contextual
Actualización continua: Modelos actualizados frecuentemente
Monitoreo de transacciones: Detectar patrones anómalos
Capacitación de agentes: Primera línea de defensa humana

¿Querés evaluar tu vulnerabilidad a estos ataques? Contactanos para una evaluación de seguridad.

5 tipos de ataques a sistemas de biometría de voz

1. Replay Attack (Ataque de Reproducción)

Qué es

Cómo funciona

Por qué es peligroso

Prevalencia

Cómo detectar

Efectividad de detección

2. Deepfake de Voz (Text-to-Speech Clonado)

Qué es

Cómo funciona

Por qué es peligroso

Prevalencia

Cómo detectar

Efectividad de detección

3. Voice Conversion (Conversión de Voz)

Qué es

Cómo funciona

Por qué es peligroso

Prevalencia

Cómo detectar

Efectividad de detección

4. Síntesis TTS (Text-to-Speech Genérico)

Qué es

Cómo funciona

Por qué es (menos) peligroso

Prevalencia

Cómo detectar

Efectividad de detección

5. Ataques Físicos/Híbridos

Qué es

Ejemplos

Por qué es peligroso

Prevalencia

Cómo detectar

Efectividad de detección

Resumen: Matriz de amenazas

Cómo protegerse

Mínimo viable

Recomendado

Óptimo

Recursos relacionados

Artículos relacionados

Cómo la biometría de voz mejora el NPS

El caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz

ECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz

¿Querés implementar biometría de voz?