Replay attack vs deepfake: diferencias y cómo detectarlos
Diferencias entre replay attacks y deepfakes de voz: cómo funcionan, cuál es más peligroso, y cómo detectar cada uno.
Phonomica
Equipo de contenido
20 de junio de 2024
Actualizado: 15 de enero de 2025
Replay attack vs deepfake: diferencias y cómo detectarlos
Tiempo de lectura: 5 minutos
Replay attacks y deepfakes de voz son los dos tipos más comunes de ataques a sistemas de biometría de voz. Ambos buscan engañar al sistema haciéndose pasar por otra persona, pero funcionan de forma muy diferente.
Entender las diferencias te ayuda a elegir las defensas correctas.
Qué es cada uno
Replay Attack
El atacante reproduce una grabación de la voz de la víctima.
Es el ataque más simple: obtener una grabación de la víctima y reproducirla durante la autenticación.
Víctima habla → Atacante graba → Atacante reproduce → Sistema escucha
Deepfake de Voz
El atacante genera audio nuevo con IA que suena como la víctima.
Es más sofisticado: usar herramientas de clonación para crear audio que nunca existió.
Víctima habla → IA aprende su voz → IA genera audio nuevo → Sistema escucha
Comparación lado a lado
| Aspecto | Replay Attack | Deepfake |
|---|---|---|
| Complejidad | Muy baja | Media |
| Costo | $0 | $5-50/mes |
| Tiempo de preparación | Minutos | Minutos a horas |
| Flexibilidad | Solo lo que está grabado | Cualquier texto |
| Calidad | Audio original | Varía |
| Detección | Más fácil | Más difícil |
| Prevalencia | ~40% | ~35% |
Cuándo se usa cada uno
El atacante elige Replay cuando:
- Tiene una grabación adecuada: La víctima diciendo algo útil
- El sistema es text-independent: Cualquier audio sirve
- No tiene acceso a herramientas de síntesis: O no sabe usarlas
- Quiere simplicidad: Menor riesgo de errores técnicos
El atacante elige Deepfake cuando:
- El sistema es text-dependent: Necesita una frase específica que no tiene grabada
- Necesita responder dinámicamente: Conversación en tiempo real
- La grabación disponible no es adecuada: Muy corta, ruidosa, o contenido incorrecto
- Tiene acceso a herramientas: Y el conocimiento para usarlas
Cómo detectar Replay Attacks
Los replay attacks son relativamente fáciles de detectar porque el audio reproducido tiene características distintas del audio en vivo.
Señales de replay
1. Artefactos de reproducción
- Ruido de ambiente grabado (diferente del ambiente actual)
- Eco o reverberación de la grabación original
- Ruido del speaker reproductor
2. Características de canal
- El audio grabado pasó por un codec (compresión)
- Al reproducirse, pasa por otro codec
- Esta doble compresión deja huellas
3. Falta de variabilidad
- El mismo audio reproducido es idéntico cada vez
- La voz humana real tiene micro-variaciones
- Múltiples intentos con audio idéntico = replay
4. Inconsistencia temporal
- El audio no responde a estímulos en tiempo real
- Si le hacés una pregunta, el “cliente” no puede responder
Efectividad de detección
Con anti-replay moderno: >97% de detección
Los replay attacks son un problema “resuelto” tecnológicamente, aunque siguen siendo comunes porque muchos sistemas no tienen anti-spoofing.
Cómo detectar Deepfakes
Los deepfakes son más difíciles de detectar porque el audio es “nuevo” y puede tener más variabilidad.
Señales de deepfake
1. Artefactos del vocoder
- Los generadores de audio usan vocoders que dejan patrones
- Estos patrones son invisibles al oído pero detectables por ML
2. Características de síntesis
- Distribución de energía diferente
- Pitch más regular (menos “humano”)
- Formantes menos naturales
3. Falta de naturalidad fina
- Respiración artificial o ausente
- Pausas muy regulares
- Micro-prosodia menos variable
4. “Firma” de la herramienta
- Cada tool de síntesis tiene características propias
- ElevenLabs suena diferente a OpenVoice
- Modelos entrenados pueden reconocer estas firmas
Efectividad de detección
- Con anti-spoofing estático: 70-80% de detección
- Con anti-spoofing adaptativo: 92-98% de detección
La detección de deepfakes es un problema “en curso”—requiere actualización constante.
El problema del voice conversion
Hay un tercer tipo de ataque que combina elementos de ambos: voice conversion.
El atacante habla con su propia voz, que se transforma en tiempo real para sonar como la víctima.
| Aspecto | Replay | Deepfake | Voice Conversion |
|---|---|---|---|
| Audio base | Grabación víctima | IA genera | Voz atacante |
| Tiempo real | No | Posible | Sí |
| Naturalidad | Original | Variable | Alta |
| Detección | Fácil | Media | Difícil |
Voice conversion es particularmente peligroso porque:
- Tiene la naturalidad de voz humana real (respiración, variabilidad)
- Puede responder en tiempo real
- Los artefactos son más sutiles
Qué defensa necesitás
Mínimo: Anti-replay
Si solo podés implementar una cosa, anti-replay te protege contra el 40% de los ataques con >97% de efectividad.
Recomendado: Anti-replay + Anti-síntesis
Agregas protección contra deepfakes, cubriendo ~75% de los ataques con buena efectividad.
Óptimo: Anti-spoofing adaptativo completo
Protección contra replay, deepfake, y voice conversion, con actualización continua para nuevas amenazas.
La evolución de las amenazas
2019-2020: Dominaban los replay
Los replay attacks eran ~70% de los ataques. Los deepfakes eran raros y requerían expertise.
2021-2022: Crecen los deepfakes
Con herramientas como Descript y primeras versiones de ElevenLabs, los deepfakes se vuelven accesibles. Proporción: 55% replay, 30% deepfake.
2023-2024: Deepfakes dominan ataques sofisticados
ElevenLabs, OpenVoice, RVC hacen trivial la creación de deepfakes. En ataques sofisticados, deepfake + voice conversion superan a replay.
2025+: Voice conversion en tiempo real
La próxima frontera. Herramientas que permiten cambiar tu voz durante una llamada en vivo.
Resumen
| Replay | Deepfake | |
|---|---|---|
| Es más fácil de ejecutar | ✅ | |
| Es más flexible | ✅ | |
| Es más fácil de detectar | ✅ | |
| Es más peligroso a futuro | ✅ | |
| Requiere actualización de defensa | Menos | Más |
Conclusión: Necesitás protección contra ambos, pero la inversión en detección de deepfakes es más crítica porque la amenaza está creciendo.
¿Querés evaluar tu protección contra estos ataques? Contactanos para una evaluación.
Recursos relacionados
Artículos relacionados
Cómo la biometría de voz mejora el NPS
La biometría de voz mejora el NPS en +40-60 puntos vs autenticación tradicional. Análisis de por qué y cómo medirlo.
ArtículoEl caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz
Análisis del caso CEO Fraud UK de 2019: cómo un deepfake de voz costó $243K a una empresa energética y qué lecciones podemos aprender.
ArtículoECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz
Comparación técnica entre ECAPA-TDNN y TitaNet, los dos modelos más usados en biometría de voz. Cuál elegir según tu caso de uso.
¿Querés implementar biometría de voz?
Agendá una demo y descubrí cómo Phonomica puede ayudarte.