EER, FAR, FRR: entendiendo las métricas de biometría
Entiende las métricas clave de biometría de voz: EER, FAR y FRR. Qué significan, cómo se calculan y cómo usarlas para evaluar proveedores.
Phonomica
Equipo de contenido
10 de abril de 2023
Actualizado: 15 de enero de 2025
EER, FAR, FRR: entendiendo las métricas de biometría
Tiempo de lectura: 6 minutos
Cuando evalúas un sistema de biometría de voz, te van a bombardear con siglas: EER, FAR, FRR, TAR… Entender estas métricas es crucial para comparar proveedores y elegir la configuración correcta para tu caso de uso.
Esta guía te explica cada métrica, cómo se relacionan entre sí, y cómo interpretarlas en la práctica.
Las dos formas de equivocarse
Un sistema de biometría puede cometer dos tipos de errores:
Error Tipo 1: Aceptar a un impostor (Falso Positivo)
El sistema acepta a alguien que no debería ser aceptado. Un atacante se hace pasar por un cliente legítimo y el sistema lo deja pasar.
Consecuencia: Fraude, pérdidas financieras, breach de seguridad.
Error Tipo 2: Rechazar a un usuario legítimo (Falso Negativo)
El sistema rechaza a alguien que sí debería ser aceptado. Un cliente real no puede acceder a su cuenta porque el sistema no lo reconoce.
Consecuencia: Mala experiencia de cliente, llamadas al call center, abandono.
FAR: False Acceptance Rate
El FAR (Tasa de Falsa Aceptación) mide qué porcentaje de impostores son incorrectamente aceptados.
FAR = Impostores aceptados / Total de intentos de impostores × 100
Ejemplo: Si 1,000 impostores intentan autenticarse y 10 pasan, el FAR es 1%.
Interpretación:
- FAR bajo = Mayor seguridad
- FAR alto = Mayor riesgo de fraude
FAR típicos en producción:
- Sistemas de alta seguridad: <0.1%
- Sistemas balanceados: 0.5-1%
- Sistemas de alta usabilidad: 1-3%
FRR: False Rejection Rate
El FRR (Tasa de Falso Rechazo) mide qué porcentaje de usuarios legítimos son incorrectamente rechazados.
FRR = Legítimos rechazados / Total de intentos legítimos × 100
Ejemplo: Si 10,000 clientes legítimos intentan autenticarse y 200 son rechazados, el FRR es 2%.
Interpretación:
- FRR bajo = Mejor experiencia de usuario
- FRR alto = Más fricción, más llamadas de soporte
FRR típicos en producción:
- Sistemas de alta usabilidad: <1%
- Sistemas balanceados: 1-3%
- Sistemas de alta seguridad: 3-5%
El trade-off entre FAR y FRR
Acá está el punto clave: FAR y FRR están inversamente relacionados.
Si ajustás el sistema para ser más estricto (threshold más alto):
- ✅ FAR baja (menos impostores pasan)
- ❌ FRR sube (más legítimos son rechazados)
Si ajustás el sistema para ser más permisivo (threshold más bajo):
- ❌ FAR sube (más impostores pasan)
- ✅ FRR baja (menos legítimos son rechazados)
No podés minimizar ambos simultáneamente. Tenés que elegir el balance correcto para tu caso de uso.
EER: Equal Error Rate
El EER (Tasa de Error Igual) es el punto donde FAR = FRR.
Es la métrica más usada para comparar sistemas porque es un número único que captura la precisión general.
EER = FAR cuando FAR = FRR
Cómo se calcula:
- Variás el threshold de 0 a 1
- Para cada threshold, calculás FAR y FRR
- El EER es el valor donde se cruzan
Interpretación:
- EER más bajo = Sistema más preciso
- EER de 1% significa que en el punto óptimo, tanto FAR como FRR son 1%
EER de referencia:
| Contexto | EER típico |
|---|---|
| Benchmark laboratorio (VoxCeleb) | 0.5-1% |
| Producción condiciones ideales | 1-2% |
| Producción condiciones reales | 2-4% |
| Sistema legacy/antiguo | 5-10% |
La curva DET
La curva DET (Detection Error Tradeoff) visualiza la relación entre FAR y FRR para diferentes thresholds.
FRR
│
10% │ \
│ \
5% │ \
│ ╲
1% │ ╲_____
│ ╲
└─────────────────── FAR
1% 5% 10%
Cómo leerla:
- Cada punto de la curva es un threshold diferente
- El punto donde la curva cruza la diagonal (FAR = FRR) es el EER
- Una curva más hacia abajo-izquierda indica mejor sistema
Cómo elegir tu threshold
El EER es útil para comparar sistemas, pero en producción rara vez operás en el EER. Elegís un threshold según tu prioridad:
Prioridad: Seguridad (minimizar fraude)
Elegí un threshold alto. Aceptás más FRR a cambio de menor FAR.
Casos de uso:
- Transacciones de alto valor
- Acceso a información sensible
- Sectores altamente regulados
Configuración típica:
- Threshold: 0.85-0.90
- FAR esperado: <0.5%
- FRR esperado: 3-5%
Prioridad: Usabilidad (minimizar fricción)
Elegí un threshold bajo. Aceptás más FAR a cambio de menor FRR.
Casos de uso:
- Consultas de bajo riesgo
- Usuarios frecuentes
- Entornos donde la fricción impacta conversión
Configuración típica:
- Threshold: 0.70-0.75
- FAR esperado: 2-3%
- FRR esperado: <1%
Prioridad: Balance
El punto medio, cercano al EER.
Casos de uso:
- Transacciones de riesgo medio
- Caso de uso general
Configuración típica:
- Threshold: 0.80
- FAR esperado: ~1%
- FRR esperado: ~2%
Otras métricas que podés encontrar
TAR (True Acceptance Rate)
TAR = 1 - FRR
El porcentaje de usuarios legítimos correctamente aceptados. A veces se expresa como “accuracy” en contextos de verificación.
TRR (True Rejection Rate)
TRR = 1 - FAR
El porcentaje de impostores correctamente rechazados.
minDCF (Minimum Detection Cost Function)
Una métrica más sofisticada que pondera FAR y FRR según el costo relativo de cada error. Se usa en competencias académicas como VoxSRC.
Cómo evaluar un proveedor
Cuando un proveedor te dice “nuestro EER es 0.8%”, preguntá:
- ¿En qué dataset? VoxCeleb vs producción real son muy diferentes
- ¿Con qué duración de audio? Más audio = mejor EER
- ¿Con qué calidad de audio? Audio limpio vs telefónico
- ¿Es el modelo base o con anti-spoofing? El anti-spoofing puede agregar latencia y afectar métricas
- ¿Puedo hacer un piloto en mis condiciones? La única métrica que importa es la de TU operación
Resumen
| Métrica | Qué mide | Mejor cuando es… |
|---|---|---|
| FAR | Impostores aceptados | Más bajo |
| FRR | Legítimos rechazados | Más bajo |
| EER | Punto de equilibrio FAR=FRR | Más bajo |
Para comparar sistemas: Usá EER. Para configurar TU sistema: Elegí el threshold que balance FAR/FRR según tu prioridad.
¿Querés entender cómo funcionan estas métricas en la práctica? Contactanos y te mostramos cómo configurar los thresholds para tu caso de uso.
Recursos relacionados
Artículos relacionados
Cómo la biometría de voz mejora el NPS
La biometría de voz mejora el NPS en +40-60 puntos vs autenticación tradicional. Análisis de por qué y cómo medirlo.
ArtículoEl caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz
Análisis del caso CEO Fraud UK de 2019: cómo un deepfake de voz costó $243K a una empresa energética y qué lecciones podemos aprender.
ArtículoECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz
Comparación técnica entre ECAPA-TDNN y TitaNet, los dos modelos más usados en biometría de voz. Cuál elegir según tu caso de uso.
¿Querés implementar biometría de voz?
Agendá una demo y descubrí cómo Phonomica puede ayudarte.