Clonación de voz con IA: cómo los estafadores clonan su voz en segundos

Q: ¿Cuánto audio necesita la IA para clonar una voz?

Los sistemas de inteligencia artificial modernos como VALL-E de Microsoft pueden crear un clon de voz convincente con solo 3 segundos de audio. Los clones de mayor calidad utilizan entre 30 y 60 segundos. Sus vídeos en las redes sociales, sus saludos en los mensajes de voz o sus apariciones en podcasts proporcionan material más que suficiente.

Q: ¿Cómo puedo verificar si una llamada telefónica es real?

Establezca una palabra clave familiar que se debe utilizar durante las llamadas de emergencia. Si alguien llama diciendo que es un miembro de la familia en apuros, solicite la palabra clave. También puedes colgar y devolverles la llamada a su número conocido.

Seguridad AI18 de marzo de 2026·7 min de lectura

Una madre recibe una llamada telefónica. Oye llorar a su hija: "Mamá, me han secuestrado. Quieren dinero. ¡Por favor ayúdame!" La voz es inconfundible: el mismo tono, los mismos patrones de habla, el mismo tono emocional. Pero no es su hija. Es una IA.

Esto no es ciencia ficción. Esto está sucediendo ahora mismo, miles de veces al día, gracias a la tecnología de clonación de voz de IA que puede replicar cualquier voz humana con solo 3 segundos de audio.

Cómo funciona la clonación de voz mediante IA

La clonación de voz moderna utiliza redes neuronales profundas entrenadas en millones de horas de habla humana. El proceso funciona en tres pasos:

Muestreo de voz: La IA analiza un breve clip de audio de la voz del objetivo, extrayendo características como tono, cadencia, acento y patrones de habla.
Generación de modelo: Una red neuronal crea un modelo de voz que captura estas características vocales únicas.
Síntesis de voz: El atacante escribe cualquier texto y la IA lo pronuncia con la voz clonada con entonación y emoción naturales.

La tecnología ha mejorado dramáticamente. En 2022, la clonación requirió más de 30 minutos de audio. Para 2024, el VALL-E de Microsoft lo logró con 3 segundos. Los modelos de código abierto actuales necesitan incluso menos.

¿De dónde obtienen su voz los estafadores?

Probablemente lo estés regalando:

Vídeos de redes sociales — TikTok, Instagram Reels, YouTube
Saludos por correo de voz — "Hola, te comunicaste con [nombre]..."
Podcasts y entrevistas — audio disponible públicamente
Llamadas telefónicas: los estafadores te llaman primero, graban unos segundos de ti diciendo "¿Hola? ¿Sí?", luego lo usan para clonar tu voz
Mensajes de voz — notas de voz reenviadas de WhatsApp o Telegram

Estafas de voz con IA en el mundo real

La llamada "Secuestro"

La estafa más devastadora emocionalmente. Los delincuentes clonan la voz de un niño o de su cónyuge y luego llaman a sus familiares denunciando un secuestro. Presa del pánico, las víctimas transfieren miles de dólares antes de darse cuenta de que la persona "secuestrada" está a salvo en casa.

La FTC informó un aumento del 700% en estafas de voz con IA en 2025 en comparación con 2023.

Fraude del CEO

Un empleado recibe una llamada de su "CEO" solicitando urgentemente una transferencia bancaria. La voz es idéntica. En 2024, una empresa de Hong Kong perdió $25 millones después de que un empleado fuera engañado por la voz de su director financiero clonada por IA durante una videollamada.

Omisión de autenticación de voz bancaria

Muchos bancos utilizan el reconocimiento de voz para la banca telefónica. Los investigadores han demostrado que los clones de IA pueden eludir estos sistemas con una tasa de éxito superior al 80 % y obtener acceso a las cuentas.

Cómo protegerse

Para Individuos

Cree una palabra clave familiar: Establezca una palabra o frase secreta que los miembros de la familia deben usar durante las llamadas de emergencia. Algo simple pero que no se puede adivinar en las redes sociales.
Verifique volviendo a llamar: Si recibe una llamada angustiante, cuelgue y llame a la persona directamente a su número conocido.
Limitar la exposición de voz: Considere hacer que las cuentas de redes sociales sean privadas. Tenga cuidado al publicar públicamente videos largos con su voz.
No digas "Sí" a personas desconocidas: Los estafadores te graban diciendo "Sí" para cometer fraude de autenticación de voz. Permitir que las llamadas desconocidas vayan al correo de voz.
Urgencia de la pregunta: Los estafadores confían en el pánico. Las emergencias reales pueden esperar 2 minutos para que las verifiques.

Para Organizaciones

Nunca autorice transferencias solo mediante voz: Exija verificación multicanal para cualquier transacción financiera.
Capacitar a los empleados: Capacitación regular de concientización sobre las amenazas de voz deepfake de IA.
Utilice autenticación segura: Reemplace la autenticación basada en voz con autenticación multifactor.

¿Puedes detectar voces de IA?

Se está volviendo más difícil. Las voces actuales de la IA tienen estos indicios sutiles, pero están desapareciendo rápidamente:

Respiración antinatural: Las voces de IA a veces hablan sin pausas naturales en la respiración
Ritmo consistente: Los humanos reales varían su velocidad más que AI
El ruido de fondo no coincide: Es posible que la calidad de la voz no coincida con el entorno supuesto
Planitud emocional: Las emociones complejas como el sarcasmo o el humor sutil pueden sonar ligeramente fuera de lugar

Sin embargo, estos indicadores se están volviendo menos confiables a medida que mejora la tecnología. El enfoque más seguro es nunca confiar únicamente en la voz para la verificación de identidad.

Preguntas frecuentes

¿Cuánto audio necesita la IA para clonar una voz?

Los sistemas de inteligencia artificial modernos pueden crear un clon de voz convincente con solo 3 segundos de audio. Los clones de mayor calidad utilizan entre 30 y 60 segundos. Sus videos de redes sociales, saludos de correo de voz o apariciones en podcasts brindan material más que suficiente.

¿Pueden los clones de voz de IA evitar la autenticación de voz?

Sí. Los estudios muestran que los clones de voz generados por IA pueden eludir los sistemas de autenticación de voz utilizados por bancos y compañías telefónicas con tasas de éxito superiores al 80%. Esta es la razón por la que la autenticación sólo por voz se considera cada vez más insegura.

¿Cómo puedo verificar si una llamada telefónica es real?

Establece una palabra clave familiar que debe usarse durante las llamadas de emergencia. Si alguien llama diciendo que es un miembro de la familia en apuros, solicite la palabra clave. También puedes colgar y devolverles la llamada a su número conocido.

¿Es ilegal la clonación de voz con IA?

Usar IA para clonar la voz de alguien sin consentimiento para cometer fraude es ilegal en la mayoría de las jurisdicciones. Sin embargo, la tecnología en sí es legal y su aplicación es un desafío porque los ataques a menudo se originan en diferentes países.

Herramientas relacionadas

Generador de contraseñas: las contraseñas seguras protegen las cuentas mejor que la autenticación por voz
Estafas con IA en 2026: el panorama completo del fraude impulsado por IA