TECNOLOGÍA, INTERNET, JUEGOS

Las voces de la IA son difíciles de detectar y logran engañar

Las voces de la IA son difíciles de detectar y logran engañar

By ypaolavc

La inteligencia artificial (IA) está en pleno desarrollo y continúa progresando rápidamente. Siendo esta una herramienta para ayudar, apoyar, asistir y aligerar la carga de la inteligencia humana, en lugar de reemplazarla. Sin embargo, con los grandes avances, las voces de la IA son difíciles de detectar y logran engañar, lo que detona una alerta. Ya que, el ser humano no es capaz de detectar con fiabilidad los “deepfakes” de audio, veamos de qué se trata.

Entre avances e inquietudes

Para tu información, la IA se puede definir como una combinación de ciencia y tecnología que intenta utilizar máquinas para replicar habilidades cognitivas específicas de los humanos. Como la capacidad de: ver, sentir, oír, hablar, comprender el lenguaje natural, razonar, aprender y sentir emoción.

Ahora, ha surgido una situación, ya que, el audio “deepfake” puede engañar a las personas. Incluso cuando saben que podrían estar escuchando una voz generada por IA. Así que, es posible que sea necesario intensificar los detectores impulsados por IA para ayudar a las personas a distinguir los “deepfakes” del habla humana auténtica.

Entonces, es preocupante porque, aunque las personas saben que pueden estar escuchando un discurso generado por IA, es difícil detectar de manera confiable una voz “deepfake”. Eso significa, que miles de millones de personas que entienden los idiomas más hablados del mundo, están potencialmente en riesgo al exponerse a estafas o información errónea.

Según un estudio liderado por Kimberly Mai del University College London y sus colegas, desafiaron a más de 500 personas a identificar falsificaciones de voz entre múltiples clips de audio. Donde algunos clips contenían la voz auténtica de una hablante que leía oraciones genéricas en inglés o mandarín. Mientras que otros eran “deepfakes” creados por IA generativas entrenadas en voces femeninas.

En detalle…

Bajo este escenario, los participantes del estudio fueron asignados aleatoriamente a dos posibles configuraciones experimentales diferentes. Un grupo escuchó 20 muestras de voz en su idioma nativo y tuvo que decidir si los clips eran reales o falsos.

Así que, las personas clasificaron correctamente los «deepfakes» y las voces auténticas aproximadamente el 70% de las veces. Tanto para las muestras de voz en inglés como en mandarín. Eso sugiere que la detección humana de “deepfakes” en la vida real probablemente será aún peor. Porque la mayoría de las personas no sabrán de antemano qué podrían estar escuchando discursos generados por IA.

Por otro lado, a un segundo grupo se le entregaron 20 pares de clips de audio elegidos al azar. Cada par presentaba la misma frase pronunciada por un humano y el “deepfake”. Y se pidió a los participantes que señalaran el falso. Esto aumentó la precisión de la detección a más del 85%, aunque el equipo reconoció que este escenario daba a los oyentes una ventaja poco realista.

Finalmente, identificar la voz auténtica de oradores específicos es importante en escenarios de la vida real: los estafadores han clonado las voces de líderes empresariales para realizar fraude. Incluso, las campañas de desinformación han subido «deepfakes» de políticos conocidos a las redes sociales.

Quizá se está saliendo de control, y tú… ¿qué opinas?