Inicio NOTICIAS Perdido en la transcripción de IA: las palabras de adultos se deslizan...

Perdido en la transcripción de IA: las palabras de adultos se deslizan en los videos infantiles de YouTube

85
0

¿CÓMO “playa” se convierte en “perra”, “buster” se convierte en “bastardo” o “combo” se transforma en “condón”?

Ocurre cuando Google Speech-To-Text y Amazon Transcribe, ambos sistemas populares de reconocimiento automático de voz (ASR), proporcionan erróneamente subtítulos inapropiados para la edad en videos de YouTube para niños.

Este es el hallazgo clave de un estudio titulado ‘De la playa a la perra: transcripción insegura inadvertida de contenido para niños en YouTube’ que cubrió 7,013 videos de 24 canales de YouTube.

El diez por ciento de estos videos contenían al menos una «palabra tabú altamente inapropiada» para los niños, dice Ashique KhudaBukhsh, profesor asistente en el departamento de ingeniería de software del Instituto de Tecnología de Rochester, con sede en EE. UU.

KhudaBukhsh, el profesor asistente Sumeet Kumar de la Escuela de Negocios de la India en Hyderabad y Krithika Ramesh de la Universidad de Manipal, quienes realizaron el estudio, han denominado el fenómeno «alucinación de contenido inapropiado».

“Estábamos alucinados porque sabíamos que estos canales eran vistos por millones de niños. Entendemos que este es un problema importante porque nos dice que el contenido inapropiado puede no estar presente en la fuente, pero puede ser introducido por una aplicación de IA (inteligencia artificial) posterior. Entonces, en el nivel filosófico más amplio, las personas generalmente tienen controles y equilibrios para la fuente, pero ahora tenemos que estar más atentos a tener controles y equilibrios si una aplicación de IA modifica la fuente. Sin darse cuenta, puede introducir contenido inapropiado”, dijo a The Sunday Express KhudaBukhsh, quien tiene un doctorado en aprendizaje automático y es de Kalyani en Bengala Occidental.

Se encontró alucinación de contenido inapropiado en canales con millones de visitas y suscriptores, incluidos Sesame Street, Ryan’s World, Barbie, Moonbug Kid y Fun Kids Planet, según el estudio.

Los subtítulos en los videos de YouTube son generados por Google Speech-To-Text, mientras que Amazon Transcribe es un sistema ASR comercial superior. Los creadores pueden usar Amazon Transcribe para incrustar subtítulos en sus videos e importarlos a YouTube al cargar el archivo.

Leer:  Apple iOS 16, watchOS 9 para obtener importantes actualizaciones en WWDC 2022: informe

El estudio fue presentado y aceptado en la 36ª conferencia anual de la Asociación para el Avance de la Inteligencia Artificial en Vancouver en febrero.

“Estos patrones nos dicen que cada vez que tiene un modelo de lenguaje de máquina que intenta predecir algo, las predicciones se ven influenciadas por el tipo de datos en los que se entrena. Lo más probable es que no tengan suficientes ejemplos de habla infantil o lenguaje infantil en los datos en los que están capacitados”, dijo KhudaBukhsh.

El estudio señala que la mayoría de los subtítulos en inglés están deshabilitados en la aplicación YouTube Kids, pero los mismos videos se pueden ver con subtítulos en YouTube.

“No está claro con qué frecuencia los niños solo se limitan a la aplicación YouTube Kids mientras miran videos y con qué frecuencia los padres (o tutores) simplemente les permiten ver contenido para niños de YouTube en general. Nuestros hallazgos indican la necesidad de una integración más estrecha entre YouTube en general y YouTube Kids para estar más atentos a la seguridad de los niños”, afirma el estudio.

Cuando se le preguntó acerca de la precisión de sus subtítulos automáticos, un portavoz de YouTube dijo en un comunicado: «YouTube Kids ofrece contenido enriquecedor y entretenido para niños y es nuestra experiencia recomendada para niños menores de 13 años. Los subtítulos automáticos no están disponibles en YouTube Kids, sin embargo, nuestro Las herramientas de subtítulos en nuestro sitio principal de YouTube permiten que los canales lleguen a una amplia audiencia y mejoren la accesibilidad para todos en YouTube. Trabajamos continuamente para mejorar los subtítulos automáticos y reducir los errores”.

Otro ejemplo de una palabra mal interpretada en uno de los videos populares dice así: «También deberías encontrar pornografía». El diálogo real terminó con «maíz».

Leer:  Lanzan Dizo Watch S con pantalla curva, esfera rectangular

KhudaBukhsh dijo que estos errores podrían deberse a los datos alimentados a los sistemas ASR durante el entrenamiento. “Mira, ‘Me encanta la pornografía’ es una oración más probable que ‘Me encanta el maíz’ cuando dos adultos tienen una conversación. Una de las razones por las que algunas de estas palabras de adultos se están filtrando en la transcripción es porque tal vez los ASR están más entrenados en ejemplos de habla provenientes de adultos”, dijo.

KhudaBukhsh dijo que introducir un elemento humano en el proceso de transcripción podría ser una de las formas de evitar que estas palabras inapropiadas se transmitan por televisión a millones de jóvenes espectadores. “Podemos tener un humano en el circuito para verificar los errores de transcripción. Podemos hacer que alguien mire y confirme manualmente si está en el video o no”, dijo.

Esta no es la primera vez que KhudaBukhsh señala la falibilidad de los sistemas de IA. El año pasado, él y un estudiante realizaron un experimento de seis semanas que demostró que palabras como «negro», «blanco» y «ataque», comunes a los que comentan sobre ajedrez, podrían engañar a un sistema de inteligencia artificial para que marcara ciertas conversaciones de ajedrez como racistas. . Esto fue poco después de que Agadmator, un popular canal de ajedrez de YouTube con más de un millón de suscriptores, fuera bloqueado por no cumplir con las «Normas de la comunidad» durante una transmisión de ajedrez.

KhudaBukhsh, quien realizó esta investigación en la Universidad Carnegie Mellon de Pittsburgh, dijo que los hallazgos fueron una revelación sobre las posibles trampas de las empresas de redes sociales que dependen únicamente de la IA para identificar y cerrar las fuentes del discurso de odio.

Artículo anteriorJim Carrey se burla de su retiro de la actuación, dice ‘Me estoy tomando un descanso’
Artículo siguienteNaomi Osaka se queda corta en el Abierto de Miami pero encuentra consuelo en la derrota