24.8 C
Santo Domingo
lunes, junio 17, 2024

Los auriculares con IA permiten al usuario escuchar a una sola persona entre una multitud, mirándola solo una vez


Los auriculares con cancelación de ruido se han vuelto muy buenos a la hora de crear una pizarra en blanco auditiva. Pero permitir que ciertos sonidos del entorno del usuario pasen a través del borrado todavía supone un desafío para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido para los usuarios, detectando cuando están conversando, por ejemplo, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto.

Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario que lleva auriculares mirar a una persona que habla durante tres a cinco segundos para «inscribirla». El sistema, llamado «Target Speech Hearing», cancela todos los demás sonidos del entorno y reproduce sólo la voz del hablante registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no mira al hablante.

El equipo presentó sus hallazgos el 14 de mayo en Honolulu en la Conferencia ACM CHI sobre factores humanos en sistemas informáticos. El código del dispositivo de prueba de concepto está disponible para que otros puedan desarrollarlo. El sistema no está disponible comercialmente.

«Ahora tendemos a pensar en la IA como chatbots basados ​​en la web que responden preguntas», dijo el autor principal Shyam Gollakota, profesor de la Universidad de Washington en la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen. «Pero en este proyecto, desarrollamos IA para modificar la percepción auditiva de cualquier persona que use auriculares, según sus preferencias. Con nuestros dispositivos ahora puedes escuchar claramente a un solo hablante incluso si estás en un ambiente ruidoso con muchas otras personas hablando».

Para usar el sistema, una persona que usa audífonos estándar equipados con micrófonos presiona un botón mientras dirige su cabeza hacia alguien que habla. Las ondas sonoras de la voz de ese orador deberían llegar a los micrófonos de ambos lados de los auriculares simultáneamente; hay un margen de error de 16 grados. Los auriculares envían esa señal a una computadora integrada a bordo, donde el software de aprendizaje automático del equipo aprende los patrones vocales del hablante deseado. El sistema capta la voz de ese hablante y continúa reproduciéndola para el oyente, incluso cuando la pareja se mueve. La capacidad del sistema para centrarse en la voz registrada mejora a medida que el hablante sigue hablando, lo que proporciona al sistema más datos de entrenamiento.

El equipo probó su sistema en 21 sujetos, quienes calificaron la claridad de la voz del hablante registrado casi el doble que el audio sin filtrar en promedio.

Este trabajo se basa en la investigación previa del equipo sobre «audición semántica», que permitió a los usuarios seleccionar clases de sonidos específicos (como pájaros o voces) que querían escuchar y cancelar otros sonidos en el entorno.

Actualmente, el sistema TSH puede inscribir solo un hablante a la vez, y solo puede inscribir a un hablante cuando no hay otra voz fuerte proveniente de la misma dirección que la voz del hablante objetivo. Si un usuario no está satisfecho con la calidad del sonido, puede realizar otro registro en el altavoz para mejorar la claridad.

El equipo está trabajando para ampliar el sistema a auriculares y audífonos en el futuro.

Otros coautores del artículo fueron Bandhav Veluri, Malek Itani y Tuochao Chen, estudiantes de doctorado de la Universidad de Washington en la Escuela Allen, y Takuya Yoshioka, director de investigación de AssemblyAI. Esta investigación fue financiada por un premio Moore Inventor Fellow, una cátedra Thomas J. Cabel Endowed y un UW CoMotion Innovation Gap Fund.



Source link

Related Articles

Ultimos Articulos