28.9 C
Santo Domingo
jueves, diciembre 12, 2024

Inteligencia artificial: Meta anuncia Voicebox demostrando todo lo que puede hacer la IA con la voz | Estilo de vida


Metaplataformasla división de investigación en inteligencia artificial de la conocida compañía norteamericana, presentó Caja de voz. Este es un modelo de aprendizaje automático capaz de generar voz a partir de texto y que se diferencia de otras opciones por su capacidad para realizar muchas tareas para las cuales no ha sido perturbación, como la edición, la eliminación de ruido y la transferencia de estilo .

Hay que decir que Meta no ha lanzado Voicebox al mercado -al menos por el momento- debido a sospechas éticas sobre su mal uso. El caso es que los resultados iniciales son prometedores y pueden impulsar muchas aplicaciones en el futuro.

Que es exactamente Voicebox de Meta

Este desarrollo es un modelo generativo capaz de sintetizar voz en seis idiomas diferentess, incluyendo inglés, francés, español, alemán, polaco y portugués. Mientras que los modelos de lenguaje que existían hasta la fecha intentan aprender las regularidades estadísticas de las palabras y las secuencias de texto, Voicebox ha sido perturbado para aprender los patrones que mapean las muestras de audio de voz a sus transcripciones.



Easywithai

Este tipo de modelo puede aplicarse a muchas tareas secundarias con poco o ningún ajuste adicional. «El objetivo es construir un solo modelo que pueda realizar muchas tareas de generación de voz guiada por texto a través del aprendizaje contextual», escriben los investigadores de Meta. Un detalle importante: para entrenar el modelo, Meta sacó su técnica llamada ‘Flow Matching’, que es más eficiente y generalizable que los métodos de aprendizaje basados ​​en difusión utilizados en otros modelos generativos. Esta técnica permite un «aprendizaje de datos de voz variados sin necesidad de etiquetas cuidadosas».

Algo que es clave en Voicebox es que puede realizar muchos trabajos para los cuales no ha sido ocurrido. Por ejemplo, la IA puede utilizar una muestra de voz de dos segundos para generar voz para un nuevo texto. Meta afirma que esta capacidad se puede utilizar para brindar voz a personas que no pueden hablar o personalizar las voces de personajes de juegos no jugables y asistentes virtuales.

Robot de color blanco con IA


Unsplash

Muchas opciones de cara al futuro

El desarrollo que utiliza Inteligencia Artificial puede generar varias muestras de voz a partir de una sola secuencia de texto. Esta capacidad se puede utilizar para generar datos sintéticos y entrenar otros modelos de procesamiento de voz. Meta señala que «nuestros resultados muestran que los modelos de reconocimiento de voz funcionan con voz sintética producida por Voicebox funcionan casi tan bien como los modelos con voz real, con una degradación de la tasa de error de solo el 1 por ciento en comparación el 45 al 70 por ciento de degradación con voz sintética de modelos anteriores de texto a voz».

Sin embargo, Voicebox también tiene sus límites. Dado que ha sido alterado con datos de audiolibros, no se adapta bien al habla conversacional que es informal y contiene sonidos no verbales. Además, no proporciona un control completo sobre los diferentes atributos de la voz generada, como el estilo de voz, el tono, la emoción y las condiciones acústicas. El equipo de investigacion de Meta está explorando técnicas para superar estas limitaciones en el futuro.



Source link

Related Articles

Ultimos Articulos