IA: DeepL aborda la voz

DeepL, la joya europea de la traducción asistida por inteligencia artificial, acaba de presentar su primera incursión en el campo de la voz.

La editorial alemana presentó dos nuevas ofertas, Deepl Voice Dialogue y Deepl Voice Réunion, durante un evento promocional (DeepL Dialogues) el 13 de mayo en Berlín. Ambas herramientas son capaces, sobre el papel, de traducir conversaciones en diferentes idiomas en tiempo real.

La versión Meeting tiene como objetivo traducir las intervenciones de los participantes, cada uno de los cuales habla diferentes idiomas, y mostrarlas en subtítulos (en el idioma elegido individualmente por cada oyente). La versión Dialogue es una aplicación móvil para conversaciones cara a cara.

Al igual que sus otros productos (Translation y la herramienta de reescritura Write), DeepL confía en su investigación sobre inteligencia artificial y en sus propios modelos, recuerda Jarek Kutylowski, director general y fundador de la editorial. Los modelos fueron entrenados en conjuntos de datos con diferentes énfasis.

“La traducción de voz en tiempo real plantea otros desafíos [que ceux de la traduction par écrit] : la información incompleta, los problemas de pronunciación y la latencia son factores que pueden provocar traducciones inexactas”, subraya Jarek Kutylowski. “Estos mismos elementos pueden llevar a malentendidos […]. Por eso diseñamos una solución que tiene esto en cuenta desde el principio”.

Después de una fase de prueba beta, DeepL Voice ya está disponible oficialmente. La herramienta admite alrededor de diez idiomas hablados (inglés, alemán, japonés, coreano, sueco, holandés, francés, turco, polaco, portugués, ruso, español e italiano), con subtítulos traducidos disponibles en los 33 idiomas tomados de DeepL Translator.

“Ya he probado otras herramientas, pero generalmente sólo admiten un idioma en las reuniones”, elogia Christine Aubry, coordinadora de internacionalización de Brioche Pasquier, que participó en la fase beta de DeepL Voice. Para ella, “DeepL Voice es diferente y, con diferencia, la herramienta más completa”.

Un mercado de traducción mediante IA cada vez más competitivo

DeepL no hace (¿todavía?) “voz a voz”, sino “voz a texto” con traducción.

En este segmento, Samsung, en sus modelos de gama alta con Galaxy AI, Google, en su aplicación móvil Translate, y editores de vídeo (WebEx, Zoom) han lanzado funcionalidades similares de subtítulos traducidos.

Otro actor, OpenAI, está explorando el nuevo horizonte de la traducción oral instantánea.

La particularidad técnica del “modo de voz avanzado” (nombre interno de la funcionalidad en OpenAI) no es dividir el proceso de traducción en tres partes (voz a texto / traducción/texto a voz) sino confiar todo a un único modelo para reducir la latencia del diálogo.

La filosofía no es exactamente la misma que la de DeepL y los subtítulos de los editores de vídeo, pero la necesidad objetivo parece bastante cercana (colaborar en tiempo real con varias personas en diferentes idiomas). El futuro dirá qué opción prevalecerá: la que mantiene el texto o la que cambia a la voz, dependiendo de la ergonomía y el precio.

En cualquier caso, el mercado es cada vez más competitivo ya que los principales LLM (GPT 4 o, Claude, Mistral) son hoy capaces de traducir textos, teniendo en cuenta las reglas impuestas por los usuarios para personalizarlos. Una piedra, cada vez más grande, en el jardín histórico de DeepL.

Por su parte, para evitar ser absorbido, DeepL ha aumentado su número de nuevas funciones durante el año pasado, en particular con el lanzamiento de un LLM para potenciar su traductor. Con su recaudación de fondos, la empresa está valorada en 2.000 millones de dólares.

Un mercado de traducción mediante IA cada vez más competitivo

Related posts