Entre bastidores: Nuestro laboratorio de ML

Maria Zhukova

Jefe de redacción de Brask

Publicado

30 de abril de 2024

,

16

min leer

,

Contenido

En nuestro último artículo, nos sumergimos en el apasionante mundo de la tecnología de sincronización labial deRask AI, de la mano de Dima Vypirailenko, responsable de aprendizaje automático de la empresa. Te llevamos entre bastidores al Brask ML Lab, un centro de excelencia para la tecnología, donde vemos de primera mano cómo esta innovadora herramienta de IA está haciendo olas en la creación y distribución de contenidos. Nuestro equipo incluye ingenieros de ML y artistas sintéticos de VFX de talla mundial que no sólo se están adaptando al futuro; lo estamos creando.

Únase a nosotros para descubrir cómo esta tecnología está transformando la industria creativa, reduciendo costes y ayudando a los creadores a llegar al público de todo el mundo.

¿Qué es la tecnología Lip-Sync?

Uno de los principales retos de la localización de vídeo es el movimiento antinatural de los labios. La tecnología de sincronización labial está diseñada para ayudar a sincronizar eficazmente los movimientos de los labios con las pistas de audio multilingües.

Como hemos aprendido en nuestro último artículo, la técnica de sincronización labial es mucho más compleja que la simple sincronización: hay que conseguir que los movimientos de la boca sean los correctos. Todas las palabras pronunciadas tendrán un efecto en la cara del hablante, como la "O", que obviamente creará una forma ovalada de la boca, por lo que no será una "M", lo que añade mucha más complejidad al proceso de doblaje.

¡Presentamos el nuevo modelo Lip-sync con mejor calidad!

Nuestro equipo de ML ha decidido mejorar el modelo de sincronización labial existente. Cuál ha sido el motivo de esta decisión y qué novedades presenta esta versión en comparación con la versión beta?

Dima Vypirailenko

Responsable de aprendizaje automático en Rask AI

Aunque nuestros resultados de sincronización labial son extraordinarios y han suscitado una considerable atención mediática, con emisiones de televisión y entrevistas sobre nuestra tecnología, cuando lanzamos nuestra versión beta del modelo de sincronización labial, reconocimos que no cumplía las expectativas de calidad de todos los segmentos de usuarios. Nuestro principal objetivo era colmar esta laguna, garantizando que nuestros usuarios pudieran localizar eficazmente no sólo el componente de audio de sus contenidos, sino también el de vídeo.

Se han realizado importantes esfuerzos para mejorar el modelo:

Mayor precisión: Hemos perfeccionado los algoritmos de IA para analizar mejor y ajustar los detalles fonéticos del lenguaje hablado, lo que ha dado lugar a movimientos de los labios más precisos y estrechamente sincronizados con el audio en varios idiomas.
Mayornaturalidad: Al integrar datos de captura de movimiento más avanzados y perfeccionar nuestras técnicas de aprendizaje automático, hemos mejorado significativamente la naturalidad de los movimientos de los labios, haciendo que el habla de los personajes parezca más fluida y real.
‍Mayorvelocidad y eficacia: Hemos optimizado el modelo para procesar los vídeos con mayor rapidez sin sacrificar la calidad, lo que facilita unos plazos de entrega más rápidos para los proyectos que requieren una localización a gran escala.
Incorporación de loscomentarios de los usuarios: Recogimos activamente los comentarios de los usuarios de la versión beta e incorporamos sus opiniones al proceso de desarrollo para solucionar problemas concretos y mejorar la satisfacción general de los usuarios.

¿Cómo sincroniza exactamente nuestro modelo de IA los movimientos de los labios con el audio traducido?

Dima: "Nuestro modelo de IA funciona combinando la información del audio traducido con la información sobre el rostro de la persona en el encuadre, y luego las fusiona en el resultado final. Esta integración garantiza que los movimientos de los labios se sincronicen con precisión con el discurso traducido, proporcionando una experiencia visual fluida".

¿Qué características únicas hacen que Premium Lip-Sync sea ideal para contenidos de alta calidad?

Dima: "La sincronización labial Premium está diseñada específicamente para manejar contenidos de alta calidad gracias a sus características únicas, como la capacidad multialtavoz y la compatibilidad con alta resolución. Puede procesar vídeos de hasta 2K de resolución, lo que garantiza que la calidad visual se mantiene sin concesiones. Además, la función multisonido permite una sincronización labial precisa entre distintos locutores dentro del mismo vídeo, lo que lo hace muy eficaz para producciones complejas en las que intervienen varios personajes o locutores. Estas características convierten a Premium Lipsync en la mejor opción para los creadores que buscan contenidos de calidad profesional".

¿Y qué es una función de sincronización labial con varios altavoces?

La función de sincronización labial con varios interlocutores está diseñada para sincronizar con precisión los movimientos de los labios con el audio hablado en vídeos en los que aparecen varias personas. Esta avanzada tecnología identifica y distingue entre varios rostros en un mismo fotograma, garantizando que los movimientos labiales de cada individuo se animen correctamente según sus palabras habladas.

Cómo funciona la sincronización labial con varios altavoces:

Reconocimiento de caras en el fotograma: La función reconoce inicialmente todas las caras presentes en el fotograma de vídeo, independientemente del número. Es capaz de identificar a cada individuo, lo que es crucial para una sincronización labial precisa.
‍AudioMatching: Durante la reproducción de vídeo, la tecnología alinea la pista de audio específicamente con la persona que está hablando. Este preciso proceso garantiza que la voz y los movimientos de los labios estén sincronizados.
‍Sincronización de movimientos labiales: Una vez identificada la persona que habla, la función de sincronización labial redibuja los movimientos labiales sólo para la persona que habla. Los movimientos de los labios de las personas que no hablan no se alteran, manteniendo su estado natural durante todo el vídeo. Esta sincronización se aplica exclusivamente al hablante activo, por lo que resulta eficaz incluso en presencia de voces fuera de pantalla o de múltiples rostros en la escena.
‍Manejo de imágenes estáticas delabios: Curiosamente, esta tecnología también es lo suficientemente sofisticada como para redibujar los movimientos de los labios en imágenes estáticas de labios si aparecen en el fotograma de vídeo, lo que demuestra su capacidad versátil.

Esta función Multi-Speaker Lip-Sync mejora el realismo y el interés del espectador en escenas con varios oradores o escenarios de vídeo complejos al garantizar que sólo los labios de las personas que hablan se mueven de acuerdo con el audio. Este enfoque específico ayuda a mantener la atención en el orador activo y conserva la dinámica natural de las interacciones de grupo en los vídeos.

A partir de un solo vídeo, en cualquier idioma, puede crear cientos de vídeos personalizados con diversas ofertas en varios idiomas. Esta versatilidad revoluciona la forma en que los profesionales del marketing pueden llegar a públicos diversos y globales, mejorando el impacto y el alcance de los contenidos promocionales.

¿Cómo se consigue el equilibrio entre calidad y velocidad de procesamiento en la nueva sincronización labial Premium?

Dima: "Equilibrar una alta calidad con una rápida velocidad de procesamiento en Premium Lipsync es todo un reto, pero hemos avanzado mucho en la optimización de la inferencia de nuestro modelo. Esta optimización nos permite obtener la mejor calidad posible a una velocidad decente".

Dima Vypirailenko

Responsable de aprendizaje automático en Rask AI

Nos centramos en procesar sólo la información necesaria del vídeo del usuario, lo que acelera significativamente el tiempo de procesamiento del modelo. Al racionalizar los datos que nuestro modelo necesita analizar, garantizamos tanto la eficiencia como el mantenimiento de unos resultados de alta calidad, que satisfacen las demandas de los creadores de contenidos profesionales.

¿Ha encontrado alguna imperfección o sorpresa interesante durante el entrenamiento del modelo?

Dima Vypirailenko

Responsable de aprendizaje automático en Rask AI

Sí, nos hemos enfrentado a varios retos interesantes, sobre todo a la hora de garantizar que no sólo los labios, sino también el vello facial y los dientes tengan un aspecto correcto. Es como si todos hubiéramos estudiado Odontología en algún momento.

Además, trabajar con oclusiones alrededor de la zona de la boca ha demostrado ser bastante difícil. Estos elementos requieren una cuidadosa atención al detalle y un sofisticado modelado para lograr una representación realista y precisa en nuestra tecnología de sincronización labial.

¿Cómo garantiza el equipo de ML la privacidad y protección de los datos de los usuarios al procesar los materiales de vídeo?

Dima: Nuestro equipo de ML se toma muy en serio la privacidad y la protección de los datos de los usuarios. Para el modelo Lipsync, no utilizamos datos de clientes para el entrenamiento, eliminando así cualquier riesgo de suplantación de identidad. Para entrenar nuestro modelo, nos basamos únicamente en datos de código abierto que cuentan con las licencias adecuadas. Además, el modelo funciona como una instancia independiente para cada usuario, lo que garantiza que el vídeo final se entrega únicamente al usuario específico y evita cualquier enredo de datos.

Nuestro compromiso principal es capacitar a los creadores, garantizando el uso responsable de la IA en la creación de contenidos, centrándonos en los derechos legales y la transparencia ética. Garantizamos que tus vídeos, fotos, voces e imágenes nunca se utilizarán sin permiso explícito, asegurando la protección de tus datos personales y activos creativos.

Estamos orgullosos de ser miembros de The Coalition for Content Provenance and Authenticity (C2PA) y The Content Authenticity Initiative, lo que refleja nuestra dedicación a la integridad y autenticidad de los contenidos en la era digital. Además, nuestra fundadora y consejera delegada, Maria Chmir, está reconocida en el directorio Women in AI Ethics™, lo que pone de relieve nuestro liderazgo en prácticas éticas de IA.

¿Cuáles son las perspectivas de desarrollo de la tecnología de sincronización labial? ¿Hay algún campo que le interese especialmente?

Dima: Creemos que nuestra tecnología de sincronización labial puede servir de base para un mayor desarrollo hacia los avatares digitales. Imaginamos un futuro en el que cualquiera pueda crear y localizar contenidos sin incurrir en costes de producción de vídeo.

A corto plazo, en los próximos dos meses, nos comprometemos a mejorar el rendimiento y la calidad de nuestro modelo. Nuestro objetivo es garantizar un funcionamiento fluido en vídeos 4K y mejorar la funcionalidad con vídeos traducidos a idiomas asiáticos. Estos avances son cruciales, ya que nuestro objetivo es ampliar la accesibilidad y facilidad de uso de nuestra tecnología, allanando el camino para aplicaciones innovadoras en la creación de contenidos digitales.¡Romper las barreras lingüísticas nunca ha estado tan cerca! Pruebe nuestra función de sincronización labial mejorada y envíenos sus comentarios sobre esta característica.

PREGUNTAS FRECUENTES

Centro de noticias

Lecturas obligadas