OpenAI presentó Sora. Los contenidos de alta calidad creados con el sistema de inteligencia artificial (IA) generativa han comenzado a inundar la web. Las capacidades de la herramienta son destacadas, pero despiertan dudas sobre los derechos de autor. La compañía dirigida por Sam Altman no precisó de dónde provienen los contenidos que fueron utilizados para entrenar al ambicioso motor de videos.

La empresa publicó una investigación que revela cómo fue entrenada Sora. Señala que el modelo es uno generalista de datos visuales. Puede producir videos e imágenes de alta definición con distintas relaciones de aspecto y resoluciones, y de hasta un minuto de duración. Los ingenieros aseguran que las propuestas similares disponibles en el mercado suelen centrarse en una categoría limitada de contenidos, en videos más cortos o de un tamaño fijo.


Captura de pantalla de un video com mamuts sobre la nieve creado en Sora

La entrada de OpenAI en la IA generativa de video es un primer paso impresionante.


El avance es resultado de un proceso de adiestramiento inspirado en los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Estos algoritmos pueden procesar diversos tipos de contenido gracias a que han sido entrenados con datos a escala extraídos de internet. A través de tokens (secuencias de palabras), unifican diferentes modalidades de texto como código de programación, varios lenguajes naturales y matemáticos.

En Sora esta condición fue replicada con el uso de visual patches. Se trata de pequeñas unidades que agrupan información. Se extraen de una gran cantidad y diversidad de datos visuales como videos, imágenes o animaciones. Eventualmente, se convierten en la base para entrenar un modelo tipo transformer y permiten unir las representaciones de texto y video. En última instancia es lo que permite que Sora intérprete y genere contenido.

“Entrenamos una red que reduce la dimensionalidad de los datos visuales. Esta red toma video sin procesar como entrada y genera una representación latente que se comprime tanto temporal como espacialmente. Sora se entrena y posteriormente genera videos dentro de este espacio comprimido. Entrenamos un modelo decodificador correspondiente que asigna las latentes generadas al espacio de píxeles”, explicaron los ingenieros.



La implementación de este esquema permite que Sora sea entrenado con videos e imágenes con diferentes resoluciones, relación de aspecto y tiempos de duración. En consecuencia, es capaz de generar contenido adaptable para distintos formatos de pantalla con el encuadre correcto.

“Sora es un modelo de difusión. Al recibir patches ruidosos de entrada e información condicionante como prompts de texto está entrenado para predecir los patches ‘limpios’ originales”, detalla la investigación.

La herramienta puede interpretar el contenido de los videos mediante herramientas de detección, retitulación y subtitulación de fotogramas. Estos recursos también son utilizados en DALL-E 3. Producen subtítulos de texto para todos los datos visuales que componen la base de información de entrenamiento para facilitar la comprensión de lenguaje en Sora. El entrenamiento con está técnica mejora la fidelidad del texto y la calidad general de los resultados entregados. “Entrenar sistemas de generación de texto a video requiere una gran cantidad de videos con los subtítulos de texto correspondientes”, sostiene la investigación.

¿De dónde vienen los datos que alimentan a Sora?

El trabajo de ingeniería detrás del nuevo modelo de IA de OpenAI es destacado. La gran duda que genera es de dónde provienen los contenidos que fueron utilizados para instruir al sistema. Los procesos de entrenamiento de la compañía detrás de ChatGPT han sido fuertemente cuestionados por no revelar las fuentes de donde extraen la información usada. Diversas organizaciones y creadores de contenido afirman que el hermetismo esconde violaciones a los derechos de autor.

The New York Times presentó una demanda formal en contra de OpenAI y Microsoft alegando que sus modelos de inteligencia artificial fueron entrenados con contenidos de la publicación sin autorización. El diario argumentó que la práctica viola sus derechos de autor y daña de manera directa su negocio. La compañía de Altman desestimó la acusación y aseguró que trabaja con diversas organizaciones de noticias para apoyar al periodismo.

Un mes más tarde, OpenAI reconoció que es necesario el uso de material protegido en la construcción de herramientas de IA. Dijo que parte del material de entrenamiento de sus sistemas tiene licencia. Sin embargo, no especificó el porcentaje que ocupan en su base.

“Dado que hoy en día los derechos de autor cubren prácticamente todo tipo de expresión humana, incluidas entradas de blog, fotografías, mensajes de foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los principales modelos de IA actuales sin recurrir a materiales protegidos”, advirtió la organización.

Consideró que limitar los datos de entrenamiento a libros y dibujos de dominio público “creados hace más de un siglo” no proporcionaría sistemas de inteligencia artificial que “satisfagan las necesidades de los ciudadanos actuales”. Bill Peebles, uno de los investigadores involucrado en el desarrollo de Sora, afirmó que el modelo está entrenado con materiales licenciados y “contenido disponible públicamente».

Por Agencias

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *