Dentro de los modelos generativos hay una taxonomía diversa respecto a las entradas y las salidas que producen. Lo más frecuente es el texto a texto, en donde chatGPT es el más conocido, sin embargo hay unos desarrollos muy evolucionados en texto a código y texto a imagen, pero la incursión de la multimodalidad es realmente lo que ha venido expandiéndose y se espera que sea el punto diferencial ante la inminente salida de modelos como Gemini de Google.
Uno de los campos más complejos ha sido el de generación de texto a video, esto principalmente porque el video tiene unas latencias muy largas que dificultan el rendimiento computacional de arquitecturas informáticas como los Transformers.
Ayer 15 de febrero, OpenAI ha lanzado la demostración de su nuevo modelo SORA, enfocado en la generación de videos de alta calidad desde el texto, con lo cual marca un nuevo punto de inflexión en esta modalidad. (ver https://openai.com/sora)
Sora es un modelo de IA que puede generar videos a partir de indicaciones de texto, utilizando una técnica denominada síntesis de texto a video. Esta técnica implica convertir el lenguaje natural en representaciones visuales, como imágenes o videos. La síntesis de texto a video es una tarea desafiante, ya que requiere que el modelo de IA comprenda el significado y el contexto del texto, así como los aspectos visuales y físicos del video. Por ejemplo, el modelo necesita saber qué objetos y personajes están en la escena, cómo lucen, cómo se mueven, cómo interactúan y cómo son afectados por el entorno. ¿Cómo se logra esto?
Sora se basa en una arquitectura de red neuronal profunda que previamente hemos descrito (los Transformers). Para entrenar a este transformador se utiliza un gran conjunto de datos de videos de los que ha aprendido, cubriendo varios temas, estilos y géneros. Sora analiza la indicación de texto y extrae las palabras clave relevantes, como el sujeto, la acción, la ubicación, el tiempo y el estado de ánimo. Luego busca los videos más adecuados de su conjunto de datos que coincidan con las palabras clave, y los combina para crear un video nuevo.
Open AI desarrolló un concepto llamado “parches visuales” para facilitar dicho entendimiento ya que como he mencionado previamente, las latencias de datos de los videos son muy largas y dificultan hacerlo mediante un “entrenamiento” tradicional ya que esto tiene un altísimo costo computacional y riesgo de alucinaciones, estos parches visuales son los análogos a los tokens para el texto y permiten una fragmentación adecuada de las imágenes para que puedan ser captadas por el transformador. OpenAI a la vez trae el concepto de Transformadores de difusión para poder entrenarse con datos de alta dimensionalidad ya que recordemos que las entradas son millones de fragmentos de videos de diversas características.
Sora también utiliza una técnica llamada transferencia de estilo, que le permite modificar la apariencia y la sensación del video según las preferencias del usuario. Por ejemplo, si el usuario quiere un video con un estilo cinematográfico, filmado en película de 35mm y con colores vivos, Sora puede aplicar estos efectos al video, cambiando la iluminación, el color y los ángulos de la cámara. También puede generar videos con resolución de hasta 1920×1080 y hasta 1080×1920. y crear videos basados en una imagen fija o extender material de archivo existente con material nuevo. Por ejemplo, si el usuario proporciona una imagen fija de un bosque, Sora puede animar la imagen y agregar elementos como animales, pájaros o personas. Si el usuario proporciona un video de un auto conduciendo en una carretera, Sora puede extender el video y agregar elementos como tráfico, edificios o paisajes.
Sora es un avance significativo en el campo de la IA y la generación de videos, ya que demuestra una comprensión profunda del lenguaje, la percepción visual y la dinámica física.
También muestra el potencial de la IA para crear contenido atractivo e inmersivo para diversos fines, como entretenimiento, educación, arte y comunicación en esta vertiginosa carrera hacia el desarrollo de la IA general.
Algunas aplicaciones de Sora son:
1. Crear tráileres de películas, cortometrajes, animaciones y documentales a partir de guiones de texto. Sora puede ayudar a cineastas y narradores a visualizar sus ideas y conceptos, y crear videos convincentes y originales. Sora también puede ayudar a los espectadores a descubrir contenido nuevo e interesante, basado en sus preferencias e intereses.
2. Mejorar videos existentes con nuevos elementos, como agregar efectos especiales, cambiar el fondo o insertar nuevos personajes. Sora puede ayudar a editores de video y productores a mejorar y modificar sus videos, y agregar más variedad y creatividad. Sora también puede ayudar a los espectadores a disfrutar de videos más personalizados e interactivos, basados en sus comentarios y aportes.
3. Generar videos educativos a partir de resúmenes de texto, como explicar conceptos científicos, eventos históricos o fenómenos culturales. Sora puede ayudar a educadores y aprendices a crear y acceder a videos informativos y atractivos, que pueden mejorar su comprensión y retención. Sora también puede ayudar a los espectadores a explorar y aprender más sobre diferentes temas y materias, basados en su curiosidad y preguntas.
4. Crear videos personalizados para redes sociales, como felicitaciones de cumpleaños, diarios de viaje o memes. Sora puede ayudar a usuarios de redes sociales e influencers a crear y compartir videos únicos y divertidos, que pueden expresar su personalidad y emociones. Sora también puede ayudar a los espectadores a conectarse e interactuar con sus amigos y seguidores, basados en sus gustos y comentarios.
5. Visualizar ideas, escenarios y sueños a partir de descripciones de texto, como diseñar un producto, imaginar un futuro o explorar un mundo de fantasía. Sora puede ayudar a diseñadores e innovadores a crear y probar sus prototipos y visiones, y obtener retroalimentación y sugerencias. Sora también puede ayudar a los espectadores a experimentar y disfrutar de diferentes realidades y posibilidades, basadas en su imaginación y creatividad.
Todo esto es extrapolable a nuestro mundo de la salud, especialmente en educación y empoderamiento de los pacientes así como en mejorar la experiencia de atención.
Sora es un gran avance, pero aún enfrenta algunos desafíos y limitaciones como:
No está disponible públicamente y solo es accesible para un pequeño grupo de investigadores y profesionales creativos para retroalimentación y pruebas. OpenAI no ha anunciado cuándo o cómo lanzará Sora al público en general, ni cuál será el modelo de precios y licencias. Sora está sujeto a los términos de servicio de OpenAI, que prohíben el uso del modelo para crear contenido que involucre “violencia extrema, contenido sexual, imágenes de odio, semejanza de celebridades o la PI de otros”. También hay un potencial riesgo de conflictos con derechos de autor como ya se dio con The Washington Post (hemos escrito sobre ese proceso anteriormente).