La empresa OpenAI presentó su nuevo modelo llamado “Sora”, capaz de convertir instrucciones en texto en videos 3D realistas con escenas que no existen en el mundo real. Desarrollado por la misma empresa que creó ChatGPT y DALL-E, “Sora” puede generar escenas complejas con personajes y movimientos específicos, interpretando las instrucciones y expresando emociones vibrantes. Aunque todavía no está disponible al público, OpenAI ha compartido la tecnología con un grupo selecto de académicos para detectar posibles usos maliciosos.
OpenAI ha desarrollado un innovador modelo de inteligencia artificial denominado “Sora”, diseñado para comprender y simular el mundo físico en movimiento. Sora tiene como objetivo principal entrenar modelos que puedan ayudar a las personas a resolver problemas que requieren interacción con el mundo real.
Características destacadas de Sora:
- Generación de Videos Realistas: Sora es capaz de generar videos de hasta un minuto de duración con una calidad visual excepcional y cumpliendo con las indicaciones del usuario.
- Disponibilidad y Acceso: Actualmente, Sora está disponible para evaluación por parte de miembros del equipo rojo de OpenAI, así como para artistas visuales, diseñadores y cineastas con el fin de obtener retroalimentación para su mejora continua.
- Interpretación Precisa: Sora comprende las instrucciones en texto de manera profunda, generando personajes convincentes que expresan emociones vibrantes y escenas complejas con múltiples personajes y movimientos específicos.
Desafíos y Seguridad:
- Limitaciones Actuales: Aunque potente, el modelo presenta debilidades en la simulación precisa de la física de escenas complejas y en la comprensión detallada de casos específicos de causa y efecto.
- Medidas de Seguridad: OpenAI está implementando varias medidas de seguridad importantes para garantizar un uso responsable de Sora, incluyendo pruebas adversariales, detección de contenido engañoso y cumplimiento de políticas de uso.
Técnicas de Investigación:
- Arquitectura y Funcionamiento: Sora utiliza una arquitectura de transformador, similar a los modelos GPT, para generar vídeos a partir de datos visuales representados como “parches”. Además, se basa en investigaciones anteriores sobre los modelos DALL·E y GPT para mejorar su capacidad de comprensión y generación de contenido visual.
- Capacidades y Potencial: Sora sirve como base para modelos futuros que puedan comprender y simular el mundo real, marcando un hito importante en el camino hacia la Inteligencia Artificial General (AGI).
Sora representa un avance significativo en la capacidad de las IA para comprender y simular el mundo físico en movimiento, con un potencial prometedor para resolver una variedad de problemas del mundo real y ofrecer nuevas oportunidades creativas.