OpenAI dévoile Sora, son IA générative text-to-video

OpenAI dévoile Sora, son IA générative text-to-video

Sora

OpenAI dévoile Sora ; un modèle d’IA capable de créer des scènes réalistes et imaginatives à partir d’instructions textuelles.

Nous apprenons à l’IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel.

Voici Sora, notre modèle de conversion de texte en vidéo. Sora peut générer des vidéos d’une durée maximale d’une minute tout en maintenant la qualité visuelle et le respect de l’invite de l’utilisateur.

Aujourd’hui, Sora est mis à la disposition des membres de l’équipe rouge pour leur permettre d’évaluer les zones critiques afin d’y déceler des dangers ou des risques. Nous donnons également accès à un certain nombre d’artistes visuels, de concepteurs et de cinéastes afin d’obtenir leur avis sur la manière de faire évoluer le modèle pour qu’il soit le plus utile possible aux professionnels de la création.

Nous partageons les progrès de nos recherches très tôt afin de commencer à travailler avec des personnes extérieures à l’OpenAI et de recueillir leurs commentaires, et afin de donner au public une idée des capacités de l’IA qui se profilent à l’horizon.

Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan. Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique.

Le modèle a une compréhension approfondie du langage, ce qui lui permet d’interpréter avec précision les invites et de générer des personnages convaincants qui expriment des émotions vibrantes. Sora peut également créer plusieurs plans au sein d’une même vidéo générée, en conservant fidèlement les personnages et le style visuel.

Le modèle actuel présente des faiblesses. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre les cas spécifiques de cause et d’effet. Par exemple, une personne peut mordre dans un biscuit, mais après coup, le biscuit peut ne pas avoir de trace de morsure.

Le modèle peut également confondre les détails spatiaux d’une invite, par exemple en confondant la gauche et la droite, et peut éprouver des difficultés à décrire avec précision des événements qui se déroulent dans le temps, par exemple en suivant une trajectoire de caméra spécifique.

La sécurité

Nous prendrons plusieurs mesures de sécurité importantes avant de rendre Sora disponible dans les produits d’OpenAI. Nous travaillons avec des « red teamers » – des experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés – qui testeront le modèle de manière contradictoire.

Nous construisons également des outils pour aider à détecter les contenus trompeurs, tels qu’un classificateur de détection capable de déterminer si une vidéo a été générée par Sora. Nous prévoyons d’inclure les métadonnées C2PA à l’avenir si nous déployons le modèle dans un produit OpenAI.

En plus de développer de nouvelles techniques pour préparer le déploiement, nous tirons parti des méthodes de sécurité existantes que nous avons élaborées pour nos produits qui utilisent DALL-E 3, et qui s’appliquent également à Sora.

Par exemple, une fois dans un produit OpenAI, notre classificateur de texte vérifiera et rejettera les invites de saisie de texte qui sont en violation de nos politiques d’utilisation, comme celles qui demandent une violence extrême, un contenu sexuel, une imagerie haineuse, l’image d’une célébrité ou la propriété intellectuelle d’autrui. Nous avons également mis au point des classificateurs d’images robustes qui sont utilisés pour examiner les images de chaque vidéo générée afin de s’assurer qu’elle respecte nos règles d’utilisation, avant qu’elle ne soit montrée à l’utilisateur.

Nous nous adresserons aux décideurs politiques, aux éducateurs et aux artistes du monde entier pour comprendre leurs préoccupations et identifier des cas d’utilisation positifs pour cette nouvelle technologie. Malgré des recherches et des essais approfondis, nous ne pouvons pas prédire toutes les façons bénéfiques dont les gens utiliseront notre technologie, ni toutes les façons dont ils en abuseront. C’est pourquoi nous pensons que l’apprentissage par l’utilisation réelle est un élément essentiel de la création et de la mise à disposition de systèmes d’IA de plus en plus sûrs au fil du temps.

Techniques de recherche

Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à un bruit statique et qui la transforme progressivement en supprimant le bruit sur plusieurs étapes.

Sora est capable de générer des vidéos entières en une seule fois ou d’allonger les vidéos générées. En donnant au modèle la possibilité de prévoir de nombreuses images à la fois, nous avons résolu un problème difficile qui consiste à s’assurer qu’un sujet reste le même même même s’il disparaît temporairement de la vue.

À l’instar des modèles GPT, Sora utilise une architecture de transformateur, ce qui permet d’obtenir des performances de mise à l’échelle supérieures.

Nous représentons les vidéos et les images comme des collections d’unités de données plus petites appelées « patchs », chacune d’entre elles étant apparentée à un jeton dans GPT. En unifiant la façon dont nous représentons les données, nous pouvons entraîner les transformateurs de diffusion sur une gamme de données visuelles plus large qu’auparavant, couvrant différentes durées, résolutions et rapports d’aspect.

Sora s’appuie sur les recherches antérieures concernant les modèles DALL-E et GPT. Il utilise la technique de recaptionnement de DALL-E 3, qui consiste à générer des légendes très descriptives pour les données visuelles d’entraînement. En conséquence, le modèle est capable de suivre plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée.

En plus de pouvoir générer une vidéo uniquement à partir d’instructions textuelles, le modèle est capable de prendre une image fixe existante et de générer une vidéo à partir de celle-ci, en animant le contenu de l’image avec précision et en prêtant attention aux petits détails. Le modèle peut également prendre une vidéo existante et l’étendre ou compléter les images manquantes.

Sora sert de base à des modèles capables de comprendre et de simuler le monde réel, une capacité dont nous pensons qu’elle constituera une étape importante dans la réalisation de l’AGI.

SOURCE : COMMUNIQUE DE PRESSE – OPENAI

Facebooktwitterredditpinterestlinkedinmail