Qu’est-ce que Sora de OpenAI ?

Image en vedette de Qu’est-ce que Sora de OpenAI ?

Publié par Thomas Leroy le dans Sora

Temps de lecture estimé : 4 min

Open AI est l’une des entreprises d’intelligence artificielle les plus connues à l’heure actuelle. L’une des percées de l’entreprise a été ChatGPT, un générateur de texte capable de répondre en langage naturel. Mais les innovations ne se sont pas limitées à la création de textes par l’IA. OpenAI a également conçu Dall-E 3, l’outil de création d’images à partir d’invites. Mais, la machine IA d’OpenAI n’est pas prête de s’arrêter. En coulisses, un outil de génération de vidéos est en préparation. Il s’agit de Sora. Il sera bientôt possible de générer des vidéos à partir de textes. Mais qu’en est-il de cet outil ? Et comment fonctionne-t-il ? Je vous en parle dans ces quelques lignes qui suivent !

Comprendre ce qu’est Sora

OpenAI entre dans la course aux générateurs de vidéos avec Sora. Il a annoncé l’arrivée de son nouvel algorithme le 15 février 2024 sur tweeter. Les courtes vidéos publiées sur la plateforme ont fait sensation sur Internet. Inspiré d’un mot japonais, le nom Sora de ce nouveau modèle d’IA signifie littéralement « ciel », probablement une métaphore pour illustrer un nouvel horizon que prend leur conception de l’IA d’OpenAI. Mais c’est quoi Sora au juste ?

Interface d'accueil de Sora d'Open AI.
Image de l’interface d’accueil de Sora d’OpenAI. Source : Worldofia.com.

Sora est un modèle d’IA de type texte-vidéo. L’utilisateur peut générer une courte vidéo d’une minute à partir de commandes textuelles. La vidéo générée conserve la qualité visuelle tout en répondant au prompt formulé par l’utilisateur.

Comment fonctionne Sora ?

Le processus de création d’une vidéo avec Sora se déroule à l’aide de son algorithme intelligent. Mais son mode d’entraînement est assez spécifique par rapport à d’autres IA. Ce modèle d’IA d’OpenAI a été formé par le biais d’interactions avec le monde réel. Sur la base de cet entraînement, Sora est capable de générer des scènes complexes avec plusieurs personnages, d’ajuster des mouvements spécifiques ou de mettre en évidence des détails de l’arrière-plan. En fait, l’IA comprend à la fois la demande de l’utilisateur et la façon dont les choses se déroulent dans le monde physique. Il convient également de noter que pour générer ses vidéos, Sora utilise un modèle de diffusion :

  • Il génère d’abord une vidéo ressemblant à un bruit statique.
  • Puis, il supprime progressivement ce bruit en plusieurs étapes
  • Ce n’est qu’une fois le bruit éliminé qu’il présente la vidéo dans tous ses détails.

Malgré ces résultats, l’outil présente encore certaines faiblesses. Il peine encore à simuler avec précision la physique d’une scène complexe. Et ce n’est pas tout : Sora n’est pas en mesure de comprendre des cas concrets de cause à effet. De plus, les vidéos générées ne dépassent pas une minute pour l’instant. Mais comme il est encore en phase de développement, il y a de fortes chances que ces problèmes soient résolus avant sa sortie officielle pour le grand public.

Comment utiliser Sora ?

Pour l’instant, Sora n’est accessible qu’aux membres de l’OpenAI Red Teaming Network, afin d’évaluer les critiques et les risques. Certains artistes, cinéastes et concepteurs de design dans le domaine visuel y ont également accès, mais il s’agit encore d’une phase de test visant à affiner et à faire progresser le modèle.

Vidéo générée sur la page officielle de Sora.
Screenshot d’une vidéo générée sur la page officielle de Sora. Source : Worldofia.com.

Comme vous, j’aimerais bien essayer Sora, mais il n’est pas encore disponible pour le grand public. Cependant, OpenAI partagera prochainement les résultats de ses recherches avec des personnes extérieures afin d’obtenir un retour sur leur expérience et de donner au public une idée du potentiel de l’horizon de l’IA.

Ironiquement, pour bénéficier d’un essai sur Sora, vous pouvez également envoyer directement vos prompts à Sam Altman en personne sur Tweeter. Il vous enverra ensuite la vidéo générée. Même si beaucoup soupçonnent que prompt soit filtré avant de vous laisser voir le résultat, le rendu est tout de même époustouflant !

Photo de Thomas Leroy

Thomas Leroy

Rédacteur spécialisé dans l'intelligence artificielle depuis plusieurs années, je me consacre à la rédaction d'articles quotidiens pour World of IA. Mon objectif est d'apporter mon expertise et de partager des connaissances approfondies sur cet univers fascinant, en démystifiant ses complexités pour rendre l'information accessible pour tous.

Laisser un commentaire