La 3e version du générateur d'images de OpenAI arrive, et elle va faire mal



OpenAI vient d’annoncer la dernière version de son générateur d’images, Dall-E 3. Dall-E est déjà intégré dans plusieurs services, dont Bing Chat. La version actuelle du générateur permet, à partir d’un prompt (pour l’instant uniquement en anglais) de générer des images très réalistes, même si certains petits défauts comme des aberrations sur des détails comme les mains trahissent souvent les images générées par Dall-E.

Par ailleurs, le texte et les chiffres sont rarement rendus correctement. Et la manière dont le prompt est formulé peut déboucher sur une qualité variable. Trois problèmes que Dall-E 3 est en passe de régler à en croire OpenAI. Dall-E est capable de suivre de manière plus fidèle des descriptions très complexes, sans qu’il ne soit nécessaire d’être soi-même “prompt engineer” et gère enfin la génération de texte dans les images correctement.

De quoi par exemple lui faire générer des affiches, ou des lieux comme Time Square à New York, sans que les éléments textuels ne trahissent le fait que l’image a été générée par une intelligence artificielle. Outre ces nouveautés appréciables, OpenAI ne partage pas de plus amples détails techniques sur ce modèle qui a pourtant requis, on imagine, un entraînement plus avancé sur un échantillon beaucoup plus important d’images et de prompts.

Dall E 3 1
© OpenAI

OpenAI fournit plusieurs exemples d’images générées à partir de ce modèle. Et il y a de quoi être plutôt impressionné : sans trop entrer de prompts complexes, Dall-E 3 comprend mieux l’intention de départ, et génère des images beaucoup plus fidèles et réalistes – et au-delà souvent beaucoup plus difficiles à distinguer d’images prises, ou générées par des humains.

Cela est d’ailleurs sans doute un risque collatéral de cette version : OpenAI ne parle pas de dispositif permettant de détecter une image générée par Dall-E 3. En outre, Dall-E 3, nous explique OpenAI, a été construit nativement sur ChatGPT, ce qui explique pourquoi les prompts sont plus efficaces et débouchent sur de meilleurs résultats, que la version actuelle de Dall-E, ou que, surtout, des modèles concurrents comme Midjourney, qui requièrent des prompts encore très circonvolus et souvent peu intuitifs, surtout pour ceux qui essaient le modèle pour la première fois.

En plus de cela, contrairement à ses concurrents, Dall-E 3 peut générer des images en se basant sur le contexte de la conversation en cours. On peut également comme c’est le cas du modèle actuel, dire à Dall-E 3 d’ajouter quelque chose, après qu’une première série d’images a été générée. Dall-E 3 est pour l’heure en phase de “Research Preview” – les premiers à en profiter seront a priori les abonnés ChatGPT Plus et ChatGPT Enterprise début octobre… si Microsoft ne le déploie pas en secret sur Bing avant cette échéance.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.


Source
close