La dernière version de Stable Diffusion gère mieux les mains et les textes dans les images | MacGeneration



La dernière version de Stable Diffusion gère mieux les mains et les textes dans les images

Stability AI a récemment mis en ligne la version 1.0 de Stable Diffusion XL, son nouveau modèle de génération d'image qu'elle décrit comme le plus poussé à ce jour. Celui-ci peut « créer des images de haute qualité dans pratiquement tous les styles artistiques », et le communiqué de lancement affirme qu'il s'agit du « meilleur modèle ouvert pour le photoréalisme ».

Des images crées par Stable Diffusion XL.

Stable Diffusion XL (ou SDXL) a été amélioré sur de nombreux points faisant défaut aux modèles précédents. La génération des mains devrait être meilleure, tout comme celle des textes dans une image. Les compositions complexes sur plusieurs plans (par exemple, une femme à l'arrière-plan poursuivant un chien au premier plan) devraient également être de meilleure qualité.

Ce nouveau modèle a une meilleure interprétation des mots, et il faut donc des commandes moins longues pour obtenir de bons résultats. En pratique, il n'y aura plus besoin d'ajouter des termes comme « chef-d'œuvre » à sa commande pour obtenir une image de bonne qualité. Le modèle devrait aussi moins s'emmêler les pinceaux avec certains mots à double sens comme « red square », qui désigne à la fois la place Rouge de Moscou et un carré rouge. De plus, Stability AI recommande désormais de générer des images de 1024×1024 pixels, ce qui représente une belle avancée par rapport aux modèles précédents et permettra d’avoir plus de détails.

Cette grosse mise à jour a été optimisée pour les Mac Apple Silicon, comme l'a fait savoir un des responsables de la division intelligence artificielle de Cupertino dans un billet de blog. SDXL a été porté sur Core ML pour une utilisation native dans les apps Swift. Son framework open source ml-stable-diffusion (qui permet de convertir des modèles Stable Diffusion pour Core ML) a été mis à jour, tout comme son app de démonstration. Cupertino explique également travailler sur une technique de compression avancée plus efficace, accessible à tous.

L'application Draw Things a été mise à jour pour l'arrivée de ce nouveau modèle, permettant de l'essayer facilement. Le modèle est open source et peut être téléchargé gratuitement sur Hugging Face.


Source
close