Qu'est-ce que MidJourney et à quoi sert-il?

MidJourney est un outil d’intelligence artificielle qui génère des images à partir de textes. Toutefois, contrairement à Dall-E, cette IA n’a pas été entraînée à viser le réalisme, mais plutôt la beauté artistique. Le résultat est bluffant, et de nombreux artistes sont impressionnés. Découvrez tout ce que vous devez savoir.

Depuis juin 2022, le programme d’intelligence artificielle Dall-E Mini alias Craiyon rencontre un succès viral sur les réseaux sociaux. Cette IA est capable de créer des images à partir de textes entrés par l’utilisateur, et a donné naissance à de nombreux memes hilarants.

Quelques semaines après Dall-E Mini, un nouveau générateur « text-to-image » basé sur l’intelligence artificielle crée le buzz sur internet. Il s’agit de MidJourney.

Qu’est-ce que MidJourney ?

MidJourney est un système d’intelligence artificielle capable de créer des images à partir de textes entrés par l’utilisateur. Il représente « un laboratoire de recherche indépendant explorant de nouveaux mediums de pensée. Étendant les pouvoirs de l’imagination de l’espèce humaine ».

Ce modèle d’intelligence artificielle a été entraîné sur un vaste nombre d’images, comme la plupart des IA text-to-images. Toutefois, il se distingue en mettant l’accent sur le style artistique plutôt que sur le réalisme. En optimisant leur IA, les créateurs de MidJourney voulaient avant tout que les images générées soient belles.

Actuellement en version 3.0, le logiciel incorpore désormais une boucle de feedback basée sur l’activité et les réactions des utilisateurs. Ceci a permis d’améliorer la qualité d’image, en analysant les données indiquant quelles images les utilisateurs aiment et comment ils les utilisent.

L’entreprise n’a pas encore révélé quelles technologies elle utilise. Cependant, elle confirme utiliser les modèles d’intelligence artificielle les plus avancés dotés de milliards de paramètres et entraînés sur des milliards d’images. En outre, les images sont générées sur le Cloud d’un vendeur utilisant une énergie verte.

Chaque image nécessite plusieurs petaops, ce qui représente 10^15 opérations par seconde. Selon les créateurs du logiciel, jamais aucun service accessible au grand public n’avait permis à un individu d’utiliser autant de puissance de calcul.

À quoi sert MidJourney ?

La plupart des internautes se servent de cet outil pour s’amuser, et donner vie à leur imagination. Cependant, environ 30 % des utilisateurs s’en servent à des fins professionnelles.

De nombreux graphistes utilisent MidJourney dans le cadre de leur flux de travail de développement de concept. Ils génèrent plusieurs variations d’une idée, et la présentent à leurs clients pour déterminer dans quelle direction poursuivre. Selon Holz, les professionnels se servent de cet outil pour « supercharger » le processus de création ou de communication.

En outre, toujours selon le créateur, environ 20% des utilisateurs s’en serviraient à des fins thérapeutiques. Créer des images pourrait les aider à surmonter un traumatisme ou un deuil. L’IA est exploitée ici comme « outil de réflexion émotionnelle et intellectuelle ».

Pendant longtemps, MidJourney était réservé à un usage non-commercial. Désormais, l’usage commercial peut être autorisé. À cet effet, le célèbre magazine The Economist a laissé l’IA créer sa couverture en juin 2022.

Plans tarifaires Midjourney

Depuis Avril 2023, la version d’essai gratuite ne sera plus disponible. Vous devrez vous inscrire à un forfait à partir de 10 $ par mois. Il permet de créer jusqu’à 200 images par mois. Après 200 images, les utilisateurs peuvent continuer à générer des images pour 4 $ par 60 images. Il offre également des laissez-passer gratuits pour les amis et un accès à la galerie des membres.

Proposé à 30 dollars par mois, l’abonnement standard offre un nombre illimité d’utilisateurs personnels, des laissez-passer gratuits pour les amis et l’accès à la galerie des membres. Il comprend également 900 minutes de temps accéléré, ce qui permet aux utilisateurs de générer des images le plus rapidement possible.

Le Plan Pro a été lancé à la mi-décembre 2022, à 60 dollars par mois. Il offre des heures de GPU rapide : 30 heures/mois et des heures illimitées de GPU relaxé. Plan Turbo lancé en juillet 2023 coûte 120dollars par mois. Il offre 60 heures d’utilisation du GPU rapide et d’ heure illimité de GPU relaxe

Par ailleurs, Midjourney propose des plans annuels avec une remise de 20 %. L’abonnement annuel de de base revient à 8dollars par mois, contre 24 dollars par mois pour l’offre standard. La formule Pro à souscription annuelle est de 48 dollars par mois.

À l’heure actuelle, MidJourney est encore en version beta. Pour l’utiliser, vous devez vous inscrire sur le site officiel. Les invitations sont ensuite envoyées par vagues.

Après avoir reçu un email d’invitation, vous communiquerez avec le programme via la messagerie Discord sur un canal public. Il suffit d’entrer un texte, et le robot MidJourney renverra une image après environ une minute.

Il est toutefois possible de payer un abonnement pour 10 dollars ou 30 dollars par mois afin de pouvoir soumettre son texte en privé via un message direct au robot. Ceci permet d’éviter les messages des autres utilisateurs du canal public. Par défaut, les images générées par l’IA restent néanmoins visibles publiquement.

Quels sont les contenus interdits ?

En tant qu’application sociale, MidJourney fixe des règles et des limites concernant le contenu autorisé. Le contenu gore ou pour adulte est strictement interdit. En plus, les utilisateurs sont priés d’éviter de créer du contenu visuellement choquant ou perturbant.

Certains textes peuvent ainsi être bloqués automatiquement. De plus, une quarantaine de modérateurs garde un œil sur les images créées par les utilisateurs.

Les créateurs de MidJourney n’apprécient pas non plus l’idée qu’on utilise leur IA pour créer de fausses photographiesde type DeepFake. Il s’agit selon eux d’un usage « extrêmement dangereux ».

Qui détient la propriété intellectuelle de l’art créé par MidJourney ?

La question de la propriété intellectuelle est sensible lorsqu’on évoque l’art généré par IA. Actuellement, la justice américaine interdit par exemple d’accorder des droits d’auteur sur des images générées par l’IA.

En février 2022, la US Copyright Office Review Board a rejeté une requête visant à accorder un copyright à une image de paysage générée par ordinateur et intitulée « A Recent Entrance to Paradise ». Pour cause, cette image n’avait pas été créée par un humain.

Selon les conditions d’utilisation de MidJourney, les utilisateurs détiennent toutes les oeuvres qu’il crée avec le service. Toutefois, l’entreprise exige une licence de copyright des utilisateurs pour reproduire le contenu créé avec le service. Il s’agit d’une précaution nécessaire pour héberger les images des utilisateurs.

En outre, des problèmes de propriété intellectuelle pourraient survenir concernant les modèles IA entraînés sur du matériel soumis à des droits d’auteur. Une IA entraînée sur du contenu existant risque aussi de générer des images présentant des similitudes…

Les créateurs de MidJourney reconnaissent que la loi n’est pas encore suffisamment claire concernant le contenu généré par IA. Il s’attend à ce que des lois plus spécifiques soient adoptées dans le futur.

David Holz : qui est le créateur de MidJourney ?

David Holz a grandi en Floride. Il a lancé son entreprise de design pendant qu’il étudiait les mathématiques et la physique à l’université. Il préparait son PhD de Mathématiques, mais a finalement fait une pause en 2008 pour co-fonder l’entreprise Leap Motion . Cette dernière a été dédiée à la fabrication de périphériques informatiques.

L’année suivante, Holz a passé un an en tant qu’ étudiant chercheur aux Max Planck Institute . Il a ensuite passé deux ans en tant que chercheur étudiant au Langley Research Center de la NASA. Il a aussi travaillé sur le LiDAR, les missions vers Mars et la science atmosphérique.

Toutefois, cette époque était aussi une période de doute pour Holz. Il explique qu’il se demandait « pourquoi il travaillait sur ces choses ». Par la suite, il souhaitait travailler sur une seule chose qui lui tenait à cœur.

Il s’est donc focalisé sur Leap Motion. Cette dernière développe un appareil hardware permettant de suivre les mouvements de la main et de les utiliser pour contrôler un ordinateur ou tout autre appareil.

Holz a dirigé cette entreprise pendant douze ans. Lorsqu’il l’a quittée, elle employait environ 100 personnes. En 2021, il a finalement plié bagage pour créer MidJourney.

Selon lui, cette entreprise est encore relativement petite et ne regroupe qu’une dizaine de personnes. Elle est également auto-financée, et n’a aucun investisseur.

Quoi qu’il en soit, Holz explique que les motivations de l’équipe ne sont pas vraiment financières. Il a dit « nous sommes juste là à travailler sur des choses qui nous passionnent et à nous amuser. Et nous travaillons sur beaucoup de projets différents ».

MidJourney vs DALL-E

DALL-E (L) vs Midjourney (R) 🧵

MJ has a certain « je ne sais quoi », the imperfections are more beautiful, a bit like an analog synth. It’s often more contextually creative, and amazing w textures / vibe

DALL-E deals better with very clearly instructed scenes

Same prompt: — fabians.eth (@fabianstelzer) July 5, 2022

Alors que Dall-E se focalise sur le réalisme des images générées, MidJourney met davantage l’accent sur la dimension artistique. Cette IA peut adopter des styles artistiques réels pour créer une image à partir d’une combinaison de tous les éléments souhaités.

Pour démontrer la différence entre les deux, un utilisateur nommé Fabian Stelzer a saisi le même texte sur les deux programmes.

Selon lui, « MidJourney a un certain « je ne sais quoi » , les imperfections sont plus belles, un peu comme sur un synthétiseur analogique. Il s’avère souvent plus créatif sur le plan contextuel et génial avec les textures. DALL-E est meilleur pour les scènes avec des instructions très claires ».

Les textes soumis aux deux IA dans le cadre de ce test comprenaient « Mozart jouant au Top of the Pops, 1993 » et « une installation complexe faite de sacs en plastique et de fragments de miroir, peinte en couleur néon, éclairage de studio. »

Pour l’installation de sacs en plastique, MidJourney a réussi à créer une image beaucoup plus réaliste. L’éclairage du studio est particulièrement réussi.

Le phénomène de l’art généré par IA

Cette mode des IA de création d’images a commencé en 2021 avec le lancement de CLIP (Contrastive Language Image Pre-Training) par OpenAI. Ce programme était conçu pour évaluer dans quelle mesure les images générées s’alignent avec des descriptions textuelles, mais l’artiste Ryan Murdock s’est ensuite aperçu que le processus pouvait être inversé : une IA peut produire une image à partir d’un texte.

La communauté de l’art génératif a ensuite entamé une période d’exploration déchaînée, publiant du code Python permettant de créer des images à l’aide d’une variété de modèles et de techniques.

Selon David Holz, créateur de Midjourney, c’est à cette époque qu’on s’est aperçu que « certains domaines de l’IA progressaient de façons réellement intéressantes, et l’un d’entre elles était la capacité de l’IA à comprendre le langage ».

Il fait notamment référence aux transformers : un type de modèle de Deep Learning sur lequel est basé CLIP. De même, les modèles de diffusion constituent une alternative aux GAN (réseaux de neurones antagonistes).

Cet expert a notamment été bluffé par la diffusion guidée par CLIP, développé par Katherine Crawson connue sur Twitter sous le pseudonyme @RiversHaveWings.

Le futur de MidJourney

Pour le futur, les créateurs de MidJourney craignent qu’il soit victime de son succès. À l’heure actuelle, plusieurs centaines de milliers de personnes utilisent déjà le service et requièrent la puissance d’environ 10 000 serveurs.

Toutefois, si 10 millions de personnes tentent d’utiliser cette technologie, Holz explique qu’il n’y aura tout simplement pas suffisamment d’ordinateurs disponibles dans le monde.

D’après Holz, les outils IA comme MidJourney peuvent aider les artistes à s’améliorer dans leur discipline. Ils n’ont pas forcément vocation à faire de chacun un artiste professionnel, et un artiste utilisant ces outils sera toujours meilleur qu’un simple particulier les utilisant.

Il reconnaît en revanche que ces outils pourraient ajouter une pression sur les artistes, même si ce n’est pas encore le cas. Il estime que l’outil va énormément s’améliorer au fil des deux prochaines années…

Les meilleures créations de MidJourney

En créant un compte MidJourney, vous pouvez visionner les créations des autres utilisateurs sur la page Community Feed. De nouvelles images générées par l’IA affluent constamment. Voici une sélection de créations impressionnantesou suprenantes réalisées par MidJourney et relayées sur les réseaux sociaux…

The infinite shades of disgust 🤢#midjourneypic.twitter.com/DNV9PzzB8o — Frederik Vanhoutte – Winterbloed (@wblut) March 21, 2022

#midjourney hallucinating my work in a photorealistic style. pretty cool tech right here 🤩 pic.twitter.com/BPBYKFuzpP — VES3L (@VES3L) March 21, 2022

MidJourney V4 : toutes les nouveautés

Depuis le samedi 5 novembre 2022, MidJourney a commencé le test alpha de sa V4. Cette nouvelle version offre des résultats plus détaillés, et permet d’obtenir très facilement des résultats de haute qualité à partir de simples textes.

Cette mise à jour majeure succède à la V3 disponible depuis le mois d’août. Plusieurs milliers de membres du serveur Discord officiel vont pouvoir tester cette quatrième version, en ajoutant simplement « –v 4 » à leurs prompts.

Selon le fondateur David Holz, « la V4 est une base de code entièrement nouvelle et une architecture IA totalement nouvelle. C’est notre premier modèle entraîné sur un nouveau supercluster IA Midjourney sur lequel on travaille depuis 9 mois ».

Les images produites par ce modèle V4 sont beaucoup plus détaillées. Les prompts semblent mieux construits, la composition des scènes améliorée, et la proportionnalité semble également plus réaliste.

Une autre nouveauté est une connaissance largement accrue en termes de lieux, de créateurs et bien plus encore. Les petits détails sont bien mieux représentés, et les promptings complexes avec de multiples niveaux de détail sont mieux pris en charge.

Cette V4 est aussi plus adaptée aux scènes présentant de multiples objets ou personnes, et proposent des fonctionnalités avancées comme le multi-prompt ou le prompting d’image.

De manière générale, cette mise à jour est accueillie chaleureusement par les utilisateurs. Il s’agit d’une alpha, et le nouveau modèle continuera d’être amélioré au fil des semaines à venir. La firme prévoit notamment d’accroître la définition et la qualité des images upscalées, d’ajouter des ratios d’aspect personnalisé comme sur la V3, d’accroître la précision de l’image, et de réduire les artefacts de texte.

MidJourney interdit les mots liés au système reproducteur pour éviter le contenu porno

La génération de contenu pornographique a toujours été interdite sur MidJourney. Toutefois, les utilisateurs sont de petits malins et ont rapidement trouvé des techniques permettant de contourner cette restriction.

Fin février 2023, la plateforme a finalement décidé de bannir les mots liés au système reproducteur humain pour lutter contre ces abus.

Désormais, les termes comme « placenta », « trompes de Fallope », « glandes mammaires », « sperme », « utérin », « col de l’utérus », « hymen » et « vulve » ne peuvent plus être utilisés en guise de prompt. Dans certains cas, l’utilisateur tentant d’utiliser l’un de ces mots sera bloqué pendant une durée limitée.

Selon David Holz, il s’agit d’une mesure temporaire visant à empêcher la création d’images violentes ou sexualisées pendant que l’entreprise améliore l’IA. La liste des mots interdits peut être consultée sur la page dédiée aux conditions d’utilisation de MidJourney.

Cyberpunk: Peach John, le premier manga créé avec MidJourney

L’auteur de « Cyberpunk : Peach John » surnommé Rootport, avoue n’avoir aucun talent pour le dessin. Afin de créer sa bande dessinée, il s’est tourné vers MidJourney et d’autres outils IA. Notamment Stable Diffusion et DALL-E 2. En seulement six semaines, il a pu créer un manga de plus de 100 pages.

A peine une minute, Rootport avait déjà créé le héros de son histoire à l’aide d’un prompts contenant des mots-clés comme « cheveux roses », « garçon asiatique » ou « veste de stade ». Il a ensuite assemblé les meilleures images dans un format de bande dessinée pour produire un livre.

D’après l’auteur, les IA génératives pourraient permettre à de nombreuses personnes sans talent artistique d’entrer dans l’industrie du manga à condition d’avoir de bonnes histoires à raconter. Selon ses dires, ce processus de création s’apparente à une loterie ou à l’incantation de sortilèges magiques. Il lui permettant de générer des images à partir de son imagination. Il admet toutefois que la satisfaction de dessiner soi-même est sans doute supérieure.

Bien évidemment, ce premier manga dessiné par l’IA soulève des inquiétudes pour cette industrie à plusieurs milliards de dollars. Ainsi, le professeur Satoshi Kurihara confie à l’AFP que les assistants juniors de mangakas risquent d’être remplacés par l’IA…

MidJourney passe en version 5 : photoréalisme et mains humaines (presque) normales

En mars 2023, MidJourney a annoncé le lancement de la version 5 de son service text-to-image. Cette nouvelle mouture peut produire des images photoréalistes, à tel point que certains utilisateurs les trouvent presque « trop parfaites ».

On constate une nette amélioration par rapport à la première version lancée en mars 2022, mais aussi par rapport à la version 3 lancée en août et la version 4 en novembre. Chaque itération ajoute davantage de détails aux résultats générés.

Les textures de peau et les caractéristiques faciales sont très réalistes, au même titre que l’éclairage. Les reflets et les ombres sont meilleurs, et les angles de vue sont plus réussis.

En outre, les yeux sont désormais presque parfaits et les mains sont enfin normales (ou presque). C’est un grand pas en avant, puisqu’il s’agissait de l’un des principaux points faibles de l’outil jusqu’à présent.

Les mains ont maintenant 5 doigts la plupart du temps, au lieu de 7 ou 10 comme c’était souvent le cas auparavant.

Par ailleurs, MidJourney précise que la v5 propose une gamme de styles beaucoup plus large et se révèle plus sensible au prompting. Elle génère aussi moins de texte non désiré et offre une définition d’image multipliée par deux.

La v5 de MidJourney est disponible en test alpha pour les abonnés au service. Il est possible d’y accéder depuis Discord.

MidJourney lance un magazine entièrement créé par l’IA

Suite à une concertation avec sa communauté, MidJourney a décidé de lancer un magazine mensuel éponyme au format papier.

Chaque mois, les lecteurs pourront découvrir une sélection d’images créées à l’aide de l’IA, hautement notées par les utilisateurs. La publication contiendra aussi des exemples de prompts, et des interviews avec les créateurs d’images.

L’abonnement sera facturé 4 dollars par mois, mais les premiers inscrits pourront recevoir le premier numéro gratuitement.

MidJourney devient payant, la faute aux tricheurs

Le 30 mars 2023, MidJourney a décidé de mettre fin aux essais gratuits de son service. Le CEO David Holz évoque pour motif « la demande extraordinaire et l’abus des essais ».

Selon lui, cette pause est due à « un nombre massif de personnes créant des comptes jetables pour obtenir des images gratuites ».

Il précise par ailleurs que le coupable pourrait être « une vidéo de tutoriel devenue virale en Chine ». Or, cette vague d’abus est survenue au même moment qu’une « pénurie temporaire de GPU ».

La combinaison entre ces deux aléas a provoqué une panne du service pour les utilisateurs payants. Ceci explique pourquoi la firme a préféré supprimer purement et simplement les essais gratuits.

L’entreprise précise qu’elle cherche encore un moyen de proposer à nouveau des essais gratuits. Elle a notamment tenté d’exiger une adresse email active, mais cela n’a pas suffi et il sera donc nécessaire de trouver une alternative viable…

MidJourney bannit les images de Xi Jinping et crée la polémique

Si MidJourney autorise volontiers les DeepFakes du pape, de Macron ou de Donald Trump, la liberté est loin d’être totale sur la plateforme.

Quiconque tente de générer une image à partir d’un prompt contenant le nom de Xi Jinping recevra un message d’avertissement.

De nombreux utilisateurs déplorent une forme de censure, en opposition aux principes de liberté d’expression.

Déjà en juin 2022, le CEO David Holz avait expliqué vouloir simplement minimiser les scandales et autres « dramas ».

À l’époque, il avait mis en lumière la différence dans la façon dont est reçue la satire politique en Occident et en Chine. Ce qui peut sembler inoffensif dans nos contrées peut poser problème là-bas et même mettre les usagers en danger…

La nouvelle fonctionnalité « /Describe » convertit une image en prompt

Après le text-to-image, MidJourney vient d’inverser sa formule avec une nouvelle fonctionnalité image-to-text lancée début avril 2023. La nouvelle commande « /describe » permet aux utilisateurs d’exploiter la puissance de l’intelligence artificielle pour transformer les images en mots.

Ce nouvel outil présente de nombreux avantages pour une large variété de cas d’usage. Elle pourrait tout d’abord améliorer l’accessibilité sur le web, en permettant aux malvoyants de mieux comprendre ce qui s’affiche sur leurs écrans.

Jusqu’à présent, leur seule option était de consulter le « texte alternatif » associé aux images pour les décrire. Or, cette description devait être effectuée manuellement par les créateurs de sites web.

Midjourney just launched a new command:

/describe.

It’s basically a super powerful tool for reverse-engineering any image.

Use it at your own discretion… 😏 pic.twitter.com/InHmViyilB — Pietro Schirano (@skirano) April 4, 2023

Ainsi, MidJourney va permettre d’automatiser la tâche pour gagner un temps précieux. Au-delà de l’accessibilité, les moteurs de recherche pourront indexer les images plus efficacement en se basant sur ces descriptions complètes générées par l’IA.

De même, les légendes sur les images permettent de les expliquer et d’offrir davantage de contexte aux visiteurs. Cette fonctionnalité pourra donc fortement améliorer le web dans son ensemble,

Par ailleurs, la génération image-to-text crée une boucle de feedback pour le système text-to-image de MidJourney. Les utilisateurs pourront se baser sur ces descriptions pour écrire des prompts afin de créer des variantes d’images existantes…

Comme c’est le cas pour les images, MidJourney crée quatre descriptions différentes pour chaque photo téléchargée. Il est aussi possible de générer de nouvelles variantes de l’une d’elles, ou de l’éditer manuellement.

Pour charger une image, il suffit de taper « /describe » dans le champ de texte. Un champ de téléchargement en glisser-déposer apparaît.

https://www.youtube.com/watch?v=ZSzI4U_fNps

Midjourney 6, la dernière version du populaire générateur d’images

La version 6 de Midjourney a été publiée le 20 décembre 2023 en version alpha. D’ores et déjà, certains utilisateurs se réjouissent des améliorations qu’elle apporte.
Ces nouvelles fonctionnalités incluent des images nettement améliorées, plus réalistes et très détaillées. En outre, le modèle peut générer des textes lisibles dans les images, ce qui avait échappé à Midjourney depuis sa sortie en 2022.
La mise à jour ne prend pas effet par défaut. Il faut saisir la commande « /settings » sur le serveur Discord de Midjourney ou dans un message direct (DM) au bot de Midjourney, puis utiliser le menu déroulant en haut pour sélectionner V6. Vous pouvez également procéder à l’ancienne en tapant manuellement « -v 6 » après les invites.

Source