En plus de générer des réponses aux questions, l’un des domaines dans lequel l’IA générative se démarque en ce moment est la génération d’image. Un bout de phrase et quelques secondes suffisent pour que le modèle d’intelligence artificielle vous produise une image toute faite. Dans ce domaine, les meilleurs sont DALL-E et Midjourney. Si le premier bénéficie de la popularité d’OpenAI, grâce à ChatGPT, le deuxième reste très plébiscité. Il provient d’un laboratoire indépendant qui l’a lancé en 2022. Alors, pourquoi choisir l’un plus tôt que l’autre ? Nous avons tenté de comparer les deux modèles d’IA dans cet article à travers cinq points.

Les éditeurs

DALL-E a été développé par OpenAI et a évolué à travers différentes versions, dont la dernière est DALL-E 3. Ce dernier modèle représente une avancée significative par rapport à ses prédécesseurs, DALL-E 1 et DALL-E 2. Son développement au sein d’OpenAI, le créateur de ChatGPT, renforce sa réputation en tant que référence dans le domaine de la génération d’images.

En parallèle, MidJourney, créé par David Holze, ancien chercheur de la NASA, a atteint sa version 5.2. Cette dernière itération continue de fournir des résultats impressionnants.

Les approches d’entrainement

DALL-E a été formé sur une immense base de données composée de millions de paires image-texte provenant d’extraits d’internet. Cette méthode d’entraînement sur un ensemble de données aussi vaste a permis au modèle d’apprendre les relations complexes entre les images et les descriptions textuelles associées. DALL-E applique aussi des filtres pour éviter le contenu interdit et est conçu pour ne pas reproduire exactement les visages rencontrés au cours de son apprentissage.

En revanche, MidJourney adopte une approche différente en utilisant un agglomérat de contenus web pour former son modèle de diffusion. Plutôt que de se concentrer uniquement sur des paires image-texte, MidJourney exploite des ensembles de données ouvertes provenant de diverses sources en ligne.

Les modes de génération d’image

DALL-E opte pour un processus de diffusion pour la génération d’images. Ce processus commence par un motif initial aléatoire de points, qu’il ajuste progressivement pour former une image.

À l’inverse, Midjourney a un processus de génération basé sur l’inversion du bruit. Lorsqu’un utilisateur entre une requête, l’IA commence par créer un champ de bruit visuel. Ensuite, le processus d’inversion du bruit intervient en soustrayant lentement le bruit par étape pour révéler une image nette et affinée.

Le rendu

La compétition entre MidJourney et DALL-E est ardue, car les deux se positionnent en tant que références majeures dans le domaine de la génération d’images.

MidJourney V5 se démarque par son rendu réaliste et détaillé, offrant des résultats particulièrement saisissants pour ceux qui recherchent un aspect visuel authentique. Les images générées sont souvent appréciées pour leur qualité artistique.

DALL-E en haut ; Midjourney en bas

Les résultats de DALLE-3 tendent à être plus diversifiés. DALL-E se distingue aussi par sa capacité à prendre en compte tous les détails d’un prompt et à incorporer du texte dans l’image.

Il faut aussi noter que chacune de ces IA excelle dans certains styles. Le choix entre les deux dépend au finish des préférences personnelles et du budget de l’utilisateur.

Processus d’accès

L’accès à DALL-E dépend de la version qui est utilisée. Pour accéder à DALL-E 2 (OpenAI Labs), il faut créer un compte sur le site officiel d’OpenAI. Si vous avez déjà un compte ChatGPT, vous pouvez utiliser ses identifiants pour vous connecter, acheter des crédits et commencer à générer des images avec DALL-E 2. Pour ce qui est de DALL-E 3, vous devez bien entendu être abonné à ChatGPT Plus ou Entreprise. Ensuite, connectez-vous à la plateforme d’OpenAI, sélectionnez GPT-4 et choisissez le plugin DALL-E 3 dans le menu déroulant.

D’un autre côté, l’accès à MidJourney se fait à travers Discord, la plateforme de communication en ligne. Les utilisateurs doivent créer un compte Discord, puis rejoindre le serveur spécifique de MidJourney. Une fois à l’intérieur, la commande « /imagine » est utilisée pour déclencher le processus de génération.

