Site icon Le blog high-tech & telecom de Xavier Studer

Test images IA: DALL-E3 vs Stable Diffusion XL vs Playground v2.5

Illustration DALL-E3.
Illustration DALL-E3.

Les services généralistes d’intelligence artificielle (AI) générative comme ChatGPT d’Open AI proposent de plus en plus souvent la possibilité de générer des images. Si ChatGPT Pro intègre DALL-E3, il est possible de tester la même demande de trois manières différentes sur Perplexity.ai!

Depuis peu, cette IA qui veut marcher sur les terres de Google propose non seulement DALL-E3 comme OpenAI, mais aussi les modèles de Stable Diffusion XL et de Playground v2.5 dans sa version payante, cédée une vingtaine de francs par mois. Une aubaine pour comparer ces trois services!

Les explications de perplexity.ai

L’intégration de ces moteurs visuels est un peu rustique. Voici la marche à suivre proposée par Perplexity.ai à sa demande:

Voici un résumé en italique qui explique comment générer des images avec Perplexity AI, basé sur les informations fournies dans les résultats de recherche:

  1. Allez sur l’interface web de Perplexity (la fonctionnalité n’est pas encore disponible dans l’application mobile). Cette fonctionnalité est réservée aux comptes PRO.
  2. Démarrez un nouveau fil de discussion et choisissez le FOCUS «Writing».
  3. Écrivez un prompt qui commence par «Generate a useful description so that a generative AI can create an image of». Soyez le plus spécifique et détaillé possible dans votre description pour obtenir une meilleure qualité d’image.
  4. Une fois que vous avez la réponse de Perplexity, cliquez sur le bouton «Generate Image» qui apparaît à droite.
  5. Perplexity peut générer des photographies, peintures, illustrations, diagrammes ou des images plus personnalisées pour améliorer visuellement la réponse à votre requête.
L’interface de Perplexity.ai.

Premier test

Pour ce premier test, j’ai demandé à Perplexity de me générer une image qui aurait été utile pour ma note de samedi. «Generate a useful description so that a generative AI can create an image of Château de Chillon format 4:3». La commande générée en italique:

Voici une description utile pour qu’une IA générative puisse créer une image moderne du Château de Chillon au format 4:3:

Le Château de Chillon se dresse fièrement sur son rocher au bord du Lac Léman, près de Montreux en Suisse. Capturez une vue d’ensemble de ce majestueux château médiéval dans un style contemporain et épuré.

Mettez en valeur les imposantes murailles blanches du château qui contrastent avec les eaux bleues du lac et le ciel azur. Les tours rondes aux toits pointus ajoutent une touche de verticalité. Représentez le château de façon minimaliste, avec des lignes épurées et géométriques.

Intégrez subtilement des éléments modernes comme un drone survolant le château, un bateau à moteur high-tech sur le lac ou des panneaux solaires discrets sur le toit, pour créer un contraste temporel intéressant.

Jouez sur une palette de couleurs vives et saturées — un bleu profond pour le lac, un blanc éclatant pour les murs, des verts lumineux pour la végétation environnante. Une lumière vive et des ombres marquées accentueront les volumes.

Le format 4:3 cadrera le château au centre, avec le lac au premier plan et les montagnes en arrière-plan pour donner de la profondeur. Un angle de vue légèrement en contre-plongée magnifiera la silhouette altière du Château de Chillon revisité dans un style résolument contemporain, voire futuriste.

J’ai aussi fait la même demande à Bing de Microsoft qui utilise aussi DALL-E3.

Deuxième test

Je demande à Perplexity: «Generate a useful description so that a generative AI can create an image of un magasin Mobilezone situé en Suisse présentant les derniers modèles de smartphones de 2024.» Il me propose cette commande en italique:
Pour générer une image convaincante d’une boutique Mobilezone en Suisse présentant les derniers modèles de smartphones de 2024, il est essentiel de fournir à l’IA générative une description détaillée et précise. Voici une proposition de description qui pourrait être utilisée:

**Description pour la génération d’image: **

 Imaginez l’intérieur d’une boutique Mobilezone moderne et épurée, située dans une rue commerçante animée de Lausanne, Suisse. La boutique est spacieuse et bien éclairée, avec un éclairage naturel complété par des spots LED discrets. Les murs sont peints dans des tons neutres, et le sol est recouvert d’un carrelage gris clair, donnant à l’espace un aspect à la fois accueillant et professionnel.

 Au centre de la boutique, plusieurs îlots élégants en bois clair et métal brossé présentent les derniers modèles de smartphones de 2024. Chaque îlot dispose d’un espace dédié à une marque spécifique, permettant aux clients de découvrir et de manipuler les appareils. Les smartphones sont disposés sur des supports inclinés, sous une lumière douce qui met en valeur leur design et leurs caractéristiques.

 Sur le côté droit de la boutique, un grand mur d’affichage présente des accessoires pour smartphones, tels que des coques de protection, des écouteurs sans fil et des chargeurs. Ces accessoires sont organisés par catégorie et par compatibilité avec les différents modèles de smartphones, facilitant ainsi la recherche par les clients.

 À gauche, un espace de consultation confortable est aménagé avec des fauteuils modernes et une table basse. Cet espace est destiné aux clients souhaitant recevoir des conseils personnalisés de la part des conseillers de vente. Un grand écran interactif est installé à proximité, permettant aux conseillers de présenter les fonctionnalités des smartphones et les offres de forfaits télécoms disponibles.

 En arrière-plan, le logo de Mobilezone est affiché de manière discrète mais reconnaissable sur les murs et sur les uniformes des employés, créant une identité de marque cohérente. Les employés, vêtus de manière professionnelle mais décontractée, se déplacent dans la boutique, prêts à assister les clients avec compétence et amabilité.

L’atmosphère générale de la boutique est accueillante et technologiquement avancée, reflétant l’engagement de Mobilezone à offrir une expérience client exceptionnelle tout en présentant les dernières innovations dans le domaine des smartphones.

Cette description vise à fournir une vision complète et immersive de la boutique, en mettant l’accent sur l’agencement, les produits présentés et l’atmosphère générale. Elle peut être ajustée selon les spécificités souhaitées pour la création de l’image par l’IA générative.

J’ai aussi fait la même demande à Bing de Microsoft qui utilise aussi DALL-E3.

Au final, on constate par exemple que tous les modèles ne comprennent pas les instructions. J’ai demandé les derniers smartphones du moment. Donc ni tablettes ni vêtements. Dommage aussi que Perplexity.ai ne propose que des images carrées. Encore une fois, on constate que ces IA n’ont aucune intelligence et ne comprennent nullement ce qu’elles font…

Xavier Studer

L’interface de Perplexity.ai.
Quitter la version mobile