Das Diffusions-Duell
In diesem Beitrag teste ich verschiedene Modelle – DALL-E 3, Midjourney v6.1, Recraft v3, Stable Diffusion 3.5 Large, Adobe Firefly Image 3 und FLUX1.1 Pro – mit dem gleichen Prompt, um die Unterschiede in Stil und Realismus zu vergleichen.
Einführung in Diffusionsmodelle
Diffusionsprozesse generieren Bilder schrittweise aus einem anfänglichen Rauschen. Durch den schrittweisen Abbau des Rauschens und das Hinzufügen von Details entstehen beeindruckend realistische oder künstlerisch stilisierte Bilder, je nach Modell und Datenbasis. Jedes Modell interpretiert den Prompt anders, und genau das macht diesen Vergleich so spannend.
Praktischer Test: Ein Prompt auf verschiedenen Plattformen
Für den Vergleich habe ich folgenden Prompt verwendet:
„A photorealistic portrait of a woman with long, curly hair, sitting in a sunlit park and reading a book, surrounded by flowers and greenery. The image should capture a serene, natural atmosphere, with soft light and detailed textures.”
Midjourney v6.1
Ich war bei der ersten Benutzung etwas enttäuscht. Das Bild sieht trotz des Prompts eher wie ein Gemälde aus, und der gewünschte Realismus fehlt. Das Licht ist gut, aber für diesen Test war der Look nicht passend. Natürlich bietet Midjourney viel Potenzial zur Verbesserung durch prompt-spezifische Anpassungen, aber hier ging es darum, die Modelle ohne Feintuning zu vergleichen.
DALL-E 3
DALL-E 3 liefert ein stark stilisiertes Bild, das wenig realistisch wirkt und klar als KI-Produkt erkennbar ist. Die Darstellung der Fauna ist zwar schön, und die Tiefenschärfe wirkt realistisch, aber das Gesamtbild bleibt eher künstlich.
Recraft v3 (aka RedPanda)
Recraft lieferte auf den ersten Blick ein hyperrealistisches Bild, das jedoch bei genauerem Hinsehen ein paar kleine Ungereimtheiten zeigt – etwa seltsame Details an der Nase und unnatürliche Elemente auf der Jacke. Trotzdem ist der erste Eindruck stark, und das Bild wirkt fast wie ein echtes Foto.
FLUX1.1 Pro
Black Forest Labs beeindrucken mit einem traumhaften Bild, das aussieht wie direkt aus einem Mode-Magazin. Die Körnung ist sehr realistisch, und die Gesamtkomposition, das Licht und der Stil passen perfekt. Einziger Nachteil: Das Bild kam im Format 9x19 statt des bestellten 16x9, was Anpassungen nötig machte.
Stable Diffusion 3.5 Large
Auch Stable Diffusion wirkt zunächst realistisch. Bei näherem Hinsehen fallen jedoch Fehler auf, wie die falsche Darstellung von Fingern, was die Illusion des Realismus beeinträchtigt. Für eine kostenlose Open-Source-Software aber überragend.
Analyse: Unterschiede in Kreativität und Bildqualität
Die Modelle zeigen deutlich unterschiedliche Stärken und Schwächen:
Kreativität:
Die Modelle interpretieren den Prompt auf sehr unterschiedliche Weise. DALL-E liefert einen besonders ausgeprägten „KI-Look“, der stark stilisiert wirkt. Auch Firefly zeigt einen eher künstlichen Stil, jedoch mit beeindruckender Objektunschärfe im Hintergrund. Midjourney hingegen hebt sich ab und erzeugt ein Bild mit einem eigenen, künstlerischen Look, der zwar nicht fotorealistisch ist, aber seinen ganz eigenen Charme hat. FLUX und Recraft setzen den Prompt realistischer um und zeigen dabei viel Liebe zum Detail.Fotorealismus:
FLUX ist der klare Gewinner im Bereich Fotorealismus und liefert ein nahezu perfektes, hochwertiges Bild, das wie eine echte Fotografie wirkt. Recraft folgt knapp dahinter und überzeugt ebenfalls mit einem sehr realistischen Ergebnis. Midjourney bleibt eher kunstvoll und erreicht den gewünschten Realismus nicht, könnte aber mit gezielten Prompts weiter optimiert werden. DALL-E und Firefly hinken in dieser Kategorie hinterher und wirken eher künstlich.Bildqualität:
In Bezug auf Bildqualität dominiert FLUX mit einem gestochen scharfen, fast magazinreifen Look. Recraft bietet ebenfalls hochauflösende und detailreiche Ergebnisse. Midjourney schafft ein interessantes, kunstvolles Bild, das jedoch weniger präzise ist. DALL-E und Firefly zeigen dagegen den ausgeprägtesten „KI-Look“ und bleiben deutlich stilisierter.
Fazit
Für diesen Test ist FLUX1.1 Pro mein Favorit, gefolgt von Recraft v3. Auf dem letzten Platz liegt DALL-E 3, das hier keinen Realismus erreicht hat. Die Diffusionsmodelle sind insgesamt auf einem beeindruckenden Niveau, aber es ist klar, dass wir noch nicht bei „perfekt“ angekommen sind. Es ist spannend, zu sehen, wie sich die Technik weiterentwickeln wird – und ich bin überzeugt, dass KI-basierte Fotoshootings in Zukunft einen großen Teil der Branche ausmachen werden. Die kreative Freiheit und Präzision, die KI in den kommenden Jahren bieten wird, werden die Art und Weise, wie wir visuelle Inhalte erschaffen, grundlegend verändern.