Bilder basteln mit Stable Diffusion

(7 Kommentare.)

Seit einigen Monaten liest und sieht man immer mehr von den Möglichkeiten, vom Computer Bilder erzeugen zu lassen, indem man ein paar Zeilen Text als Beschreibung eingibt. Bei Netzpolitik steht ausführlich, welche Konsequenzen das haben könnte, sehr lesenswert. In diesem Blogeintrag von Simon Willison gibt es einen Überblick darüber, was geht, mit Links zu anderen Seiten. Einer davon führt zu Andrew, der detailliert beschreibt, wie er eine detaillierte Science-Fiction-Szene eines apokalyptischen Detroit erstellt hat. Hier ein Twitterkanal von sicher vielen, der zeigt, was damit geht.

Ich habe auch damit herumgespielt, und zwar meist (aber nicht nur) mit der quelloffenen Software Stable Diffusion, die man sich mit etwas Aufwand selbst installieren kann, die aber auch von einigen Online-Diensten angeboten wird.

Es gibt dabei erstens das Konzept, aus einer Textbeschreibung ein Bild zu generieren. Aus dieser: „a humanoid alien with four arms and wearing a space helmet with two antennae, holding out a book in one of its hands and standing on a rock, above it, a sign“ werden folgende Bilder:

Hm. Nicht ganz das, was ich wollte. Insbesondere das mit den vier Armen hat so gar nicht geklappt. Mit einer noch detaillierteren Beschreibung wäre ich vielleicht weiter gekommen.

Zweitens gibt es aber das Konzept, aus einer Bildvorlage, einer Skizze, in Kombination mit einer Textbeschreibung ein Bild zu generieren. Ausgangspunkt war, , ohne groß zu überlegen, eine sehr alte Zeichnung von mir, die ich auf der Festplatte hatte:

Und bei dieser Zeichnung bin ich dann halt meist geblieben, aus Starrsinn. Dazu kam eine immer wieder leicht abgewandelte Textbeschreibung, ähnlich zu der oben. Außerdem kann man einstellen, wie ähnlich das neue Bild der Vorlage sein soll.

Heraus kamen folgende Bilder:

Man erkennt leicht die Bilder mit hohem Ähnlichkeitgrad. Sobald ich die Ähnlichkeit halbwegs reduziere, de Regler auf über 0.5 stelle, verschwinden allerdings fast durchgehend zwei der vier Arme. Das will einfach nicht. Es gibt in den Vorlagen, mit denen diese Maschine trainiert wird, vielleicht nicht genügend vierarmige Gestalten – aber zugegeben, man sieht in der Originalzeichnung auch nicht alle vier Arme gleich gut.

Hier noch ein paar weitere:

Ich habe es danach noch mit einer in Paint gezeichneten groben Skizze statt meiner Zeichnung als Vorlage versucht, kein großer Unterschied. So richtig etwas Schönes ist nicht dabei herausgekommen. Es gelang mir nicht, eine schöne Illustration genau nach meinen Vorstellungen zu machen, mit vier Armen – aber gut, ich habe auch wenig Erfahrung mit dem Vokabular, das man für diese Art der Bildbeschreibungen braucht.

Sehr wohl gelang es mir, andere schöne Bilder zu machen, Bilder, bei denen ich kein Ziel vor Augen hatte. Das geht am einfachsten, wenn man sich ein Bild im Stil eines gegebenen Künstlers wünschtz. Beliebt sind da wohl van Gogh, Edward Hopper, Dalí. Schlechte Erfahrungen habe ich gemacht mit Johnny Bruck, Sidney Sime, Boris Vallejo, die sind wohl nicht mehr gängig genug für das Vorlagen-Korpus. Virgil Finlay kennt das System, die Bilder sehen nur nicht besonders aus. Das sieht dann alles etwas so aus:

Ist das Kunst? Ist das moralisch in Ordnung, was hier mit den Bildern der ursprünglichen Künstler passiert?

Es passt zwar nicht ganz hierher, aber hier ist eine Seite, bei der man jeweils entscheiden soll, ob ein Bild eine echte Person zeigt oder künstlich erzeugt ist: https://www.whichfaceisreal.com/ Noch fällt das relativ leicht, finde ich, jedenfalls so in der Gegenüberstellung. Gibt es dann bald auch Seiten „Ist das Kunst oder nicht?“


Beitrag veröffentlicht am

in

Kommentare: 7

Schlagwörter:

Kommentare

7 Antworten zu „Bilder basteln mit Stable Diffusion“

  1. Interessant mal auf jeden Fall!
    Reizt zum Herumprobieren…
    Gruß von Sonja

  2. Mir gefällt Midjourney grundsätzlich besser, die Ergebnise waren jedenfalls näher an dem, was ich mir vorstellte. Teilweise so sehr, dass ich dachte, die KI sitzt in meinem Kopf. Nach anfänglicher Begeisterung setzte bei mir aber eine Abwehr ein. Ein Misstrauen, wer da wem was in die Feder diktiert. Klar, ich komponiere den Text, die Maschine soll mein Pinsel sein. Und doch „fabuliert“ die AI ja frei, ohne Bewusstsein zwar für das, was sie macht, aber doch ja mit antrainierten Ähnlichkeiten. Bin jetzt im Zwiespalt, was ich davon halten soll. Ist es Kunst? In Zukunft wohl ein Arbeitsplatzräuber für Illustratoren und schließlich Fotografen. Anstatt Stockphotos zu nehmen wird man die KI eines machen lassen. Und irgendwann stellt sich nicht nur die Frage nach unserem Kunstbegriff, sondern auch nach dem unserer Realität. (Wenn die nicht mehr nach Airbrush aussehen.)

  3. Mit Midjourney habe ich noch nicht gearbeitet… weil ich mit Discord nicht vertraut bin und mich das Interface abgeschreckt hat. Aber deine Midjourney-Sachen sehen wirklich spektakulär aus.

  4. Danke. Sie sind nicht maximal hochgerechnet, das probiere ich in der nächsten Runde. Bei meinen Versuchen spielt ja die doppelte Verfremdung rein. Der Stil war Fotografie 19. Jahrhundert, Glasnegativ mit den Spuren der Zeit, Kratzern, Verzerrungen, Staub, Kollodium-Rändern usw. Die wirken ja im Original bereits oft fremdartig, außerweltlich. Es ist interessant, was passiert, wenn man nicht möglichst realistische Bilder nachzeichnen lässt, sondern der Maschine mit ihrem Nicht-Bewusstsein sagt, „mal mir einen Traum“. Und dann sehen, was sie „träumt“. Das elektrische Schaf war noch nicht darunter.

  5. Hast du schon mal auf lexica.art geschaut? Dort findet man auch andere prompts und insbesondere funktionierende Beschreibungen bzw. Künstler, mit denen man ggf. weiterarbeiten kann.
    Wie hast du das mit der Bildvorlage hinbekommen? Ich nutze so eine GUI-Version (in Aplha-Status), da ist das vielleicht nicht implementiert.

  6. Lexica.art: Nein, kannte ich noch nicht (man kommt ja nicht mehr hinterher), ist aber toll und zum Lernen enorm hilfreich. Ich habe das Basteln aber schon wieder abgehakt und warte, bis es mir noch einfacher gemacht wird.

    Bildvorlage: Ich nutze die Gradio GUI Version, da ist das implementiert, wird aber separat vom text2img gestartet.

  7. […] Bei der whichfaceisreal.com soll jeweils entschieden werden, ob ein Bild eine echte Person zeigt oder künstlich erzeugt ist (via Lehrerzimmer): […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert