Das Universum® Bremen hat mich kürzlich gefragt, ob ich nicht Lust hätte, für den Podcast „KI, was geht?“ ein paar Fragen zu beantworten. Sie fragen auch, ob ich mir vorstellen könnte, die Stadtmusikanten einmal vor dem Science Center zu inszenieren.
"Ja" und "Ja"! 😄
Wie das Bild entstanden ist, möchte ich hier gerne etwas genauer beschreiben.
Im Podcast sage ich, dass Jede und Jeder mit KI ein Bild generieren kann, z. B. mit ChatGPT. Einfach Text eingeben, "Erstelle ein Bild von einem Hund" und Enter drücken. Aber um ein sehr gezieltes Motiv zu erstellen, braucht man fundierte Kenntnisse, Erfahrung und manchmal auch mehrere Tools.
Die Bildidee war bereits vorgegeben "Stadtmusikanten vor dem Universum", aber wie setze ich das um? Fotorealistisch? Futuristisch? Illustrativ? Comic? In der ersten Phase eines neuen Motivs probiere ich zunächst viel aus. Schließlich habe ich mich für einen Stil entschieden, der sich gut und konsistent prompten lässt und die Farben aus dem Logo des Universums aufgreift.
Jetzt folgt viel Fleißarbeit. Ein Motiv wie dieses lässt sich nicht als Ganzes Prompten. Die Szene ist zu komplex, damit sind die Bildgeneratoren wie Midjourney überfordert. Also prompte ich alle Bildelemente einzeln und füge sie schließlich mit Photoshop zu einer Collage zusammen.
Das mache ich so lange, bis ich alle Einzelteile zusammen haben, die auch perspektivisch zueinander passen. Dabei habe ich parallel einen Photoshop-Datei offen, in der ich ein neues Motiv grob vormontiere, um zu sehen, wie sich die Bildteile zusammenfügen.
Nun folgt wieder Fleißarbeit. Das Freistellen der Tiere übernimmt zum Glück inzwischen auch die KI in Photoshop, das spart sehr sehr viele Arbeitsstunden! Mit den KI-Funktionen in Photoshop kann ich auch Lücken füllen sowie unsaubere Übergänge zwischen den Motiven ausbessern. Auch dafür würde ich manuell noch sehr sehr viel länger brauchen.
Weil in meine Bilder so viel manuelle Arbeit fließt und ich die einzelnen, jeweils nicht urheberrechtlich geschützten Bilder zu einem neuen Werk arrangiere, entsteht ein am Ende ein urheberrechtlich geschütztes Motiv.
Mit einem Upscaler habe ich die Qualität des finalen Bildes mit KI-Unterstützung verbessert. Dabei werden je nach Einstellung auch noch Details verfeinert. Man sieht es in diesem Beispiel, wenn man die Gesichter der Tiere im fertigen Motiv mit den Ausgangsbildern vergleicht. Sie sind etwas ausdrucksstärker und haben mehr Details.
Im Ergebnis erhalte ich eine Qualität, die sich für den Druck eines Posters eignet.
Eigentlich wäre mein Job jetzt erledigt gewesen, aber ich experimentiere zur Zeit auch viel mit "Image to Video"-Animationen und dachte, es wäre bestimmt entzückend, wenn die forschenden Stadtmusikanten sich bewegen und agieren würden. Dazu habe ich das Bild bei KlingAI hochgeladen und mit einem Textprompt animiert. Bereits nach wenigen Versuchen hatte ich ein gutes Ergebnis.
Von dem Video erzeugte ich noch eine rückwärts laufende Kopie und fügte beide Teile zusammen. So habe ich die Länge von 10 auf 20 Sekunden verlängert. Aber ich fand, dass noch etwas fehlt. Also lud ich dass Video in PowerPoint und setzte dort noch animierte Details ein: Blinkende Effekte, die Laserstrahlen des Messgeräts der Katze und die Denkblase des Hahns.
Durch die vielen kleinen Einzelanimationen wurde es irgendwann unübersichtlich, also exportierte ich das Video mit einem ersten Schwung Animationen als mp4, lud dieses wieder in PowerPoint und setzte dann weitere Animationen drauf.
Abgerundet wird das Video mit einem Sound, den ich in einer freien Datenbank (pixabay) gefunden habe. Sounds kann man natürlich auch längst mit KI generieren, aber hier fehlen mir im wahrsten Sinne oft die Worte bzw. das Vokabular, um einen Sound so zu beschreiben, wie ich ihn mir vorstelle.
Oft weiß ich erst, welchen Sound ich gesucht habe, wenn ich ihn dann gefunden habe.
Wo begegnet uns Künstliche Intelligenz bereits im Alltag? Wie stehen Menschen verschiedenen Alters und Hintergründe dazu? Welche Chancen und Risiken bringt KI mit sich? Marco Mellinger aus dem Bremer Science Center Universum® geht diesen Fragen auf den Grund.
Im erzählerischen Stil eines Hörspiels und mit dem Informationsgehalt eines Podcasts geht Marco in jeder Episode raus aus der Sonderausstellung ‚KI, was geht?‘ auf die Suche nach Menschen, die sich mit der Schlüsseltechnologie beschäftigen.
In Folge 3 hat er auch mir einige Fragen gestellt. Hört mal rein!
Die Folge "Ein Bild sagt mehr als tausend Prompts" findet ihr überall, wo es Podcasts gibt.
Bitte beachtet die Bild- und Nutzungsrechte.