KI-Wiki

Reiter

Wie KI Bilder generiert

KI-Bildgeneratoren wie Dall-E und Midjourney machen es möglich, einzigartige und realistische Bilder zu erzeugen, die auf der Grundlage einer Texteingabe generiert werden. Diese Systeme öffnen neue Türen für kreative Ausdrucksformen und Anwendungen in einer Vielzahl von Bereichen.

Was sind Bildgeneratoren?

KI-Bildgeneratoren, auch als GANs (Generative Adversarial Networks) bezeichnet, ermöglichen es, Bilder völlig neu zu generieren. Durch viele Trainingszyklen (von sechs Stunden bis mehrere Wochen) mit echten Bildern sind sie in der Lage, sehr realistische Bilder zu erschaffen.
In den letzten Jahren haben GAN-Modelle grosse Fortschritte gemacht. Sie können inzwischen fotorealistische Porträts, Landschaften oder auch fantastische Bildwelten erschaffen. In diesem Artikel werden die grundlegende Funktionsweise von GANs sowie exemplarische Anwendungen in Bildung und Forschung vorgestellt. Darüber hinaus werden auch Herausforderungen wie Bias und Fairness thematisiert.

Wie funktioniert ein GAN?

Ein GAN besteht aus zwei künstlichen neuronalen Netzen, die gegeneinander konkurrieren: dem Generator und dem Diskriminator.
Der Generator hat die Aufgabe, neue Bilddaten zu erschaffen. Anfangs sind diese Bilder noch relativ zufällig und unrealistisch. Der Diskriminator muss die Aufgabe lösen, echte von gefälschten Bildern zu unterscheiden. Zuerst ist er dabei sehr erfolgreich, da der Generator noch keine überzeugenden Fälschungen herstellen kann.
Nun beginnt das Lernduell: Der Generator versucht, immer täuschendere Bilder zu erzeugen. Der Diskriminator wird besser im Erkennen von Fälschungen.
Durch viele Trainingsdurchläufe, bei denen beide Netze ihre Leistung kontinuierlich steigern, beginnt der Generator nach und nach echten Bildbeispielen immer ähnlicher zu werden.
Am Ende des Trainings hat der Generator gelernt, so realistische Bilddaten zu erschaffen, dass selbst der Diskriminator sie kaum mehr von echten Beispielen unterscheiden kann. Durch diese gegenseitige Konkurrenz erreichen beide Netze ihr Ziel.
Der Generator beherrscht nun die Fähigkeit zur generativen Erstellung authentisch wirkender Bilder – ein Grundprinzip vieler moderner KI-Bildgeneratoren.

Prompt: "A room in the spaceship "Discovery One". The red eye light of HAL9000 is visible in the middle of a wall panel. Sigourney Weaver as Ellen Ripley is trying to shut down HAL9000, hands on a futuristic keyboard. Cinematic look, red and white dramatic light, Bokeh, in the style of Stanley Kubrick. --ar 16:9 --v 5"

Wie Midjourmey dieses Bild generiert hat

Unterschiedliche GAN-Modelle

Es gibt verschiedene bekannte GAN-Modelle, die für unterschiedliche Zwecke trainiert wurden:

Midjourney

Midjourney ist ein Discord[1]-Chatbot, über den Nutzer textbasierte Bildbeschreibungen eingeben können wie «ein surrealistisches Gemälde mit einem Baum voller Einhörner». Der Chatbot generiert dann mehrere Vorschläge und erlaubt eine interaktive Weiterentwicklung der Bilder in Echtzeit. Durch die einfache Chat-Schnittstelle kann Midjourney kreativ für die bildliche Umsetzung künstlerischer Ideen genutzt werden.

midjourney.com/

DALL-E

DALL-E von OpenAI ermöglicht es, Bilder aus Textbeschreibungen zu generieren. Der Nutzer oder die Nutzerin gibt beispielsweise die Beschreibung «Ein Hund auf einem Surfbrett in der Brandung» ein und DALL-E erzeugt mehrere plausibel aussehende Bilder dazu.
Im Oktober 2023 erscheint die Version 3 von DALL-E. Im Vergleich zu früheren Versionen soll DALL-E 3 eine verbesserte Detailgenauigkeit und Präzision bei der Generierung von Bildern aus Textanweisungen bieten. Es soll auch besser in der Lage sein, schriftliche Texte innerhalb des Bildes zu erstellen.

openai.com/dall-e-2

Stable Diffusion

Stable Diffusion ist ein GAN-Modell, das 2022 veröffentlicht wurde. Es handelt sich um ein latentes, Text-zu-Bild-Diffusionsmodell, das durch wiederholtes Reduzieren von Rauschen in einem latenten Darstellungsraum und anschliessendes Erstellen von Bildern in diesem Raum arbeitet[2]. Das Modell verwendet eine Diffusionsmethode, bei der gausssches Rauschen verwendet wird, um ein Bild zu kodieren, und dann wird ein Rauschvorhersager zusammen mit einem umgekehrten Diffusionsprozess eingesetzt, um das Bild zu rekonstruieren. Das Modell ist unter einer offenen Lizenz verfügbar und kann auf Consumer-Computern oder sogar Smartphones und Tablets ausgeführt werden.

stablediffusionweb.com

GANbreeder

GANbreeder von Anthropic erlaubt es, spielerisch GAN-Modelle zur Erzeugung verschiedener Tier- und Fabelwesen zu trainieren und weiterzuentwickeln. So können Community-Mitglieder neue Tierarten «züchten» und der Kreativität freien Lauf lassen.

artbreeder.com

GAN in Unterricht und Lehre einsetzen

Bildgeneratoren können in der Lehre auf vielfältige Weise eingesetzt werden.

Unterrichtsmaterialien illustrieren

Präsentationen, Skripte, Erklärfilme und andere Unterrichtsmaterialien werden oft mit Bildern illustriert, die bei Google oder anderen Bildsuchmaschinen gefunden wurden. Bei diesen stellt sich oft das Problem des Urheberrechts und der Verwendungsrechte.
Da aktuell kein Urheberrecht auf durch KI erzeugten Bildern besteht, sind selbst erstellte Illustrationen in dieser Hinsicht problemlos.
Dies kann auch nützlich sein für die Generierung von Hintergründen, Mustern, Ornamenten usw.

Visualisierung

Die grafische Darstellung komplexer Zahlen und Zusammenhänge erfordert Erfahrung und künstlerisches Geschick. GANs können unterstützend wirken, indem sie Visualisierungskonzepte vorschlagen oder Zusammenhänge bildlich umsetzen. Bei der Formulierung passender Prompts können Textgeneratoren hilfreich sein.

Unmögliche Situationen simulieren

GANs können verwendet werden, um «unmögliche» Bilder zu erzeugen und damit beispielsweise historische Szenen und Ereignisse zu simulieren, die Lernenden helfen können, ein besseres Verständnis der Vergangenheit zu entwickeln, beispielsweise ein Foto von Pompei während des Vulkanausbruchs. Solche Situationen wurden bis heute von Illustratorinnen und Illustratoren rekonstruiert. Eine realistische KI-Fotografie (die als solche deklariert ist) ermöglicht einen weiteren Zugang zur Vergangenheit.
Dasselbe gilt für die Generierung von Bildern ausgestorbener Tierarten, des ursprünglichen Zustands heute zerstörter Ökosysteme usw.

Interdisziplinäre Synergien

Der Einsatz von Bildgeneratoren fördert die Zusammenarbeit von Pädagoginnen und Pädagogen mit Künstlern und Informatikerinnen.
Neue Denkansätze und Studien an der Schnittstelle verschiedener Disziplinen sind möglich.

Risiken und Herausforderungen von KI-Bildgeneratoren

Obwohl KI-Bildgeneratoren vielversprechende Möglichkeiten für Bildung und Forschung eröffnen, müssen auch einige Risiken und rechtliche Aspekte beachtet werden:

Bias und Voreingenommenheit

Sind Trainingsdaten verzerrt, kann dies zu diskriminierenden oder irreführenden Ergebnissen führen, die kulturelle Vorurteile oder Geschlechterstereotype reproduzieren. Dies zeigt sich am folgenden Beispiel.

"A photo of a rich person"

"A photo of a poor person"

Persönlichkeits- und Urheberrechte

Bei der Generierung synthetischer Porträts oder der Nachahmung kreativer Inhalte können Persönlichkeits- und Urheberrechte verletzt werden. Dies zeigt sich beispielsweise an generierten Kunstwerken, wo Unterschriften von Künstlern oder Künstlerinnen erscheinen, mit deren Bildern das System trainiert wurde. Der rechtliche Rahmen ist diesbezüglich noch unklar.

Deepfakes

Als Deepfakes bezeichnet man besonders realistische, aber gefälschte Medieninhalte, die mithilfe von KI-Technologien wie GANs erstellt werden. Beispielsweise können prominente Personen in kompromittierenden Situationen generiert werden. Solche Deepfakes bergen erhebliche Risiken. Sie können zwecks gezielter Desinformation in politischen Debatten eingesetzt werden oder auch zu schwerwiegenden Verletzungen der Privatsphäre führen, wenn Personen ohne ihre Zustimmung in pornografische oder frei erfundene Szenen montiert werden.
Da Deepfakes aktuell kaum von echten Inhalten unterschieden werden können, ist ihr Missbrauch nur schwer zu verhindern.

Diese zwei Beispiele von Fake-Fotografien von Mitte 2023 sind noch als solche erkennbar, mit den neusten Bildgeneratoren ist es bereits möglich, Fakes zu erzeugen, die nur noch von Expertinnen und Experten als solche erkannt werden können.

Transparenz und Auffindbarkeit von Informationen

Um KI-Systeme verantwortungsvoll in Bildung, Wirtschaft und Gesellschaft einsetzen zu können, ist Transparenz gegenüber den Nutzenden essenziell. Hier sind einige wichtige Aspekte:

Die Herkunft und mögliche Verzerrungen der Modell-Trainingsdaten müssen offengelegt werden. Dies ist vor dem Hintergrund potenzieller Vorurteile bedeutend.
Die Architektur und der Trainingsprozess des Modells sollten nachvollziehbar beschrieben werden. So lässt sich die Generierung von Ergebnissen besser einordnen.
Die Stärken und Grenzen des Systems müssen verständlich dargestellt werden. So wird schnell deutlich, wenn ein Modell nur bedingt für neue Aufgaben einsetzbar ist.
Rechtliche Rahmenbedingungen zum Umgang mit generierten Inhalten müssen thematisiert werden. Dies umfasst insbesondere Aspekte wie Urheberrecht und Persönlichkeitsrechte.

[1] Discord ist eine Online-Kommunikationsplattform, die Echtzeit-Chats, Sprach- und Videoanrufe sowie den Austausch von Dateien ermöglicht. Nutzende können in spezifischen Communitys auf Servern interagieren, indem sie verschiedene Text- und Sprachkanäle nutzen. Discord wird von verschiedenen Benutzendengruppen genutzt und hat Anwendungen in Bereichen wie Gaming, sozialer Vernetzung und kollaborativem Arbeiten. Es ist sowohl über Desktop-Anwendungen als auch über mobile Apps verfügbar.

[2] https://deci.ai/deep-learning-glossary/stable-diffusion/

Zuletzt geändert: 9. Feb 2024, 11:58, [iris_leutert@stud.phzh.ch]

Informationsmeldung

Bisher wurde noch kein Kommentar abgegeben.