Wie funktioniert die Generierung (txt2image) der Bilder über KI?

1 Antwort

Vom Beitragsersteller als hilfreich ausgezeichnet

20.11.2024, 00:37

Statistik und lineare Algebra.

in etwa so (Bildquelle: https://github.com/CompVis/latent-diffusion | MIT Lizenz):

Bild zum Beitrag

Das Paper dazu ist frei auf arXiv verfügbar: https://arxiv.org/abs/2112.10752

Vereinfacht gesagt, wird das Modell trainiert, in kleinen Schritten Rauschen aus Bildern mit zugehörigem Text zu entfernen. Dazu kommt etwas magische Soße (dasselbe, was uns ChatGPT gebracht hat: https://arxiv.org/abs/1706.03762), welche den Generationsprozess in die "richtige" Richtung steuert und essenziell ein sehr effizienter Weg ist, Informationen zu verarbeiten. Wenn nun Text und zufällige Pixel (Rauschen) gegeben werden, kann das Modell aus dem, was es beim Training gelernt hat, ein ansehnliches Bild generieren.

Dass es funktioniert, ist ein glücklicher Zufall und damit verbunden, wie viel Rechenleistung (und Arbeitsspeicher) wir nun haben.

Wie funktioniert die Generierung (txt2image) der Bilder über KI?

1 Antwort

KI zur Generierung für Software-Sourcecode?

Gibt es eine "offene" KI?

Wenn KI`s ein Bewusstsein entwickeln, wird es dann böse und gute KI`s geben?

Was kann Deepseek?

Gute KI welche auch komplexe Rechenaufgaben lösen kann, bzw. erklären kann?

KI im Krieg?

Wie kann ich mit KI Bilder modifizieren?

Macht euch KI auch Angst?

Ki künstliche Intelligenz?

Wie ist der Name von diesem KI Tool?

Literatur zum Thema KI?

Ki wird das nächste große Ding - oder das Letzte?

Wie verändert KI die Arbeitswelt?

Kann KI sich replizieren?