Wie funktioniert die Generierung (txt2image) der Bilder über KI?
1 Antwort
Statistik und lineare Algebra.
in etwa so (Bildquelle: https://github.com/CompVis/latent-diffusion | MIT Lizenz):
Das Paper dazu ist frei auf arXiv verfügbar: https://arxiv.org/abs/2112.10752
Vereinfacht gesagt, wird das Modell trainiert, in kleinen Schritten Rauschen aus Bildern mit zugehörigem Text zu entfernen. Dazu kommt etwas magische Soße (dasselbe, was uns ChatGPT gebracht hat: https://arxiv.org/abs/1706.03762), welche den Generationsprozess in die "richtige" Richtung steuert und essenziell ein sehr effizienter Weg ist, Informationen zu verarbeiten. Wenn nun Text und zufällige Pixel (Rauschen) gegeben werden, kann das Modell aus dem, was es beim Training gelernt hat, ein ansehnliches Bild generieren.
Dass es funktioniert, ist ein glücklicher Zufall und damit verbunden, wie viel Rechenleistung (und Arbeitsspeicher) wir nun haben.
