Studierende an der ZHAW produktivieren ChatGPT, Midjourney und Co.

Informatik-Studierende der ZHAW haben in Gruppen im Rahmen des Faches «Artificial Intelligence 2» mithilfe von generativer KI der neusten Generation neue Tech-Demos gebaut. Ziel war es, innerhalb von wenigen Arbeitstagen praktische Erfahrungen mit den verfügbaren Tools zu sammeln und die zugehörige open-source Landschaft kennen zu lernen. Dabei wurde gezeigt, dass mit diesen Technologien bereits mit kleinem Aufwand spannende und äusserst kreative Anwendungen gefunden und erstellt werden können.

Montag, 26. Juni 2023

Dabei besonders hervorgestochen sind die folgenden Demonstratoren:

fAIritale (siehe Abbildung 1) - erstellt kurze Gutenachtgeschichten basierend auf anonymisierten echten Kinderzeichnungen. Für jede Geschichte wird eine Zeichnung mit ein paar Stichworten versehen. Danach wird mit diesem Text und dem Bild-zu-Bild-Modell Stable Diffusion eine ähnlich aussehende, aber anonymisierte Illustration erstellt. Die dazu passende Geschichte wird von GPT-3.5 Turbo über die OpenAI Schnittstelle generiert. Beide Modellanfragen beinhalten Prompt-Engineering, um Resultate zu generieren, die zum Märchenthema passen.

Improving object detection with LLMs (siehe Abbildung 2) – nutzt GPT-3, um die Robustheit von Objektdetektoren zu erhöhen. Dazu wird ein standard Objekt Detektor (YOLOv5) mit Bildern gefüttert, die präpariert sind, um falsche Detektionen zu provozieren (eine sogenannte “PGD Adversarial Attack”). Die Liste der detektierten Objekte wird danach an GPT-3 gesendet mit der Frage, ob alle Detektionen anhand des Kontextes in dieselbe Szenerie passen. So können unpassende Detektionen ermittelt und anschliessend entfernt werden.

Image Freedom: A Machine Learning Approach to generate royalty free Images siehe Abbildung 3) – generiert lizenzfreie Bilder, die ähnlichen Inhalt haben wie ein anderes, potenziell nicht lizenzfreies Bild. Dazu wird zuerst ein Bild -zu -Text -Modell verwendet, um eine detaillierte Beschreibung des Bildes zu erstellen; der resultierende Text wird danach in ein Text-zu-Bild-Modell gefüttert. So wird ein neues, visuell ähnliches Bild erstellt, dass jedoch auch den ursprünglichen Inhalt darstellt. Diese Applikation konnte bequem per Mobiltelefon über einen Telegram-Bot aufgerufen werden.

Zurück