Schon Jahre vor dem ChatGPT-Moment haben wir bei viewneo die Integration von KI in Digital Signage Hard- und Software vorangetrieben. Kameras mit Geschlechtererkennung, um den richtigen Content an die richtige Zielgruppe zu senden, funktionieren mit einem KI-Modell, das darauf trainiert wurde, Männer von Frauen zu unterscheiden und auch noch das Alter zu schätzen. Das, was in den nächsten Jahren auf uns zurollt, ist eine ganz andere Dimension.

Der “ChatGPT-Moment”: Ein Wendepunkt in der Softwarewelt

Der sogenannte “ChatGPT-Moment” begann im November 2022, als OpenAI das erste öffentliche Modell von ChatGPT vorstellte. Diese Veröffentlichung markierte einen Meilenstein in der Entwicklung generativer KI und veränderte nicht nur die Wahrnehmung von Künstlicher Intelligenz, sondern auch deren Anwendung in der Softwarebranche und darüber hinaus.

Der Beginn: Warum der ChatGPT-Moment so besonders ist

Vor ChatGPT gab es bereits beeindruckende Fortschritte im Bereich der Künstlichen Intelligenz, etwa bei maschinellem Lernen, Spracherkennung oder Computer Vision. Doch ChatGPT brachte diese Technologien auf eine neue Ebene, indem es die Fähigkeit demonstrierte, menschenähnliche Konversationen zu führen und kontextbezogene Antworten zu geben. Dies war nicht nur technologisch, sondern auch gesellschaftlich ein Durchbruch:

  • Niedrigschwelliger Zugang: Zum ersten Mal konnten Millionen von Menschen KI direkt in ihrem Alltag ausprobieren – ohne technisches Vorwissen. Die einfache Nutzeroberfläche machte es möglich, dass nicht nur Entwickler, sondern auch Laien KI als Werkzeug einsetzen konnten.
  • Faszination und Neugier: Der ChatGPT-Moment löste eine breite Diskussion aus – über die Möglichkeiten, Risiken und ethischen Fragen, die mit KI einhergehen.

Die Auswirkungen auf Softwarelösungen

Der Einfluss des ChatGPT-Moments auf die Softwareentwicklung und Technologiebranche ist enorm. Auch in der Digital Signage Branche gibt es viel Potenzial, durch die Integration von KI die Möglichkeiten für die Anwender zu erweitern oder Prozesse zu verschlanken.

Dabei verändert KI nicht nur die Prozesse, um eine Software zu entwickeln. Sie gibt Raum für die Entwicklung intelligenter Tools im Content Management, die für den Anwender viel Arbeitszeit einsparen. Sehr viele Prozesse könnten bald komplett autonom ablaufen.

Wenn man nur lange genug darüber nachdenkt und die exponentielle Weiterentwicklung von KI mit berücksichtigt, dann tun sich Welten auf. Die Entwicklung könnte in etwa so verlaufen:

Stufe I

Diese Stufe wurde bereits vor dem großen ChatGPT-Moment erreicht. KI wird für Text- oder  Gesichtserkennung verwendet. Es werden also Kamerabilder analysiert und je nachdem, was erkannt werden soll (z.B. Geschlecht, Alter, ohne Hundebegleitung, trägt schwarzen Hut), wurde ein entsprechendes Model auf Hochleistungsrechnern trainiert. 

Ein Modell ist ein zentraler Begriff in der Künstlichen Intelligenz (KI) und bezeichnet eine mathematische oder algorithmische Struktur, die darauf trainiert wurde, bestimmte Aufgaben basierend auf Daten auszuführen. Es ist das Herzstück jedes KI-Systems und bestimmt dessen Fähigkeit, Informationen zu verarbeiten, Muster zu erkennen und Entscheidungen zu treffen.

Stufe II – Generative Künstliche Intelligenz

Mit ChatGPT kam der Durchbruch der LLM, was für “Large Language Model” (auf Deutsch: Großes Sprachmodell) steht. Es handelt sich um eine spezielle Art von KI-Modellen, die darauf trainiert sind, natürliche Sprache zu verstehen, zu verarbeiten und zu generieren. LLMs sind ein zentraler Bestandteil moderner Künstlicher Intelligenz, insbesondere im Bereich der Generativen KI, wie sie in Anwendungen wie ChatGPT oder anderen Sprachassistenten verwendet wird. Diese LLMs helfen heute den Schülern und Studenten und noch viel mehr Selbstständigen und Angestellten weltweit bei der Ausübung ihrer Pflichten. Denn LLMs haben nicht nur die Sprache gelernt, sondern auch das Wissen, das in all dem Trainingsmaterial steckte, das für das Trainieren der Modelle verwendet wurde. Manchmal glaube ich, dass OpenAI, das Unternehmen, das ChatGPT entwickelte, selbst von den Fähigkeiten Ihres Produktes überrascht wurden.

GPT steht für “Generative Pre-trained Transformer”. Es ist ein spezieller Typ von KI-Modell, das von OpenAI entwickelt wurde, um menschenähnliche Texte zu verstehen und zu generieren. Der Begriff beschreibt die Technologie und das Trainingskonzept hinter diesen Modellen.

Die Stufe II beginnt für mich mit dem Aufkommen der Generativen KI. Wurde zuvor auf Basis eines Bildes entschieden, ob es sich um einen Hund oder eine Katze, Mann oder Frau handelte (Stufe I), so entsteht bei der Generativen KI wirklich etwas Neues. Das Wort “generative” betont, dass das Modell in der Lage ist, neue Inhalte zu erstellen. Anders als reine Analyse- oder Klassifikationsmodelle kann GPT Texte generieren, die auf einer gegebenen Eingabe (Prompt) basieren. Dies ermöglicht:

  • Textgenerierung: Schreiben von Artikeln, Geschichten, Gedichten oder Berichten.
  • Antworten auf Fragen: Generieren von Antworten basierend auf kontextuellen Eingaben.
  • Kreativität: Erstellen von originellen und oft überraschend kreativen Texten.

In viewneo gibt es seit Kurzem eine KI für die Optimierung von Texten. Dieses erleichtert die Arbeit eines Benutzers, insbesondere bei der Erstellung von Inhalten mit Text.

  • Texte kürzen: Man hat einen langen Artikel, dessen Inhalt auf 3 Sätze herunterbrechen werden muss, weil das Digital Signage Template nicht viel Platz hergibt. Ohne KI war das schon mal eine Aufgabe für gut und gerne 20 Minuten. Mindestens. Mithilfe von KI ist das mittlerweile nur noch ein Aufwand von wenigen Sekunden. Solange man der KI das zutraut und sich sogar das Lesen des ursprünglichen Textes erspart. Mittlerweile sind fast alle gängigen Modelle dazu in der Lage. 
  • Texte optimieren: In viewneo schreibt man seinen Text jetzt so: Schnell. Einfache Sätze. Müssen nicht frei von Fehlern sein. Dann Klick auf “Text optimieren” und es werden mit jedem Klick neue Vorschläge generiert. Im Sekundentakt. 
  • Texte generieren: Genauso kann man natürlich mit einem einzigen Prompt (einer Texteingabe, Befehlszeile) und in klarem, einfachen Deutsch schreiben, was man benötigt:
    “Ein kleiner Text mit weniger als 500 Zeichen, bestehend aus Titel und Textblock, der über eine der größten Errungenschaften der Menschheit im 19. Jahrhundert informiert. Journalistischer Stil wie der einer Tageszeitung.”
    In wenigen Sekunden erstellt die KI einen fertigen Text. Die KI hat sich bereits entschieden, was denn ihrer Meinung nach die Errungenschaft des Jahrhunderts war und Fakten darüber. Man kann ChatGPT sogar fragen, warum es sich denn so entschieden hat und bekommt auch Antwort. Man selbst hat nicht oder nur wenig recherchiert, musste keine Entscheidung treffen und das Ergebnis ist OK bis gut, frei von Tippfehlern und grammatikalisch korrekt. Die Fakten im Text bitte noch einmal mit Google validieren und schließlich hier und da eventuell den Text umschreiben, bis man das hat, was man möchte. Mit kleiner, menschlicher Note.

Bilder generieren

Gerade für das Erstellen von Inhalten sind LLMs eine enorme Arbeitszeitersparnis. Aber es geht noch mehr. Wer an KI denkt, der denkt heute auch an die vielen Bilder und Videos, die per einfachen Texteingabe erstellt werden können. Der Papst im weißen Daunenmantel, sie wissen schon. Midjourney zum Beispiel, ist eine KI-basierte Plattform, die mithilfe von Texteingaben beeindruckende und individuelle Bilder generiert. Als ich die ersten “Fotos” generierte, war ich geflasht von den Ergebnissen.

Ein Bild generiert auf der Plattform Midjourney.

Der Prompt, also die Textzeile, die ich verwendete, um dieses Bild zu erzeugen, war folgender:

“Gourmet Burger-Restaurant mit hochwertigen Materialien, eleganten Dekorationen und einer gehobenen Atmosphäre.”

Das war’s. Wenige Sekunden Arbeit. Daraus kam ein Bild, welches besser ausschaut, als vieles, was ich in heutigen Menükarten vorfinde. Wollte man das Bild erstellen, welcher Auswand steckte wohl dahinter? Vor allem, wenn man echte Food-Fotografie im Studio per KI simuliert. Im Studio fotografiert und mit Photoshop nachgearbeitet, gut und gerne einen ganzen Tag. Was das kostet!!


Aber selbst wenn ich die Aufwende und die Kosten (Lizenzen) von Content-Marktplätze für Stock-Material wie Shutterstock, Adobe Stock oder Pixabay (kostenfrei) vergleiche, so bin ich mit KI heute zumeist schneller am Ziel. Bleibt abzuwarten, wie sich diese Portale in den nächsten Jahren schlagen werden, mit einem Konkurrenten, der jeden Tag besser wird, aber 100-mal billiger. Auch Stufe II ist längst in der Digital Signage Branche angekommen.

Stufe III – Ära der Agenten

Hier wird’s wild. Denn die sogenannten AI-Agents können den Menschen im Prozess der Content-Erstellung für Digital Signage Systeme komplett ersetzen. Aber was sind sie und wie arbeiten sie?

AI Agents (deutsch: KI-Agenten) sind autonome Software-Programme, die mithilfe von Künstlicher Intelligenz eigenständig Aufgaben ausführen können. Sie interagieren mit ihrer Umgebung, treffen Entscheidungen basierend auf erhaltenen Daten und Zielen und passen ihr Verhalten dynamisch an, um diese Ziele zu erreichen. Man kann nicht nur Agenten für seine Zwecke einsetzen, sondern einen ganzen Schwarm für sich arbeiten lassen, sogenannte Agent Swarms.

Agent Swarms sind Gruppen von autonomen KI-Agenten, die miteinander kooperieren und durch Schwarmintelligenz (engl. Swarm Intelligence) kollektive Aufgaben lösen. Jeder Agent agiert unabhängig, folgt aber einfachen lokalen Regeln, die von der Gruppe koordiniert werden. Dadurch entsteht ein emergentes Verhalten, das die Gruppe als Ganzes in die Lage versetzt, komplexe Probleme zu bewältigen.

Was sind das für komplexe Probleme, die sie lösen können? Nun, schauen wir uns an, was für den Betrieb eines Digital Signage Netzwerkes in Bezug auf die Content-Erstellung notwendig ist. Ein Redakteur muss Inhalte für gewisse Inhaltssparten (z.B. Unternehmensnachrichten für die interne Kommunikation) erzeugen. Dafür muss er mögliche Nachrichten oder Themen auswählen, die seiner Ansicht nach relevant genug sind, publiziert zu werden. Dann muss er recherchieren, E-Mails schreiben und Antworten abwarten, um Information zusammenzutragen, im Internet suchen oder mit dem Betriebsrat Rücksprache halten, welche Themen dieser gerade auf Lager hat. Danach Texte schreiben, Bilder auswählen oder erstellen. All das wird in Zukunft autonom passieren.

Der Arbeitsablauf der Agenten

1. Themenrecherche und -auswahl

Einer der ersten Schritte in der Redaktion ist die Identifikation relevanter Themen. In einem Agent Swarm könnte dies folgendermaßen funktionieren:

  • Agenten für Trendanalyse: Einige spezialisierte Agenten durchforsten soziale Medien, Nachrichtenportale und Foren, um aktuelle Trends und Diskussionen zu erkennen. Sie analysieren Hashtags, Google-Suchanfragen oder virale Inhalte und melden potenziell interessante Themen an den Schwarm.
  • Agenten für Zielgruppenanalyse: Parallel dazu analysieren andere Agenten die Präferenzen der Zielgruppe anhand von Daten wie Leserverhalten oder Feedback auf frühere Artikel. Diese Agenten priorisieren Themen, die für die Leserschaft besonders relevant sind.
  • Koordination im Schwarm: Ein koordinierender Agent bündelt die Vorschläge, bewertet sie nach Relevanz und Dringlichkeit und erstellt eine Themenliste für die Redaktion.

2. Recherche und Informationssammlung

Nachdem ein Thema festgelegt wurde, übernehmen spezialisierte Agenten die Recherche:

  • Datenagenten: Diese Agenten extrahieren Fakten, Statistiken und Hintergrundinformationen aus zuverlässigen Quellen wie wissenschaftlichen Publikationen, offiziellen Berichten oder Datenbanken.
  • Quellenverifizierungs-Agenten: Ein weiterer Schwarmteil prüft die Vertrauenswürdigkeit der Quellen und bewertet die Daten auf Genauigkeit, Aktualität und Seriosität.
  • Sprach- und Kontextanalyse-Agenten: Um ein tiefgehendes Verständnis zu ermöglichen, analysieren Agenten den Kontext und filtern widersprüchliche Informationen heraus. So wird sichergestellt, dass der Artikel fundiert ist.

3. Textgenerierung

Die eigentliche Schreibarbeit kann ebenfalls von einem Agent Swarm übernommen werden:

  • Strukturierungs-Agenten: Diese Agenten entwickeln auf Basis der recherchierten Informationen eine logische Gliederung für den Artikel. Sie erstellen eine Einleitung, Absätze mit Kernaussagen und ein Fazit.
  • Schreibagenten: Spezialisierte Schreibagenten generieren den Text in verschiedenen Stilrichtungen (z. B. sachlich, journalistisch, erzählerisch) und passen sich an die Zielgruppe an.
  • Ton- und Stilagenten: Diese Agenten stellen sicher, dass der Ton des Textes konsistent ist und zur Marke oder zum Medium passt.

4. Lektorat und Qualitätsprüfung

Vor der Veröffentlichung durchläuft der Text mehrere Prüfungen, die ebenfalls von Agenten ausgeführt werden können:

  • Grammatik- und Rechtschreibagenten: Diese Agenten prüfen den Text auf sprachliche Fehler und korrigieren sie automatisch.
  • Plagiatsagenten: Sie überprüfen, ob der Text keine unerlaubten Kopien enthält und gewährleisten Originalität.
  • Faktencheck-Agenten: Sie validieren die im Text enthaltenen Aussagen, indem sie diese mit zuverlässigen Quellen abgleichen.

5. Content-Optimierung

Bevor der Artikel veröffentlicht wird, optimieren andere Agenten den Content für maximale Reichweite und Sichtbarkeit:

  • SEO-Agenten: Diese Agenten analysieren Keywords und passen den Text so an, dass er für Suchmaschinen optimiert ist.
  • Multimedia-Agenten: Sie fügen passende Bilder, Videos oder Infografiken hinzu, um den Artikel ansprechender zu gestalten.
  • Formatierungs-Agenten: Der Text wird so aufbereitet, dass er auf verschiedenen Plattformen (Web, Mobile, Print) optimal dargestellt wird.

6. Veröffentlichung und Verbreitung

Nach der finalen Prüfung kümmern sich spezialisierte Agenten um die Veröffentlichung und Promotion:

  • Publikationsagenten: Diese Agenten laden den Artikel auf die Website, planen Social-Media-Posts oder erstellen Newsletter, um den Content zu verbreiten.
  • Engagement-Agenten: Sie überwachen, wie der Artikel bei der Zielgruppe ankommt, indem sie Kommentare, Klickzahlen und Shares analysieren.
  • Feedback-Analyse-Agenten: Basierend auf dem Leserfeedback werden Vorschläge für zukünftige Artikel gemacht, die wieder in den Themenfindungsprozess einfließen.

Das Gleiche gilt für die Erstellung von Templates, das Anlegen und das Verwalten von Medieninhalten. Selbst für die Planung eines Digital Signage Netzwerkes und die Auswahl der richtigen Standorte für Monitore oder LED Walls können und werden derartige KI Agenten im Einsatz sein.

Noch ist es ein kleiner Weg dorthin, aber alles, was ich oben beschrieben habe, gibt es bereits. Manchmal noch mit kleinen Haken und Ösen. Man denke an die ersten KI-Bilder, die erzeugt wurden. Erst ein paar Jahre her, aber dennoch lassen sich die ersten generierten Bilder und Videos nicht mit denen heutiger Generation von KI-Modellen vergleichen. Die Entwicklung ist exponentiell. Das ist für manche schwer zu erfassen.

Vision: Anstelle von einer Software wie heutzutage üblich, hat man eine Oberfläche, bei der Agenten angesprochen werden können. Wirklich “ansprechen”. Denen kann man erzählen, was man haben möchte. Die KI stellt noch ein paar Fragen zu ihrem Job, wiederholt das verstandene und beginnt dann mit der Arbeit. So werden viele Lösungen aussehen, die heute noch eine klassische Software darstellt. Morgen gibt man nur noch Anweisungen an eine KI und die läuft dann autark wie heute ein Mitarbeiter. Also keine Prompts erstellen, um jeden einzelnen Tasks an die KI zu übergeben. Ich rede nur noch mit meinem Top-Manager-Agenten, und der leitet alles andere in die Wege.

Habe ich diesen Text selber geschrieben? Ja, aber mit der fleißigen Unterstützung von ChatGPT. Natürlich!

Manfred Lüdtke ist die treibende Kraft hinter den bahnbrechenden Digital-Signage-Lösungen von viewneo. Mit jahrzehntelanger Erfahrung in der digitalen Transformation verfolgt Manfred die Mission, modernste Technologien für Unternehmen jeder Größe zugänglich zu machen.

Author