KI-Zusammenfassung von Unterrichtslektionen ohne Internetverbindung und KI-Abo

Kevin Bieber & Fabian Graf
28. Mai
5 Min. Lesezeit

KI-Hilfsmittel werden aktuell im Hochschulalltag vielfältig eingesetzt. Eine Anwendungsmöglichkeit ist beispielsweise die Zusammenfassung von Unterricht mit Hilfe einer KI-Lösung. Dies kann besonders da interessant sein, wo wegen dem Datenschutz keine Videoaufnahmen des Unterrichts gemacht werden kann, man aber auf anderem Weg ein Hilfsmittel zur Verfügung stellen möchte. Für eine KI-Zusammenfassung ist in der Regel ein aktives KI-Abonnement und eine Internetverbindung notwendig. Zusätzlich hat man wenige Kontrolle darüber, welche Inhalte schlussendlich in der Zusammenfassung vorhanden sind.

Dieses kleine Projekt hat erforscht, ob und mit welcher Qualität eine eigene Lösung erstellt werden kann, für welche kein KI-Abonnement und keine aktive Internetverbindung notwendig ist und man zusätzlich mehr Kontrolle hat.

Voraussetzungen

Für Anwender:innen der Lösung sind keine speziellen Voraussetzungen notwendig. Wenn jedoch selbst eine solche Lösung umgesetzt werden soll, sind gewisse Programmierkenntnisse und entsprechende Hardware notwendig (z.B. Nvidia Jetson Orin Nano Super).

Eckdaten

Fachgebiet	Künstliche Intelligenz (KI) Einsatz in verschiedenen Fachgebieten möglich
Lehrformat	Kann in jeglichen Lehrformaten umgesetzt werden.
Zielgruppe	Lehrpersonen und Studierende
Gruppengrösse	Lediglich durch das Mikrofon eingeschränkt. Bei Diskussionen in grossen Räumen werden die Stimmen von Personen die weit entfernt sind wahrscheinlich nicht gut erkannt.
Verwendete Tools	Jetson Orin Nano Super Mikrofon im Unterricht Google Gemini / Antigravity

Lernziele

Die Lehrpersonen oder Studierenden wissen, mit welchen Einschränkungen eine lokale Transkription von Unterrichtslektionen möglich ist.

KI-Kompetenzrahmen

Dieser Use Case zahlt in die folgenden Dimensionen des St.Galler KI-Kompetenzrahmens ein:

Ablauf

Zu Beginn dieses Projekts musste erst eine Lösung entwickelt werden, welche eine lokale Aufnahme und KI-Verarbeitung von Unterricht erlaubt. Für die Umsetzung wurden ein Nvidia Jetson Orin Nano Super 8GB, ein Jabra Konferenzlautsprecher oder drahtloses Mikrofon, sowie Google Gemini / Antigravity für die Programmierung genutzt.

Jetson Orin Nano Super: Mini-Computer, der im Verhältnis zur Grösse, den Anschaffungskosten (ca. 250 CHF) und dem Strombedarf die Spracherkennung und ein lokale KI-Modell besonders schnell ausführen kann.
Mikrofon: Beliebige Lösung, um die Stimme der Dozierenden und die Wortmeldungen der Studierenden bei Diskussionen aufzunehmen.
Google Gemini / Antigravity: Möglichkeit, um mit eingeschränkten Programmierkenntnissen ein laufendes Programm mit den gewünschten Funktionen und einer Benutzeroberfläche zu erstellen.

Mithilfe der KI-Entwicklungsumgebung von Google (Antigravity) wurde ein Python-Programm mit einer grafischen Benutzeroberfläche erstellt, welche folgende Funktionalitäten bietet:

Transkription: Über ein Mikrofon kann die Stimme erkannt werden und in geschriebenen Text umgewandelt werden. Alternativ kann auch ein Audiofile hochgeladen und direkt verarbeitet werden.
Zusammenfassung: Anschliessend kann aus dem Text eine Zusammenfassung erstellt werden, welche den Unterricht sehr kompakt zusammenfasst.
Erstellen eines Mindmaps: Falls gewünscht, kann vom Inhalt noch eine Mindmap erstellt werden.

Das Programm wurde zuerst mit frei verfügbaren Testdaten aus dem Internet (Aufnahmen von Vorlesungen) getestet und iterativ weiterentwickelt. Bei auftretenden Fehlern wurde die KI gebeten, diese zu korrigieren. Hilfreiche neue Funktionen wurden nach und nach hinzugefügt. Beispielsweise wurde die Möglichkeit hinzugefügt, die aktuelle Verarbeitung abzubrechen oder auszuwählen, ob man vom Mindmap nur ein PDF oder auch eine Bilddatei haben möchte. Die finale Benutzeroberfläche sieht folgendermassen aus:

Zur Einrichtung im Unterricht wird das Gerät kurz an den Beamer angeschlossen oder der dazugehörige kleine Touchscreen genutzt, um alle Einstellungen vorzunehmen. Zu Beginn müssen zwei Entscheidungen getroffen werden:

Texterkennungsmodell: Hier können verschiedene Modelle ausprobiert werden. Es gibt Modelle, welche sehr schnell sind, aber in der Erkennung möglicherweise mehr Fehler machen. Es soll bewusst ein Kompromiss gefunden werden zwischen Fehlererkennungsrate und Geschwindigkeit.Meine Empfehlung: whisper turbo
KI-Sprachmodell für die Zusammenfassung: Hier können unterschiedliche Sprachmodelle für die Zusammenfassung ausgewählt werden. Auch hier stellt sich die Frage nach dem Wunsch nach höherer Geschwindigkeit oder eher höherer Qualität.Meine Empfehlung: Gemma 4 4B

Anschliessend wird der Unterricht aufgenommen und nach jeweils einer Unterrichtseinheit zusammengefasst. Für eine Unterrichtseinheit von 45 Minuten wird die Transkription «Live» durchgeführt und die Zusammenfassung dauert anschliessend ca. 4-5 Minuten. Die zusätzliche Generierung eines Mindmaps dauert dann nochmals 4-5 Minuten. Eine Pause reicht also meist knapp aus, um die Verarbeitung abzuschliessen und mit der neuen Unterrichtseinheit fortzufahren.

Aufgrund des eingeschränkten verfügbaren Arbeitspeichers (8GB) ist das «Arbeitsgedächtnis» der lokalen KI eingeschränkt. Schon eine Lektion wird zur Verarbeitung in mehrere Unterstücke aufgeteilt. Eine Zusammenfassung von einem ganzen Lektionsblock, welcher 2, 3 oder 4 Lektionen dauert könnte, kann dementsprechend sehr lange dauern.

Im Anhang ist ein frei verfügbares Video zu finden, welches zu Testzwecken eingesetzt wurde, sowie das daraus entstandene Transkript, eine Zusammenfassung und ein Mindmap. Dies ermöglicht es die Qualität des Outputs einzuschätzen.

Vorteile

Die Nutzung einer lokalen Transkription mit einem kleinen Zusatzgerät kann folgende Vorteile haben:

Keine Internetverbindung notwendig: Der Mini-Computer ist so programmiert, dass alles ohne eine bestehende Internetverbindung funktioniert. Eine Nutzung ist somit in allen Umfeldern möglich.
Keine Belastung des eigenen Laptops: Dadurch, dass die Aufgabe an den Mini-Computer ausgelagert wird, wird der eigene Computer nicht belastet. Theoretisch wäre es auch möglich den eigenen Laptop für diese Aufgabe zu nutzen, jedoch ist dies mit einem hohen Einrichtungsaufwand verbunden und kann es dann sein, dass sich das auf die normale Nutzung des Laptops auswirkt (z.B. stockende Bedienung).
Kosteneinsparungen: Für die Nutzung der lokalen Sprachmodelle ist kein aktives Abonnement, beispielsweise bei ChatGPT, erforderlich. Die Kosten ergeben sich ausschliesslich aus dem Stromverbrauch.
Datenschutz: Da keine Daten an Anbieter von KI-Lösungen gehen, kann davon ausgegangen werden, dass der Datenschutz in jedem Fall eingehalten wird. Die gesamte Verarbeitung erfolgt auf dem eigenen Computer oder Laptop und es werden keine Daten an Drittanbieter weitergegeben. Es würde sich also auch für vertrauliche Themen eigenen.

Nachteile

Schweizerdeutsch: Die Spracherkennung auf Schweizerdeutsch mit lokalen und frei verfügbaren Modellen funktioniert leider nicht gut. Es gibt Cloud-Modelle, bei welchen die Erkennung brauchbar ist (z.B. über Microsoft Azure), diese kommen jedoch aufgrund der Anforderungen nicht in Frage. Ziel war es hier, eine komplett lokale Transkription umzusetzen. Dadurch ist es aktuell auch Hochdeutsch eingeschränkt.
Qualität der Spracherkennung: Durch die Wahl des Geräts muss bei der Spracherkennung ein Kompromiss eingegangen werden. Die Modelle mit der geringsten Fehlerquote (z.B. whisper large) können auf solch kleinen Geräten nicht betrieben werden. Es kann also sein, dass es Fehler in der Spracherkennung gibt. Diese sind für eine Zusammenfassung aber meist nicht so schlimm, ausser es betrifft sehr zentrale Wörter. Hier besteht jedoch die Chance, dass der Fehler bei der Zusammenfassung durch das Sprachmodell selbständig noch korrigiert wird.
Geschwindigkeit: Die Verarbeitung auf dem Mini-Computer ist nicht sehr schnell bzw. führt eine höhere Geschwindigkeit automatisch zu einer reduzierten Qualität. Eine Zusammenfassung, welche bei einem Online-Modell oder auf einem Hochleistungscomputer innerhalb von wenigen Sekunden erstellt ist, dauert in diesem Fall beispielsweise 4-5 Minuten.
Komplexität bei Einrichtung / Fehlersuche: Es ist schwierig, die Lösung vorab zu testen, da die Spracherkennung in einem Testumfeld (ruhiger Raum, keine Störgeräusche, nur wenige Sprecher:innen) besser funktioniert als in der Realität. Fehler werden dann erst im Testeinsatz im Unterricht bemerkt und müssen teilweise mit viel Aufwand korrigiert werden.

Beispielprompts

Für die Programmierung der Lösung kamen viele unterschiedliche Prompts zum Einsatz, um die Funktionen und die Benutzeroberfläche nach den eigenen Wünschen und Anforderungen zu gestalten. Für die Verarbeitung der Aufnahme kommt am Schluss folgender Prompt zum Einsatz:

Prompt für Teilzusammenfassungen:

Sie sind ein Assistent, der Unterrichtsnotizen erstellt. Sie erhalten einen Teil eines Transkripts.

Fassen Sie die wichtigsten Lerninhalte, Entscheidungen und Aufgaben in diesem Abschnitt kurz und prägnant zusammen (maximal 5-7 Sätze).

Behalten Sie den Kontext bei und formulieren Sie präzise auf Deutsch.

Der Kontext dieser Aufzeichnung ist der Fachbereich 'FACHBEREICH'. Bitte überprüfen Sie den Text auf Transkriptionsfehler und korrigieren Sie Begriffe, die im Kontext dieses Fachbereichs offensichtlich falsch verstanden wurden.

Transkript-Abschnitt:
{HIER KOMMT DER TRANSKRIBIERTE TEXT}

Prompt für Schlusszusammenfassung:

Sie sind ein Assistent, der Unterrichtsnotizen erstellt. Sie erhalten eine Liste von Teilzusammenfassungen eines Unterrichts.

Kombinieren Sie diese Informationen zu einem kohärenten, gut strukturierten finalen Protokoll des gesamten Unterrichts auf Deutsch.

Gliedern Sie nach Themenbereichen.

Teilzusammenfassungen:
{HIER KOMMEN DIE VERSCHIEDENEN TEILZUSAMMENFASSUNGEN}

Da davon auszugehen ist, dass die Spracherkennung einige Begriffe nicht richtig erkennt (z.B. Firmennamen oder spezielle Fachbegriffe), wurde der Prompt erweitert. Wie man oben sieht, kann der Fachbereich der Aufnahme eingegeben werden. Anschliessend sucht er nach Worten, welche nicht zum Thema passen (z.B. IT-Sicherheit) und versucht diese zu korrigieren. Zudem ist hier ersichtlich, dass auch der Prompt selbst noch verbessert werden könnte, damit die Zusammenfassung immer einen ähnlichen Umfang hat oder der gleichen Struktur folgt. Dies ist noch nicht geschehen.