Seit Oktober 2020 arbeitet die Stiftung Haus der Geschichte gemeinsam mit dem Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) an einem neuen Forschungsprojekt. Darin kommt Künstliche Intelligenz (KI) auf innovative und bisher einzigartige Weise im Museums- und Kulturbereich zum Einsatz.
Ziel des Projektes ist es, einen Software-Prototyp zu entwickeln, der wahrnehmbare Emotionalität in audiovisuellen Zeitzeugeninterviews erkennen kann. Hierfür wird die Software auf mehreren Ebenen (Modalitäten) trainiert, mithilfe derer wir auch als Menschen Emotionen wahrnehmen können. Diese Modalitäten sind u.a. das gesprochene Wort (Text), die Stimmlage und Sprechgeschwindigkeit (Audio) sowie die Mimik und Gestik (Bild) des Sprechenden.
Perspektivisch soll uns die Software als Erschließungsinstrument dabei unterstützen, in Zeitzeugeninterviews, wie sie auf www.zeitzeugen-portal.de zur Verfügung stehen, gezielt wahrnehmbare Emotionalität in den Blick zu nehmen.
Finanziert wird das Projekt „Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut“ zunächst für zwei Jahre über die Beauftragte der Bundesregierung für Kultur und Medien, aus Mitteln der KI-Strategie der Bundesregierung.
Zeitzeugeninterviews sind ein wichtiger Bestandteil musealer Ausstellungs- und Vermittlungspraxis, da sie die Multiperspektivität persönlicher Sichtweisen und Erfahrungen vor Augen führen und so ein differenziertes Bild von historischem Erleben zeichnen.
Bisher wurden in der Auswertung von Zeitzeugeninterviews allein die Transkriptionen des gesprochenen Wortes und damit die Inhalte der Erzählung berücksichtigt. Wir versuchen nun, indem wir auch die Emotionalität in den Blick nehmen, diese Auswertung um eine zentrale Komponente zu erweitern, um so vielfältige Aspekte von erzählter Geschichte zu berücksichtigen. Es braucht solche neuen Zugänge und Methoden, um die Erzählungen von Zeitzeuginnen und Zeitzeugen als historische Quellen bewerten und einordnen zu können.
Denn es kommt nicht nur darauf an, was jemand in den Zeitzeugeninterviews erzählt, sondern vor allem, wie es erzählt wird.
Unter Emotionalität verstehen wir emotionale Ausdrucksformen, wie einerseits im Verhalten sichtbare Emotionen wie Freude oder Wut, andererseits aber auch positiv oder negativ geprägte Meinungsäußerungen im Gesagten.
Unsere maschinell generierte Erkennung dieser Emotionalität orientiert sich an der menschlichen Dekodierungskompetenz. Diese findet auf mehreren Ebenen statt, indem über das Gesagte hinaus auch Stimme, Mimik und Gestik einbezogen werden. Folglich soll die KI auf mehreren Ebenen (Modalitäten) trainiert werden (multimodales Mining), um bestmögliche Ergebnisse zu liefern. Die Software wird mithilfe von maschinellen Lernverfahren (ML) auf künstlichen neuronalen Netzen trainiert. Dieses sogenannte Deep Learning eignet sich gut für die multimodale Sprach-, Text- und Bildverarbeitung.
Als ein neues Erschließungsinstrument soll uns der Software-Prototyp dabei helfen, auftretende Emotionalität in den Videos auffindbar zu machen. Zudem ermöglicht uns die Software, eine große Menge an Daten zu analysieren. Das ist die Voraussetzung dafür, um allgemeinere Aussagen treffen zu können.
Das innovative Forschungsprojekt schlägt eine Brücke zwischen Themenfeldern, die in dieser Form zum ersten Mal im musealen und geschichtswissenschaftlichen Kontext miteinander verknüpft werden. Im Zentrum des Projekts stehen die persönlichen Erfahrungsberichte von Zeitzeuginnen und Zeitzeugen. Aus diesem Grund ist für uns ein sensibler Umgang mit den Interviews unabdingbar, sodass wir uns auch mit rechtlichen und ethischen Fragestellungen aus dem öffentlichen Diskurs intensiv beschäftigen.