1. VdZ: Herr Aichroth, Sie leiten ein Team am Fraunhofer IDMT, das Technologien für Audio-Manipulationserkennung und Medienauthentifizierung entwickelt. Welche Rolle spielen diese Themen, auch unter Bezugnahme auf Ihre aktuellen Arbeiten zur Erkennung von Sprachsynthese, für die Sicherheit?
Aichroth: Nachrichten und Medieninhalte wurden schon zu allen Zeiten manipuliert, um zu betrügen, Informationen zu entwenden, Propaganda zu verbreiten, die Reputation von Gegnern zu schädigen oder das Vertrauen in Kommunikation zu untergraben.
Bilder, Video- und Audiodaten – Audio- und Sprachdaten transportieren oft die entscheidenden Informationen – sind dafür besonders geeignet, denn sie bieten einen unmittelbaren Zugang zur menschlichen Sensorik und werden von Menschen instinktiv als glaubwürdig eingestuft, sofern keine Auffälligkeiten wahrnehmbar sind. Man kann sie zum Beispiel verwenden,
Patrick Aichroth leitet seit 2006 die Forschungsgruppe Media Distribution and Security am Fraunhofer IDMT, die sich mit der Entwicklung von Technologien für Audioforensik und Mediensicherheit, technischem Datenschutz und vertrauenswürdiger KI beschäftigt. Er hat zahlreiche F&E-Projekte für das Fraunhofer IDMT akquiriert und koordiniert, darunter auch mehrere Projekte zu Audio-Manipulationserkennung und Medienauthentifizierung.
... um sich als eine nahestehende Person auszugeben und so Geld für eine vermeintliche Hilfeleistung zu erbeuten oder vertrauliche Informationen einzuholen (Phishing und Identitätsdiebstahl),
... um ein ausgewähltes Opfer zu erpressen oder zu diskreditieren. So könnte man bspw. einen Ehepartner mit Material erpressen, das ihn oder sie beim vermeintlichen Fremdgehen zeigt, indem man der Person problematische Botschaften in den Mund legt oder Straftaten vortäuscht, die schon allein durch die gesäten Zweifel erheblichen Schaden anrichten können, oder
... um durch fingierte Aussagen (z.B. von politisch relevanten Akteuren) Markt- und Kursmanipulationen oder Panik zu verursachen, politische Propaganda zu verbreiten oder Gesellschaften und Institutionen zu destabilisieren.
Gut ausgeführte Manipulationen und Fabrikationen hinterlassen mit fortschreitender technologischer Entwicklung immer weniger wahrnehmbare Auffälligkeiten. Deshalb werden Technologien benötigt, mit denen das Material auf Spuren
untersucht werden kann und so besser zu verstehen, wie, wann und wo Audiodaten aufgezeichnet wurden, ob und wie sie seit ihrer Entstehung verändert wurden und ob sie überhaupt natürlichen Ursprungs sind. Wir am Fraunhofer IDMT haben uns vor vielen Jahren dafür entschieden, unser Know-how in den Bereichen Signalanalyse und KI für Audiodaten dafür einzusetzen, solche Verfahren zu entwickeln (vgl. auch Themenseite Medienforensik am Fraunhofer IDMT).
Eine aktuelle Herausforderung stellt dabei die Entwicklung von Detektionsverfahren für Sprachsynthese, also für KI-generierte Sprache, dar. Dafür gibt es mehrere Gründe:
Generalisierbarkeit: Detektoren müssen eine Vielzahl von Manipulations- und Synthesemethoden erkennen, die komplex sind und sich ständig weiterentwickeln.
Erklärbarkeit und Interpretierbarkeit: Beim Einsatz von KI für Detektoren ist entscheidend, dass man nachvollziehen kann, warum ein Detektor ein bestimmtes Ergebnis liefert und wie dieses Ergebnis zu interpretieren ist.
Architektur: Die Architektur von KI-basierter Synthese macht es Angreifern relativ leicht, publizierte bzw. bekannte Erkennungsverfahren zu integrieren und sie so zu umgehen – man muss also bei der Publikation und Bereitstellung von Detektionsverfahren vorsichtig sein.
Ressourcenungleichheit: Es fließen deutlich mehr Ressourcen in die Entwicklung von generativer KI als in die Entwicklung von Detektionswerkzeugen.
Wir versuchen, diesen Schwierigkeiten mit dem Einsatz von audioforensischem Know-how und Methoden der vertrauenswürdigen KI, der Bereitstellung öffentlicher Datensets für Benchmarking, aber auch mit der Entwicklung von nachhaltigen Geschäfts- und Lizenzmodellen zu begegnen.
2. VdZ: Sie beschreiben seit einigen Jahren eine sog. „Audioforensik-Toolbox“ auf Ihrer Website. Können Sie uns mehr darüber erzählen, wie und von wem diese Toolbox genutzt wird und wo aktuelle Begrenzungen bezüglich des Einsatzes liegen?
Aichroth: Die Audioforensik-Toolbox ist eine Sammlung von ganz unterschiedlichen Werkzeugen für audioforensische Analysen, die wir im Rahmen von FuE-Projekten laufend weiterentwickeln. Hierzu gehören
-
Verfahren mit denen man Erkenntnisse über Aufnahmegerät und Aufnahmezeitpunkt gewinnen, aber auch und vor allem Manipulationen (v.a. Schnitte) in einzelnen Audiodateien erkennen kann. Dazu gehören aber auch Verfahren zur Erkennung von Sprachsynthese, mit deren Entwicklung wir vor ca. zwei Jahren im Projekt SpeechTrust+ in Kooperation mit dem LKA Baden-Württemberg und dem LKA Bayern begonnen haben, was zu einer neuen Generation von Detektionsverfahren geführt hat, die schon bald zur Verfügung stehen werden.
-
Verfahren, mit denen sich wiederverwendete Abschnitte einer Audiodatei aufspüren lassen oder Hinweise auf Verbreitungswege und Herkunft liefern können.
Diese Werkzeuge sind als Schutzmaßnahmen für zentrale Akteure wie Behörden, Broadcaster und Medienplattformen interessant und wurden auch schon mehrfach für Analysen eingesetzt. Darüber hinaus arbeiten wir aber auch an Werkzeugen für Medienauthentifizierung, mit denen Content-Anbieter Inhalte aktiv signieren und so für Konsumenten authentifizierbar machen können.
3. VdZ: Sie haben Anfang des Jahres als einer der Autoren das Paper „Generative AI and Disinformation”1 veröffentlicht. Welche drei Erkenntnisse könnten für die Arbeit von Behörden besonders relevant sein?
Aichroth: Drei relevante Erkenntnisse für die Arbeit von Behörden aus dem Paper sind:
Automatisierte und gezielte Desinformation: Generative KI kann große Mengen an Desinformation automatisch erstellen und verbreiten, was die Erkennung und Reaktion darauf erheblich erschwert. Zusätzlich ermöglicht sie glaubwürdigere und schwerer erkennbare Desinformationskampagnen und Angriffe, die auf bestimmte Personen und Personengruppen abzielen können. Sicherheitsbehörden brauchen fortschrittliche, laufend aktualisierte Erkennungstechnologien, um diesen Herausforderungen zu begegnen.
Schwierigkeiten bei der Attribution: Es wird zunehmend schwieriger, die Urheber von Desinformation zu identifizieren, was die Strafverfolgung und die Bekämpfung von Desinformationskampagnen erschwert. Sicherheitsbehörden brauchen neue Methoden, um die Herkunft solcher Inhalte besser nachvollziehen zu können.
Verbesserte Erkennungsmöglichkeiten: KI-basierte Technologien bieten aber auch neue Chancen für Sicherheitsbehörden, Desinformation effektiver zu erkennen. Durch den Einsatz von KI und Datenanalysen können z. B. Detektionsverfahren verbessert und verdächtige Muster in großen Datenmengen schneller und genauer identifiziert werden, um präventive Maßnahmen gegen Desinformationskampagnen zu ergreifen.
4. VdZ: Auf welche Formen von Audio-Manipulationen müssen wir bei anstehenden Wahlen wie der Bundestagswahl 2025 gefasst sein?
Aichroth: Es ist damit zu rechnen, dass manipulierte und aus dem Kontext gerissene Ausschnitte auf Basis bestehender Aufnahmen (sog. Cheapfakes/Shallowfakes) auch weiterhin ein Mittel sein werden, um irreführende Botschaften und Propaganda zu verbreiten. Gleichzeitig dürften synthetische Sprachaufnahmen eine größere Rolle spielen – zunächst vor allem solche, die auf vortrainierte Sprechermodelle aufbauen und besonders einfach zu benutzen, aber auch noch vergleichsweise einfach zu entlarven sind.
Es ist aber auch damit zu rechnen, dass es bei besonders brisanten Aussagen und zu besonders kritischen Zeitpunkten gezielte, besonders aufwändige und überzeugende Angriffe mittels Sprachsynthese geben dürfte, die vor allem unter Zeitdruck nur schwer zu entlarven sind. Und paradoxerweise dürfte es gleichzeitig immer häufiger vorkommen, dass echte Aufnahmen mit Verweis auf die Möglichkeit von Deepfakes in Frage gestellt werden. Um mit dieser Gemengelage umzugehen, braucht es einerseits leistungsfähige Analyse- und Erkennertechnologien, andererseits aber auch eine öffentliche Kommunikation, die Panikmache ebenso vermeidet wie Naivität. Die Fähigkeit der Rezipienten zu kritischem Denken ist hier mindestens ebenso wichtig wie der Einsatz von Technologien.
5. VdZ: Haben Sie praktische Tipps, wie man manipulierte Audios erkennen kann?
Aichroth:
Inhaltliche Prüfung: Vergleichen Sie die Inhalte und Aussagen mit anderen vertrauenswürdigen Quellen und analysieren Sie den Kontext. Wenn der Inhalt anderen Quellen widerspricht oder in einen anderen Kontext gesetzt wird, ist Vorsicht geboten.
Selbstkritische Prüfung: Seien Sie besonders kritisch bei der Bewertung von Aussagen, wenn diese gut in Ihr eigenes Weltbild passen und in den Gruppen gut ankommen, in denen Sie sich aufhalten. In solchen Fällen sind Sie anfälliger dafür, weniger genau hinzuschauen und dadurch Falschinformationen zu akzeptieren und zu verbreiten. Versuchen Sie, politische oder persönliche Präferenzen bei der Bewertung der Echtheit von Medieninhalten möglichst auszublenden.
Analytisches Abhören: Achten Sie auf ungewöhnliche Pausen, Veränderungen in der Stimme oder andere Unregelmäßigkeiten, die auf Bearbeitung oder Synthese hinweisen könnten.
Einsatz von technischen Werkzeugen: Nutzen Sie Dienste und Tools für Recherche und Manipulationserkennung, die Ihre Wahrnehmung erweitern.
7. Berliner Kongress wehrhafte Demokratie - Gesellschaftlicher Dialog für Innere Sicherheit, Verteidigungsfähigkeit und Zusammenhalt
🗓️ 16. bis 17. Juni 2025, Hotel de Rome in Berlin
Die Veranstaltung bringt seit 2018 führende Expertinnen und Experten aus der Sicherheits- und Verteidigungswirtschaft, Wissenschaft, Bildung, Politik, kommunalen Verwaltungen, Behörden und Organisationen mit Sicherheitsaufgaben sowie Medien und Zivilgesellschaft zusammen. Ziel ist es, durch Zusammenarbeit und vielfältige Perspektiven effektive Strategien zum Schutz und zur Förderung der Demokratie zu entwickeln.