Auf den Spuren der Textforensik

Oren Halvani arbeitet als wissenschaftlicher Mitarbeiter am Fraunhofer SIT und lässt uns eintauchen in die Welt der Textforensik und Autorschaftsverifikation.
Mithilfe textforensischer Analysen lassen sich bestimmte sprachliche Merkmale in geschriebenen Texten identifizieren, die Rückschlüsse auf den Autor oder die Autorin geben können. Heutzutage assistieren Textforensik-Algorithmen dem Gutachter bzw. der Gutachterin. Mithilfe der forensischen Linguistik können so durch Mensch und Maschine bestimmte Texte einer Person zugeordnet werden.

Wie ordnet Ihr einen bestimmten Text einer bestimmten Person zu?

In der Praxis bekommen wir in der Regel zuerst eine Menge von Beispieltexten eines Autors oder einer Autorin X. Außerdem erhalten wir mindestens ein unbekanntes Dokument, bei dem es die Frage zu beantworten gilt, ob dieses Dokument ebenfalls von X verfasst wurde oder nicht. Unsere Algorithmen extrahieren hierzu diejenigen stilistischen Merkmale aus den Dokumenten, die entweder für oder gegen eine übereinstimmende Autorschaft sprechen. Als Ergebnis der softwaregestützten Untersuchung erhalten wir zunächst eine prozentuale Wahrscheinlichkeit über die Autorenschaft. Dieses Ergebnis prüfen wir anhand der Merkmale anschließend individuell und manuell.

Die richtige Interpretation des Ergebnisses ist hierbei ein sehr wichtiger Aspekt. Denn als Forensikgutachter bzw. -gutachterin und als betroffene Person ist es natürlich wichtig, nachvollziehen und kontrollieren zu können, warum der Algorithmus zu einem bestimmten Entschluss gekommen ist. Es wäre fatal, wenn betroffene Personen aufgrund einer Fehlentscheidung und blindem Vertrauen in die Algorithmen zu Unrecht strafrechtlich belangt werden.

Funktioniert das Verfahren dann über Deep Learning, indem die Maschine im Vorhinein anhand von Beispielen alleine gelernt hat?

Es existieren tatsächlich mittlerweile eine Reihe von Deep-Learning-Verfahren, auch von unserer Seite. Allerdings haben wir mit solchen Verfahren problematische Erfahrungen gemacht: Zunächst einmal benötigen diese in der Regel sehr viele Beispieldaten, die zudem noch geeignet sein müssen. Das bedeutet, dass die Dokumente nicht nur thematisch ähnlich aufgebaut sein müssen, sondern auch derselben Textsorte zuzuordnen sind, also jeweils nur Kochrezepte, E-Mails oder Social-Media-Beiträge. Ist dies nicht erfüllt, kann es im schlimmsten Fall passieren, dass die Klassifikationsergebnisse dieser Verfahren fehlgeleitet werden und damit nicht stilistische Merkmale das Ergebnis bestimmen, sondern etwa Inhaltswörter.

Man stelle sich etwa vor, zwei Autoren oder Autorinnen schreiben jeweils einen Text über dasselbe Thema. Ein Deep-Learning-Verfahren, das keine Kenntnis darüber besitzt, ob Wörter nun eher thematisch oder aber stilistisch signifikant sind, könnte irrtümlich urteilen, dass beide Texte von derselben Person verfasst wurden, da ja ihre thematischen Anteile ähnlich zueinander sind.

Es gibt aber darüber hinaus noch ein weiteres Problem mit Deep-Learning-Verfahren.  Ihre Entscheidungswege sind schwierig nachzuvollziehen. Zwar existieren verschiedene Mechanismen um neuronale Netze durch Visualisierungen „interpretierbar“ zu machen. Allerdings visualisieren diese oftmals nur, wie einzelne Merkmale für sich genommen die Klassifikationsentscheidungen beeinflussen. So funktioniert das allerdings in der Praxis häufig nicht: In den Fällen, die wir bearbeitet haben (und von denen wir wissen, wie sie ausgegangen sind), haben wir festgestellt, dass oftmals die Korrelationen vieler „kleiner“ Merkmale miteinander mit zum Klassifikationsergebnis beitragen. In vielen Verfahren der Visualisierung und Interpretation wird dies nicht wieder gespiegelt. Denn wie schon gesagt: Die richtige Interpretation ist wichtig!

Welchen anderen Ansatz verfolgt Ihr bei der Autorschaftsanalyse?

Unsere eigenen Verfahren beruhen nicht auf Deep Learning, sondern auf Informationstheorie. Vereinfacht gesagt, beruhen die Verfahren einzig auf redundanten Texteinheiten in den Dokumenten. Diese redundanten Texteinheiten sind wiederum oftmals (aber nicht immer) mit dem Schreibstil verbunden.

Um sicherzustellen, dass unsere Verfahren nicht durch das Thema der Texte fehlgeleitet werden, verwenden wir daher ein Maskierungsverfahren, welches die Texte in eine themenunabhängige Repräsentation überführt. Dadurch werden Vorkommen von inhaltsbasierten Wörtern durch ihre entsprechenden Wortarten ersetzt. Beispielsweise wird aus dem Satz „Da kommt ein Hund“ der transformierte Satz: „Da VERB ein NOMEN“. Basierend auf dieser themenunabhängigen Repräsentation kommen dann unsere Verfahren zum Einsatz.

Auf welche Aspekte des Textes wird bei der Analyse geachtet?

Wir fokussieren uns in der Regel auf Funktionswörter um Schreibstile „modellieren“ zu können. Das sind Wörter, die eher unscheinbar sind, wie beispielsweise „und“, „oder“, „als“, „auch“. Funktionswörter verbinden Inhaltswörter miteinander und sind deshalb unabhängig von der Thematik der Dokumente sowie, zumindest teilweise, von der Textsorte.

Neben Funktionswörtern spielen zudem Interpunktionszeichen eine tragende Rolle, wie etwa die (korrekte oder falsche) Kommasetzung oder Verwendung des Apostrophs und die Verwendung von Doppelpunkten, Klammern etc. Interpunktionszeichen sind außerordentlich wichtig in solchen Szenarien, in denen die Texte entweder sehr kurz sind (z.B. Twitter-Tweets) oder aber auch stark umgangssprachlich gehalten sind (z.B. Chat-Verläufe), da hier Funktionswörter öfters alternativ geschrieben oder auch weggelassen werden.

In welchen Bereichen findet Euer Verifikationsverfahren Anwendung?

Autorschaftsverifikation kann beim Erkennen von gestohlenen oder gefälschten Identitäten eingesetzt werden. Wenn sich jemand z.B. Zugang zu privaten Accounts einer Person für ihre E-Mails oder sozialen Netzwerke verschafft und diese übernimmt, kann er unter dem Namen dieser (echten) Person einen Betrug begehen oder Verleumdungen publizieren. Oder beim sog. „Romance-Scamming“ in Single-Börsen agieren Betrüger bzw. Betrügerinnen mit vielen (erfundenen) Identitäten gleichzeitig und verwenden ihre Textpassagen leicht paraphrasiert immer wieder aufs Neue. Auch bei Produktbeschreibungen im Onlinehandel ist es beispielsweise unerwünscht, wenn Autoren oder Autorinnen ihre Rezensionen nicht selbst verfassen, sondern aus anderen Quellen zusammenkopieren.

Mit unseren Verfahren können wir in diesen Fällen Hinweise aufzeigen, ob zwei Texte von ein und derselben Person geschrieben wurden. Mit dem Verifikationsverfahren kann dann gezeigt werden, dass die generierten Texte nicht vom ursprünglichen Account-Benutzer oder einer echten Person geschrieben wurden, sondern von einem, oder gar mehreren Betrügern und Betrügerinnen.

Weiterhin kann das Verfahren auch für historische Texte angewendet werden. Es finden sich in unserem Forschungsumfeld zahlreiche Fachartikel in denen gezeigt wurde, dass etwa Texte, die vermeintlich von bedeutenden Persönlichkeiten aus Politik, Kunst oder Kultur verfasst wurden, nicht aus ihrer eigenen Feder stammen.

Lässt sich der individuelle Sprachstil mit einem Fingerabdruck vergleichen?

Ein „linguistischer Fingerabdruck“ existiert aus unserer Sicht so nicht. Die Fingerabdrücke der menschlichen Hand, die wir aus dem Krimi kennen, lassen sich relativ einfach und sehr charakteristisch aus sehr einfachen Ausgangsdaten bestimmen: es reicht lediglich ein einziges Foto oder Scan eines Fingers. In der forensischen Linguistik brauchen wir jedoch eine sehr große Menge von Referenztexten, um autorspezifische und wiederkehrende Merkmale zu modellieren. Eine Seite Text z.B. reicht als „Abdruck“ nicht aus, um den Schreibstil eines Autors oder einer Autorin halbwegs charakteristisch abzuleiten.

Die Charakteristiken bezüglich des Schreibstils ändern sich außerdem bei vielen Menschen über die Jahre eines Lebens hinweg, z.B. durch den Einfluss von Medienkonsum, das Lesen von Werken anderer Autoren und anderer Autorinnen, durch das eigenhändige Schreiben und durch das Einhalten, Anpassen oder Vergessen von Rechtschreibregeln. Ein kleiner Teil des Schreibstils bleibt vielleicht bestehen, aber hinsichtlich der Mehrheit der stilistischen Eigenarten einer Person würde ich eher sagen, dass diese sich über die Zeit hinweg verändern.

Vielen Dank, Herr Halvani, für das interessante Gespräch.


von Luisa Wilczek / 2020

 

Wenn Sie auf den Geschmack gekommen sind und noch mehr über die Methoden der Textforensik lernen möchten, besuchen Sie gerne unser Seminar Textforensik mit NLP und maschinellem Lernen oder die Spezialkurse zur Autorschaftsverifikation oder zum Erkennen von Themen und Trends in Textdaten, dem sog. Topic Modelling.

Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht.