Meet the Geek

Folge 17: Der Machine-Learning-Forscher. Let’s talk about Text!

von am

Wer glaubt, dass Jahrhunderte alte Literatur und Machine-Learning-Algorithmen nichts miteinander zu tun haben, der sollte dringend mal David Lassner treffen! Denn der Digital Humanist entschlüsselt mithilfe modernster NLP-Verfahren nicht nur Muster in Sprache, sondern legt gesellschaftliche Verhältnisse vergangener Zeiten offen und stellt Autorenschaften infrage.

David Lassner, Machine-Learning-Forscher
David Lassner, Machine-Learning-Forscher
Name
David Lassner
Beruf
Doktorand für Machine Learning mit Anwendungen in den Digital Humanities an der TU Berlin
Forschungsbereich
Computational Literary Studies, Machine Learning
wichtigste Tools
Python, TensorFlow, PyTorch, Spacy, Hugging Face Transformers
wenn ich mal keinen Textkorpus analysiere…
… bin ich Teil des Lyrik-Kollektivs Budenblaetter und glücklicher Vater.

Über „Meet the Geek“



Lieber David, Du promovierst in Digital Humanities und forschst dort mit Machine-Learning-Methoden an literarischen Werken. Bist Du ein ITler oder ein Philologe?

Ein Digital Humanist, das wundersame Mischwesen! In den Digitalen Geisteswissenschaften arbeitet man mit computergestützten Methoden an humanwissenschaftlichen Fragestellungen, wie in meinem Fall der Literatur. In dem Bereich kommen meine beiden Leidenschaften zum Tragen.

Literaturwissenschaft und IT?

Ja! In der Schule waren Deutsch und Informatik zwei voneinander getrennte Einheiten, aber während meines Studiums sind sie sukzessive verschmolzen. Im Bachelor habe ich Natural Language Programming noch an Nachrichtentexten angewendet, im Master schon an literarischen. Nun promoviere ich im Bereich der Computational Literary Studies und setze Machine Learning ein, um literatur- und kulturwissenschaftliche Fragen zu beantworten. Dabei bin ich überzeugt, dass in den Digital Humanities zusammenkommt, was zusammengehört.

Nämlich?

Die Möglichkeiten einer leistungsstarken Technologie zu nutzen, um traditionelle – und moderne – Fragen der Wissenschaft zu erörtern. Die Herangehensweise ist noch recht neu, aber wächst stark. Nicht nur in der Literaturwissenschaft, sondern auch in Bereichen wie der Archäologie, der Musik oder der Kunst. In den Sozialwissenschaften, wo quantitative Verfahren eingesetzt werden, wird die Verknüpfung mit computergestützten Verfahren heute noch als natürlicher empfunden als in vielen Geisteswissenschaften. Dort wird oft ein Gegensatz zur Technologie konstruiert, den die Digital Humanities hinter sich lassen. In seinem Werk “Reading Machines” beschreibt Stephen Ramsay die theoretische Grundlage für die Verbindung von Literaturwissenschaft und Computermethoden – sehr lesenswert für die, die es genauer wissen wollen.

Infinite Monkey by Bylle Bauer
Kann jeder Affe Shakespeare-Werke schreiben? Rein rechnerisch gesehen: ja. Grafik: Bylle Bauer.

Welche literarischen Fragen beantwortet man denn so mit KI?

Dass die Literaturwissenschaft nach Mustern in Sprache sucht, ist nicht neu. Die traditionelle Literaturwissenschaft setzt auf Kanonbildung – denn ein Mensch kann nur eine begrenzte Anzahl an Texten lesen. Maximal ca. 20.000, theoretisch. Die Werke werden daher anhand von bestimmten Kriterien in eine Sammlung eingeordnet. Das Problem ist, dass sie da ein bisschen feststecken und viel ausgeschlossen und unerforscht bleibt. Mit lesenden Maschinen und der Datenverarbeitungskraft der KI kommen wir wesentlich weiter. Nur Computersysteme können derartige Textmassen in solch einer Form bewältigen.

Was macht Text zu Text?

Das ist eine große Frage in der Philologie. Da gibt es das berühmte Infinite-Monkey-Theorem vom Affen, der unendlich auf eine Schreibmaschine eintippt. Rein rechnerisch gesehen würde er eines Tages jedes erdenkliche Buch durch Zufall und fehlerfrei geschrieben haben – mal von Faktoren wie Zeit und verfügbarer Schreibaffenanzahl völlig abgesehen. Die Wahrscheinlichkeit besteht.

Wie lesen Maschinen?

Da spielt zunächst die Optical Character Recognition (OCR) eine Rolle. OCR erkennt Text in Rastergrafiken, also Bildern, die von Texten gemacht wurden. Diesen digitalisiert sie und macht ihn maschinenlesbar. Das klappt am besten mit Texten in moderner englischer Sprache, vor allem bei anderen Sprachen oder Schrifttypen hat die Technologie noch viel Nachholbedarf. Bei schlechten Drucken oder Handschriften wird es ganz schwierig, und man muss viel manuell nachbessern. Aber während wir sprechen, werden bessere Verfahren zur Handwritten Text Recognition entwickelt.

Ist der Text dann als Zeichenkette vorhanden, erschließt sich für eine Maschine nicht direkt das Gemeinte. Ein Weg, die Textrepräsentation für Maschinen anzureichern, sind Wortvektoren, die zuvor auf riesigen Textmengen vorbereitet wurden. Eines dieser Wortvektormodelle ordnet beispielsweise jedes Wort anhand der vorherigen und nachfolgenden ein und erstellt eine Tabelle mit Häufigkeiten von einzelnen Wörtern in einem bestimmten Kontext. So beantwortet sie, wie wahrscheinlich es ist, dass das eine Wort im Kontext des anderen vorkommt usw. Die Wortvektorenmodelle verdichten den Text, bringen ein bisschen Ordnung rein. Diese Verdichtung basiert zum Beispiel auf der Hauptkomponentenanalyse
(= eine Vielzahl statistischer Variablen wird durch wenige Principal Components genähert), bei der näherungsweise die Eigenschaften der Datenmatrix erhalten bleiben.

So ähnlich funktioniert zum Beispiel auch Google. Der Text wird von der Maschine sowohl semantisch als auch syntaktisch erfasst und für die Analyse aufbereitet. Aber: die semantischen Repräsentationen der Wortvektoren enthalten speziell die Bedeutungen der zugrunde liegenden großen Textmengen. Vektoren, die auf historischen Texten einer bestimmten Dekade trainiert wurden, spiegeln also einen Teil der damaligen Bedeutungen und könnten in gewisser Weise als Lesehorizont dieser Maschine gedacht werden. In diesem Sinne stellt die Methode eine spannende, experimentelle Ergänzung der klassischen Literaturwissenschaft dar, auch indem sie uns hilft, traditionelle Grenzen der Forschung zu überwinden.

Und was untersuchst Du dann so?

Momentan beschäftige ich mich viel mit Autorschafts- und Übersetzererkennung. Ich kann gern mal von meiner letzten Forschungsarbeit erzählen. Da haben wir unter anderem gefragt, ob die Credits für die als “Schlegel-Tiecksche Shakespeare Übersetzung” bezeichneten Shakespeare-Übersetzungen aus der Zeit um 1830 an die richtigen Personen gehen und wem diejenigen für zwei Stücke gehören, bei denen die Übersetzerschaft ungeklärt ist.

Historisch entstanden diese Texte im frühen 19. Jahrhundert, als es regelrechte Übersetzungsfabriken für die rasant wachsende Leserschaft gab. In Preußen und Sachsen gab es damals keinen Übersetzungsschutz. Das heißt, es konnten zeitgleich konkurrierende Übersetzungen angefertigt werden. In manchen Fällen steckte das Werk in England noch in der Produktion, während es in Deutschland bereits als gedrucktes Buch den emsigen Übersetzer bereicherte. Aus diesem Sachverhalt entsteht für uns ein ideales Testumfeld für unsere Methode.

Wie läuft diese ab?

Jede Übersetzung ist ja eine Entfremdung vom Original, und wir glauben, dass sich der Übersetzerstil darin zeigt, auf welche Weise kreativ entfremdet wird, und dieser lässt sich mit NLP erkennen. Die in Frage kommenden Übersetzer waren August Wilhelm Schlegel, Ludwig Tieck, seine Tochter Dorothea Tieck und Wolf Heinrich von Baudissin. Wir haben nach Mustern gesucht, die eine Einordnung zuließen. Dabei versuchen wir zum einen generalisierende Vorhersagen zu machen, zum anderen aber auch konkrete interpretierbare Eigenschaften der Texte zu finden, an denen sich Übersetzer identifizieren lassen.

Wir wenden hier ein Ensemble klassischer ML-Methodiken an, die die Wort-vektorisierten Dokumente mit Nearest-Neighbor-Klassifikation und Support Vector Machines klassifiziert. Damit können wir für einzelne Szenen einen Vorschlag machen, von wem sie wahrscheinlich übersetzt wurden. Außerdem vergleichen wir Quelle und Übersetzung im Hinblick auf drei interpretierbare Merkmale: die Größe des verwendeten Vokabulars (richness), wie sehr das Versmaß bei der Übersetzung beibehalten wird (syllables per line) und wie sehr sich der Unterschied der Stile der verschiedenen Passagen durch die Übersetzung verändert (Burrows’). Letzteres wird mit Burrows’ Delta getestet, einem klassischen Vergleichsverfahren der Stylometrie, das häufig verwendet wird, um Texte bezüglich ihrer Autorschaften zu analysieren. Die Richness wich in keinem der Fälle stark vom Original ab und variierte auch nicht besonders zwischen den Übersetzern. Die Anzahl der Silben nahmen bei der Übersetzung zu, was bei der Übersetzung vom Englischen ins Deutsche häufig der Fall ist, aber auch eine editoriale Entscheidung sein kann Hier zeigt sich demnach nicht unmittelbar ein diskriminativer Übersetzerstil.

Das Abstandsmaß Burrows’ Delta bewertet Texte, die von Dorothea Tieck übersetzt wurden, im Deutschen ähnlicher als im Original. Dies deutet auf eine stilistische Kohärenz hin, die wir bei W. Baudissin nicht beobachten, und außerdem, dass Dorothea Tieck, die nicht als Autorin veröffentlicht hat, sehr wohl einen Autor-ähnlichen Stil entwickelt hat. Was insbesondere interessant ist, da ihr Vater sie im Vorwort der gemeinsamen Übersetzung nicht namentlich würdigt.

Machine learning
Aus solchen Grafiken gewinnen David und die Maschine spannende semantische, syntaktische und kulturelle Erkenntnisse! Grafik: David Lassner.

Also könnt Ihr mithilfe von Maschinen auch ganz menschliche Dinge herausfinden.

Ja. Dieser eben genannte ‘Lesehorizont’ ermöglicht eben die Untersuchung sozialer und kultureller Umstände der jeweiligen Zeit und Aufschlüsse darüber, wie die Gesellschaft auf diese reagiert hat. Es geht ja bei Machine Learning nicht nur darum, etwas über den Text herauszufinden, der einem vorliegt, sondern etwas zu entdecken, das sich generalisieren lässt. Dafür brauchen wir sehr viel Text – den wir mithilfe von Methoden wie Automatisierung, Textmining, Wortvektorenmodellen und so weiter analysieren können. Dadurch sind wir heute in der Lage, als gesetzt geltende Theorien zu bestätigen – oder eben auch zu widerlegen. Das gesamte Gebiet der Digital Humanities ist einfach spannend, und ich plädiere ganz klar für die Nutzung von Machine-Learning-Methoden in allen Wissenschaften!

Was machst Du, wenn Du Deinen Doktor hast: Wirtschaft oder Uni?

Ich habe schon vor, weiterzuforschen, es gibt so vieles zu entdecken und Technologien, die jetzt noch nicht mal entwickelt sind. Nicht, dass mir die Wirtschaft komplett fremd wäre: Im Bachelor habe ich eine Firma gegründet, die eine Einsatzplanungssoftware für Krankenhäuser entwickelt. In dieser Zeit habe ich viel mehr programmieren gelernt als in der Uni – da haben wir eine Web-App mit JavaScript, Vue.js und einem PHP-Backend mit PostgreSQL gebaut. Ich habe nach meinem Master noch einige Zeit dort weitergearbeitet, bis ich meine Promotion begonnen habe. Mittlerweile ist die Firma verkauft und ich kann mich ganz der Forschung widmen.

Sind die Techs aus dieser Zeit immer noch an Deiner Seite?

Nein, eigentlich code ich jetzt fast ausschließlich mit Python. Das hat sich für unsere Zwecke bewährt.

Programmierst Du viel?

Ja, definitiv. Ich würde sagen, das ist der Löwenanteil meiner Arbeit. Daneben schreibe ich Papers und konzipiere Experimente.

Und nach Feierabend, bist Du da ITler oder Literat?

Och, ich bleibe mir treu und entwickle zum Beispiel lustige Web-Apps für Wortspiele, wie alphabattle-xyz.

Das zocken wir jetzt sofort! Lieber David, vielen Dank für die tiefen Einblicke in ein spezielles und spannendes Feld.