top of page

Was das Knacken historischer Chiffren dem Mittelstand über KI lehrt

  • Autorenbild: Stefan Bach
    Stefan Bach
  • vor 4 Tagen
  • 5 Min. Lesezeit

TL;DR: Forschende entschlüsseln mit KI jahrhundertealte Geheimschriften — von Maria Stuarts Briefen bis zum Copiale-Manuskript. Die Methode dahinter ist keine Magie, sondern Mustererkennung: statistische Abweichung vom Erwartbaren. Genau dieselbe Logik erschließt im Mittelstand das Wissen, das in Altakten, Verträgen und E-Mail-Archiven schlummert. Der entscheidende Punkt: Die Maschine findet das Muster, der Mensch verantwortet die Deutung.


Anfang Juni ging eine Geschichte durch die Fachpresse, die zunächst nach reiner Wissenschaftsromantik klingt: KI hilft dabei, jahrhundertealte verschlüsselte Manuskripte zu knacken. Geschätzt rund ein Prozent aller Bestände in Archiven und Bibliotheken sind ganz oder teilweise chiffriert — Liebesbriefe, diplomatische Depeschen, Rezeptsammlungen. Material, das niemand mehr lesen konnte.


Ich habe den Beitrag zuerst als nette Randnotiz gelesen. Beim zweiten Lesen wurde mir klar: Was die Forschenden hier tun, ist methodisch exakt das, womit sich jeder Mittelständler gerade beschäftigen sollte. Denn das Knacken einer Chiffre und das Erschließen verschütteten Unternehmenswissens folgen demselben Prinzip. Es lohnt sich, das auseinanderzunehmen.


Was die Forschung tatsächlich getan hat


Das vielleicht eindrucksvollste Beispiel: 2023 entschlüsselte ein Team um den Informatiker George Lasry 57 chiffrierte Briefe von Maria Stuart aus den Jahren 1578 bis 1584 — rund 50 davon zuvor völlig unbekannt. Sie lagen in der französischen Nationalbibliothek, fehlkatalogisiert als italienische Dokumente. Niemand wusste, was sie enthielten, weil niemand sie zuordnen konnte.


Das Team ist nicht über einen Geistesblitz zur Lösung gekommen, sondern über Statistik. Ein Suchverfahren namens Hill-Climbing probiert systematisch Schlüssel-Hypothesen durch und bewertet jede daran, wie sehr der entstehende Text einer realen Sprache ähnelt — gemessen an Häufigkeiten von Buchstabenkombinationen aus historischen Sprachmodellen. Dass die Klartextsprache Französisch und nicht Italienisch war, verriet sich unter anderem durch grammatische Muster und wiederkehrende Schlüsselwörter wie den Namen Walsingham, den Spionagechef der englischen Krone.


Dasselbe Grundmuster zieht sich durch das ganze Feld. Schon 2011 knackte ein Team um Kevin Knight und Beáta Megyesi das sogenannte Copiale-Manuskript — 105 Seiten, rund 75.000 Zeichen — mit Methoden, die ursprünglich für maschinelle Übersetzung entwickelt wurden. Heraus kamen die Initiationsrituale eines Geheimbunds des 18. Jahrhunderts. Und das Projekt DECRYPT der Universitäten Uppsala und Stockholm hat daraus eine ganze Infrastruktur gebaut: eine Datenbank historischer Chiffren samt Sprachmodellen für rund anderthalb Dutzend historische Sprachen.


Das eigentliche Prinzip: Abweichung vom Erwartbaren


Hier wird es für Unternehmen interessant. Mustererkennung — ob bei Chiffren oder bei Geschäftsdaten — beruht auf einer einzigen Grundidee: Jede natürliche Sprache, jeder strukturierte Datenbestand hat einen statistischen Fingerabdruck. Bestimmte Zeichen, Wörter und Kombinationen treten in charakteristischen Häufigkeiten auf. Wo dieses Muster vom Erwartbaren abweicht, steckt ein Signal.


Eine Chiffre zu knacken heißt: das verborgene Muster unter der Verschlüsselung finden. Ein Vertragsarchiv zu erschließen heißt: das wiederkehrende Muster in tausenden Dokumenten finden — welche Klauseln, welche Fristen, welche Risiken sich wiederholen. Es ist dieselbe Rechenlogik. Die Suchverfahren, die Maria Stuarts Briefe entschlüsselt haben, gehören zur selben Familie von Algorithmen, die heute in Unternehmen Dokumente klassifizieren, Anomalien in Logdaten finden und Wissensdatenbanken durchsuchbar machen.


Daraus folgen drei übertragbare Prinzipien. Erstens: Jede Analyse braucht eine Strukturhypothese — die Forschenden mussten annehmen, welcher Chiffretyp und welche Sprache vorlag. Im Unternehmen entspricht das der Vorklassifikation: Worum handelt es sich, in welcher Domäne, in welchem Format? Zweitens: Häufigkeitsanalyse deckt Bedeutung auf — was sich auffällig oft oder auffällig selten wiederholt, ist selten Zufall. Drittens: Es ist immer eine iterative Schleife. Hypothese, Test, Korrektur, erneuter Test.


Wie viel Wissen liegt wirklich brach — und die Vorsicht mit Zahlen


An dieser Stelle kursiert seit Jahren die Behauptung, 80 Prozent aller Unternehmensdaten seien unstrukturiert und damit ungenutzt. Ich nenne die Zahl bewusst — und ordne sie ebenso bewusst ein: Sie geht auf eine Schätzung der Investmentbank Merrill Lynch aus dem Jahr 1998 zurück, die selbst keine empirische Erhebung war, sondern eine Vermutung. Sie wird seither weitergereicht, ohne dass jemand sie sauber belegt hätte. Neuere Modellierungen des Marktforschers IDC kommen für die weltweit erzeugte Datenmenge auf rund 90 Prozent unstrukturiert — rechnen dabei aber halbstrukturierte Formate wie E-Mails und Logdaten mit ein und beschreiben globale Datenmengen, nicht den Aktenschrank eines Maschinenbauers in Ostwestfalen.


Was sich für den deutschen Mittelstand belastbar sagen lässt, ist nüchterner und zugleich aussagekräftiger: Laut der Bitkom-Studie zur Datenökonomie 2024 schöpfen nur sechs Prozent der deutschen Unternehmen das Potenzial ihrer vorhandenen Daten vollständig aus. Über 40 Prozent nutzen es nach eigener Einschätzung eher wenig. Das Problem ist also nicht primär, dass die Daten fehlen — sie sind da, in Form von Verträgen, Konstruktionsakten, Servicemeldungen, jahrzehntelanger E-Mail-Korrespondenz. Das Problem ist, dass dieses Wissen so verstreut und unstrukturiert vorliegt, dass es praktisch unlesbar ist. Wie eine Chiffre, zu der der Schlüssel verlegt wurde.


Was das praktisch bedeutet — und wo die Grenze liegt


Moderne Werkzeuge können dieses Wissen heben. Handschriftenerkennung digitalisiert alte Akten, Sprachmodelle in Kombination mit sogenannten Retrieval-Verfahren machen große Dokumentenbestände durchsuchbar und beantwortbar. Aber — und das ist mir wichtiger als jedes Effizienzversprechen — die Forschung an den Chiffren zeigt auch die Grenze überdeutlich auf.


In keinem dieser Projekte hat die Maschine allein die Lösung geliefert. George Lasry brauchte den Abgleich mit überlieferten Klartextkopien, um seine Entschlüsselung zu verifizieren. Generische Sprachmodelle versagen an Manuskripten aus dem 17. Jahrhundert — es braucht zeit- und fachspezifisch angepasste Modelle. Übersetzt in den Mittelstand heißt das: Ein Standard-Sprachmodell, das auf dem allgemeinen Internet trainiert wurde, wird an Ihren branchenspezifischen Konstruktionsunterlagen oder Ihrem Vertragswerk schwächer abschneiden als an Wikipedia-Wissen. Und es wird mit großer Selbstsicherheit auch dann eine Antwort liefern, wenn diese falsch ist.


Die Mensch-Maschine-Schleife ist deshalb nicht verhandelbar, sondern der Kern der Methode. Die Maschine beschleunigt das Auffinden von Mustern dramatisch — die Interpretation, die Verifikation und die Verantwortung bleiben beim Menschen mit Fachwissen. Das ist keine Vorsichtsfloskel: Datenqualität ist laut einer KPMG-Erhebung 2025 das mit Abstand häufigste Problem in KI-Projekten deutscher Unternehmen. Ein OCR-Fehler in der Aktendigitalisierung pflanzt sich durch die ganze Kette fort, bis am Ende eine plausibel klingende, aber falsche Auskunft steht. Wer das ohne menschliche Kontrolle in Geschäftsentscheidungen einfließen lässt, hat die Methode nicht verstanden.


Hinzu kommt die rechtliche Seite, die gerade bei Altdatenbeständen unterschätzt wird. Wer historische Akten mit KI erschließt, verarbeitet oft personenbezogene Daten zu einem anderen Zweck als dem ursprünglichen — die DSGVO verlangt dafür eine eigene Rechtsgrundlage. Geschäftsgeheimnisse können ihren Schutzstatus verlieren, wenn sie unbedacht in öffentliche KI-Dienste eingegeben werden. Und der EU AI Act stuft bestimmte Anwendungen, etwa im Personalbereich, als hochriskant ein. Für die meisten internen Wissensprojekte im Mittelstand ist die regulatorische Last gering — aber sie ist zu prüfen, bevor man beginnt, nicht danach.


Die eigentliche Lehre aus den entschlüsselten Chiffren ist also keine technische, sondern eine strategische: Das wertvolle Wissen ist meist schon da. Es ist nur verschlüsselt — durch Format, Menge und Unordnung. KI ist das beste Werkzeug, das wir je hatten, um solche Muster sichtbar zu machen. Den Schlüssel in der Hand hält trotzdem der Mensch, der weiß, was er liest.



Sie vermuten, dass in Ihren Archiven, Verträgen oder Servicedaten wertvolles Wissen schlummert — wissen aber nicht, wo Sie anfangen sollen? Ich helfe Ihnen, die richtigen Muster zu finden und die Mensch-Maschine-Schleife sauber und datenschutzkonform aufzusetzen. Schreiben Sie mir.


Quellen

heise online: „Verborgenes Wissen: Wie KI dabei hilft, historische Chiffren zu knacken" (04.06.2026). Lasry, Biermann, Tomokiyo: „Deciphering Mary Stuart's lost letters from 1578–1584", Cryptologia 47(2), 2023. Knight, Megyesi, Schaefer: „The Copiale Cipher", ACL-Workshop BUCC, 2011. Megyesi et al.: „Decryption of historical manuscripts: the DECRYPT project", Cryptologia 44(5), 2020. Bitkom: Studie zur Datenökonomie, 2024. KPMG: „Generative KI in der deutschen Wirtschaft", 2025. Seth Grimes: „Unstructured Data and the 80 Percent Rule", Breakthrough Analysis, 2008.

Kommentare


bottom of page