Eilmeldung

Eilmeldung

Digitalisierung der Vergangenheit

Sie lesen gerade:

Digitalisierung der Vergangenheit

Schriftgrösse Aa Aa

Jedes Jahr werden Millionen von Büchern gescannt und online gestellt. Aber nach dem Scannen sind die Dokumente fehlerhaft, denn der Computer hat Probleme damit, alte Texte mit seltsamen Layouts zu erkennen.

IMPACT-Projektmanagerin Hildelies Balk: “Das Problem, ein historisches Dokument in einen digitalisierten Text zu verwandeln, besteht darin, dass es sehr alt ist und sich von einem modernen Dokument wesentlich unterscheidet. Es ist in alter Schrifft verfasst und hat ein schwieriges Layout.”

Clemens Neudecker, technischer Manager für europäische Projekte Koninklijke Bibliotheek: “Das ist das Buch “Mathematische Prinzipien der Naturphilosophie” von Isaac Newton. Hier sieht man, dass die Tinte von der anderen Seite durch das Papier scheint. Das Papier ist verzerrt. Man sieht auch, dass ein langes ‘s’ verwendet wurde, dieses kann sehr leicht mit einem ‘f’ verwechelt werden.”

Im Rahmen eines europäischen Projekts haben die Wissenschaftler von der niederländischen Nationalbibliothek vier Jahre daran gearbeitet, die Software zu verbessern, damit alte Bücher leichter eingelesen werden können.

IMPACT-Projektmanagerin Hildelies Balk:
“Wir haben die Software für die Bildverstärkung verbessert, zudem die optische Zeichenerkennung, die Nachbearbeitung des Dokuments und die Sprachentechnologie, um es zugänglicher zu machen.”

Dieses Know-how wurde bereits in die marktführende Software integriert. Die Ergebnisse sind wesentlich besser.

Clemens Neudecker, technischer Manager für europäische Projekte Koninklijke Bibliotheek: “Hier haben wir ein Beispiel eines Bildes, das entzerrt wurde. Als nächstes wird der Rahmen abgeschnitten. Danach wird dieses in eine schwarz-weiß Aufnahme umgewandelt, um den Kontrast von Vorder-und Hintergrund zu verbessern. Am Ende des Prozesses, erhält der Nutzer den vollen Text. Zudem ist die Struktur des Textes enthalten, wie zum Beispiel die Absätze und die Überschriften.”

Laut Projektteam kann die Genauigkeit des gescannten Textes um 15 Prozent verbessert werden.Somit können die Archive wesentlich präziser arbeiten.

IMPACT-Projektmanagerin Hildelies Balk: “Texte, die nicht voll digitalisiert wurden, sind so gut wie unsichtbar. Jeder ist daran gewöhnt, in einer Suchmaschine nach einem Wort zu suchen, und wenn er es nicht findet, existiert dieses im Grunde genommen nicht.”

http://www.digitisation.eu/