Seite 1 von 1

OCR-Texterkennung

BeitragVerfasst: Mo 30. Dez 2013, 13:24
von janw
Bei der Digitalisierung älterer Schriften wird im allgemeinen eine Texterkennung eingesetzt, die aber recht fehleranfällig ist.
Bei näherer Betrachtung scheint mir ein Grund dafür zu sein, daß die Texterkennung nicht in der Lage ist, historische Schrifttypen als solche zu erkennen.
Ich frage mich, ob das so sein muss - müsste es nicht möglich sein, die im 19. oder Anfang des 20.JH gebräuchlichen Typen einer elektronischen Mustererkennung zugänglich zu machen?

BeitragVerfasst: Di 31. Dez 2013, 13:58
von Ipsissimus
These: veraltete und/oder nichtprofessionelle OCR-Software ohne Trainingsmodus. Obwohl es sowas schon seit vielen Jahren eigentlich nicht mehr gibt. Vielleicht eine Demo-Version mit eingeschränktem Funktionsbestand?

Moderne OCR-Systeme werden mittlerweile sogar mit Handschrift fertig, Druckschriften - egal welcher Zeit, mit oder ohne Serifen, mit oder ohne Ligaturen, in Farbe, Graustufen oder Schwarzweiß, mit sauberem oder verschmutztem Hintergrund - machen längst keine Probleme mehr. Schlimmstenfalls musst du sie trainieren, aber grundsätzlich ist das kein Problem. Und moderne Scanner sind in Bezug zur Auflösung ohnehin jenseits von gut und böse, an zu geringer Auflösung scheitert es schon lange nicht mehr.

BeitragVerfasst: Di 31. Dez 2013, 19:01
von Lykurg
Naja, bei Fraktur gibt es ein paar Verwechslungskandidaten, f-ſ zum Beispiel, womit auch geübte menschliche Leser je nach Druck Schwierigkeiten haben können.
Und das Vorhandensein guter Systeme heißt nicht zwangsläufig, daß sie überall genutzt werden bzw. daß im Netz vorliegende Texte mit neuer OCR erkannt wurden - es kann und wird sich in vielen Fällen auch um mehrere Jahre alte Dateien handeln.

BeitragVerfasst: Di 31. Dez 2013, 19:43
von Ipsissimus
deswegen arbeiten moderne Systeme ja mit Wortdatenbanken zum Gegencheck

BeitragVerfasst: Di 31. Dez 2013, 21:29
von janw
Der Hintergrund des threads war, daß ich nach der Beschäftigung mit einem größeren Bücherei- und Museumsbrand an eine im Netz verfügbare Digitalisierung eines älteren Buches dachte, die vor Fehlern strotzte und mich zu dem Gedanken führte, das sei ein nach wie vor bestehendes Problem.

Dann verstehe ich es also richtig, daß die von einer amerikanischen Netzfirma vor einigen Jahren durchgeführte Digitalisierungsaktion technisch prematur war?

BeitragVerfasst: Mi 1. Jan 2014, 04:27
von Lykurg
Sie war hoffentlich auf dem damaligen Stand der Technik; heute wären wir aber weiter. Übrigens stellt zumindest Project Gutenberg neben txt, html, epub u.a. auch PDF bzw. Bildscans zur Verfügung, die man neu OCR-verarbeiten, zur Überprüfung nutzen oder einfach direkt lesen kann.

Ja, Ipsissimus, aber Wortdatenbanken schließen Fehler durch Falschidentifikation nicht aus (habe ich inzwischen schon ziemlich oft festgestellt, z.B. in meinem "Ender's Game", besonders problematisch, wenn das nur vermeintlich erkannte Wort auch inhaltlich einigermaßen paßt. Außerdem korrigieren sie evtl. Druckfehler (ok, das wäre in den Augen der meisten Leser kein Nachteil), aber auch ungewöhnliche Schreibweisen oder erfundene Wörter/Namen könnten ein Problem darstellen; wenn nicht, sind wieder Kauderwelschwörter zu erwarten. Erstaunlich oft sehe ich bei alten OCRs z.B. einzelne Zahlen im Wort anstelle von Buchstaben mitten im Wort.

BeitragVerfasst: Mi 1. Jan 2014, 19:09
von Ipsissimus
Das lässt sich bei modernen Systemen aber alles einstellen. Dann werden Korrekturen eben nicht kommentarlos - und möglicherweise falsch - vorgenommen, sondern angezeigt, welche Optionen und Alternativen zur Verfügung stehen. Allerdings stimmt natürlich, dass OCR-Software einen Text formal erfasst, also syntaktisch, nicht semantisch, wie das ein menschlicher Leser täte. Von der Vision einer OCR, die menschlichen Lektoren die Denkarbeit abnimmt und diese ersetzt, sind wir in der Tat noch um einiges entfernt^^ Aber Trainingsmodi sind schon ein verdammt mächtiges Werkzeug. Beschäftigung mit dem Arbeitsergebnis ersparen sie nicht.

BeitragVerfasst: So 5. Jan 2014, 15:02
von Traitor
Zitat von janw:Dann verstehe ich es also richtig, daß die von einer amerikanischen Netzfirma vor einigen Jahren durchgeführte Digitalisierungsaktion technisch prematur war?
Auf bücher.amerikanischenetzfirma.com ist das Hauptmaterial ja eine treue Bildwiedergabe des Originals (PDF oder eine komisch eingebundene Abart davon), der OCR-Text ist nur eine Parallelebene zum Durchsuchen und Herauskopieren. Die Qualität schwankt sehr, beispielsweise ist f-ſ mal richtig, mal durcheinander, mal fehlt der fragliche Buchstabe im Wort einfach. Vermutlich wurden in verschiedenen Stufen dieses langjährigen und noch immer laufenden Programms verschiedene OCR-Versionen genutzt. Es spräche auch nichts dagegen, Altbestände auf Basis der vorhandenen Scans neu zu OCRen, vermutlich werden sie das auch irgendwann tun.

Alle Varianten mit manueller Nachbegutachtung sind für kleinere Projekte mit hohen Ansprüchen klasse, für etwas mit den Ausmaßen für Google Books aber unpraktikabel.

BeitragVerfasst: Fr 10. Jan 2014, 14:07
von Lykurg
Gerade ein schönes Beispiel gesehen -
"Sba, ha, bа! erft mnfite tbr ber Sürft ber ßügen erfфeinen , ehe fie SBabrbeit fpraф ! gr. ». ôolm. 21ф, beten (Sie für mieh, ©raf Slingéberg! nnb fфaffen Sie mir" (entstammt dem Lustspiel "Die unglückliche Ehe durch Delicatesse" von F. L. Schröder [nicht durch Delicatessen, mir wäre auch schleierhaft, wie die eine Ehe ins Unglück stürzen sollten, außer vielleicht durch ihre Kosten]).
[spoiler][Klingsb.] Ha, ha, ha! erst mußte ihr der Fürst der Lügen erscheinen, ehe sie Wahrheit sprach!
Fr. v. Holm. Ach, beten Sie für mich, Graf Klingsberg! und schaffen Sie mir [Verzeihung!][/spoiler]
Ergebnis: Dreibuchstabige Wörter haben eine gewisse Chance, korrekt erkannt zu werden. Und fromme Wünsche auch.

An dieser Stelle sollte eine Automatik eingreifen, die zb. sprachfremde Sonderzeichen und mehrere aufeinanderfolgende Großbuchstaben feststellt, und eine neue OCR veranlassen. Und ja, manuelle Nachsorge ist bei den Massen nicht zu bewältigen, insbesondere nicht 'umsonst', nützlich wäre aber, die Möglichkeit zu geben, einen neuen OCR-Durchgang zu veranlassen, den der Leser betreuen kann. Denn die Feinjustierung würde ich gern übernehmen, wenn ich dafür einen Text bekomme, der auch ohne die Bilder verständlich ist.

BeitragVerfasst: Fr 10. Jan 2014, 16:14
von Ipsissimus
das hier hat aber imo nichts mit fehlender manueller Nachbearbeitung zu tun, das ist einfach nur schlechte OCR-Software. Hier gab es keinen Wörterbuchabgleich und mit an Sicherheit grenzender Wahrscheinlichkeit auch keine Trainingsrunden