OCR-Texterkennung

Alle Arten von Programmen und Anwendungen: Egal ob Betriebssysteme, Systemtools, Grafikbearbeitung, Musikeditoren oder Textverarbeitung. Hier wird über alles gesprochen.
janw
Moderator
Moderator

Benutzeravatar
 
Beiträge: 8488
Registriert: 11.10.2003
Mo 30. Dez 2013, 13:24 - Beitrag #1

OCR-Texterkennung

Bei der Digitalisierung älterer Schriften wird im allgemeinen eine Texterkennung eingesetzt, die aber recht fehleranfällig ist.
Bei näherer Betrachtung scheint mir ein Grund dafür zu sein, daß die Texterkennung nicht in der Lage ist, historische Schrifttypen als solche zu erkennen.
Ich frage mich, ob das so sein muss - müsste es nicht möglich sein, die im 19. oder Anfang des 20.JH gebräuchlichen Typen einer elektronischen Mustererkennung zugänglich zu machen?

Ipsissimus
Dämmerung
Lebende Legende

Benutzeravatar
 
Beiträge: 10251
Registriert: 29.10.2004
Di 31. Dez 2013, 13:58 - Beitrag #2

These: veraltete und/oder nichtprofessionelle OCR-Software ohne Trainingsmodus. Obwohl es sowas schon seit vielen Jahren eigentlich nicht mehr gibt. Vielleicht eine Demo-Version mit eingeschränktem Funktionsbestand?

Moderne OCR-Systeme werden mittlerweile sogar mit Handschrift fertig, Druckschriften - egal welcher Zeit, mit oder ohne Serifen, mit oder ohne Ligaturen, in Farbe, Graustufen oder Schwarzweiß, mit sauberem oder verschmutztem Hintergrund - machen längst keine Probleme mehr. Schlimmstenfalls musst du sie trainieren, aber grundsätzlich ist das kein Problem. Und moderne Scanner sind in Bezug zur Auflösung ohnehin jenseits von gut und böse, an zu geringer Auflösung scheitert es schon lange nicht mehr.

Lykurg
[ohne Titel]
Lebende Legende

Benutzeravatar
 
Beiträge: 6865
Registriert: 02.09.2005
Di 31. Dez 2013, 19:01 - Beitrag #3

Naja, bei Fraktur gibt es ein paar Verwechslungskandidaten, f-ſ zum Beispiel, womit auch geübte menschliche Leser je nach Druck Schwierigkeiten haben können.
Und das Vorhandensein guter Systeme heißt nicht zwangsläufig, daß sie überall genutzt werden bzw. daß im Netz vorliegende Texte mit neuer OCR erkannt wurden - es kann und wird sich in vielen Fällen auch um mehrere Jahre alte Dateien handeln.

Ipsissimus
Dämmerung
Lebende Legende

Benutzeravatar
 
Beiträge: 10251
Registriert: 29.10.2004
Di 31. Dez 2013, 19:43 - Beitrag #4

deswegen arbeiten moderne Systeme ja mit Wortdatenbanken zum Gegencheck

janw
Moderator
Moderator

Benutzeravatar
 
Beiträge: 8488
Registriert: 11.10.2003
Di 31. Dez 2013, 21:29 - Beitrag #5

Der Hintergrund des threads war, daß ich nach der Beschäftigung mit einem größeren Bücherei- und Museumsbrand an eine im Netz verfügbare Digitalisierung eines älteren Buches dachte, die vor Fehlern strotzte und mich zu dem Gedanken führte, das sei ein nach wie vor bestehendes Problem.

Dann verstehe ich es also richtig, daß die von einer amerikanischen Netzfirma vor einigen Jahren durchgeführte Digitalisierungsaktion technisch prematur war?

Lykurg
[ohne Titel]
Lebende Legende

Benutzeravatar
 
Beiträge: 6865
Registriert: 02.09.2005
Mi 1. Jan 2014, 04:27 - Beitrag #6

Sie war hoffentlich auf dem damaligen Stand der Technik; heute wären wir aber weiter. Übrigens stellt zumindest Project Gutenberg neben txt, html, epub u.a. auch PDF bzw. Bildscans zur Verfügung, die man neu OCR-verarbeiten, zur Überprüfung nutzen oder einfach direkt lesen kann.

Ja, Ipsissimus, aber Wortdatenbanken schließen Fehler durch Falschidentifikation nicht aus (habe ich inzwischen schon ziemlich oft festgestellt, z.B. in meinem "Ender's Game", besonders problematisch, wenn das nur vermeintlich erkannte Wort auch inhaltlich einigermaßen paßt. Außerdem korrigieren sie evtl. Druckfehler (ok, das wäre in den Augen der meisten Leser kein Nachteil), aber auch ungewöhnliche Schreibweisen oder erfundene Wörter/Namen könnten ein Problem darstellen; wenn nicht, sind wieder Kauderwelschwörter zu erwarten. Erstaunlich oft sehe ich bei alten OCRs z.B. einzelne Zahlen im Wort anstelle von Buchstaben mitten im Wort.

Ipsissimus
Dämmerung
Lebende Legende

Benutzeravatar
 
Beiträge: 10251
Registriert: 29.10.2004
Mi 1. Jan 2014, 19:09 - Beitrag #7

Das lässt sich bei modernen Systemen aber alles einstellen. Dann werden Korrekturen eben nicht kommentarlos - und möglicherweise falsch - vorgenommen, sondern angezeigt, welche Optionen und Alternativen zur Verfügung stehen. Allerdings stimmt natürlich, dass OCR-Software einen Text formal erfasst, also syntaktisch, nicht semantisch, wie das ein menschlicher Leser täte. Von der Vision einer OCR, die menschlichen Lektoren die Denkarbeit abnimmt und diese ersetzt, sind wir in der Tat noch um einiges entfernt^^ Aber Trainingsmodi sind schon ein verdammt mächtiges Werkzeug. Beschäftigung mit dem Arbeitsergebnis ersparen sie nicht.

Traitor
Administrator
Administrator

Benutzeravatar
 
Beiträge: 17500
Registriert: 26.05.2001
So 5. Jan 2014, 15:02 - Beitrag #8

Zitat von janw:Dann verstehe ich es also richtig, daß die von einer amerikanischen Netzfirma vor einigen Jahren durchgeführte Digitalisierungsaktion technisch prematur war?
Auf bücher.amerikanischenetzfirma.com ist das Hauptmaterial ja eine treue Bildwiedergabe des Originals (PDF oder eine komisch eingebundene Abart davon), der OCR-Text ist nur eine Parallelebene zum Durchsuchen und Herauskopieren. Die Qualität schwankt sehr, beispielsweise ist f-ſ mal richtig, mal durcheinander, mal fehlt der fragliche Buchstabe im Wort einfach. Vermutlich wurden in verschiedenen Stufen dieses langjährigen und noch immer laufenden Programms verschiedene OCR-Versionen genutzt. Es spräche auch nichts dagegen, Altbestände auf Basis der vorhandenen Scans neu zu OCRen, vermutlich werden sie das auch irgendwann tun.

Alle Varianten mit manueller Nachbegutachtung sind für kleinere Projekte mit hohen Ansprüchen klasse, für etwas mit den Ausmaßen für Google Books aber unpraktikabel.

Lykurg
[ohne Titel]
Lebende Legende

Benutzeravatar
 
Beiträge: 6865
Registriert: 02.09.2005
Fr 10. Jan 2014, 14:07 - Beitrag #9

Gerade ein schönes Beispiel gesehen -
"Sba, ha, bа! erft mnfite tbr ber Sürft ber ßügen erfфeinen , ehe fie SBabrbeit fpraф ! gr. ». ôolm. 21ф, beten (Sie für mieh, ©raf Slingéberg! nnb fфaffen Sie mir" (entstammt dem Lustspiel "Die unglückliche Ehe durch Delicatesse" von F. L. Schröder [nicht durch Delicatessen, mir wäre auch schleierhaft, wie die eine Ehe ins Unglück stürzen sollten, außer vielleicht durch ihre Kosten]).
[spoiler][Klingsb.] Ha, ha, ha! erst mußte ihr der Fürst der Lügen erscheinen, ehe sie Wahrheit sprach!
Fr. v. Holm. Ach, beten Sie für mich, Graf Klingsberg! und schaffen Sie mir [Verzeihung!][/spoiler]
Ergebnis: Dreibuchstabige Wörter haben eine gewisse Chance, korrekt erkannt zu werden. Und fromme Wünsche auch.

An dieser Stelle sollte eine Automatik eingreifen, die zb. sprachfremde Sonderzeichen und mehrere aufeinanderfolgende Großbuchstaben feststellt, und eine neue OCR veranlassen. Und ja, manuelle Nachsorge ist bei den Massen nicht zu bewältigen, insbesondere nicht 'umsonst', nützlich wäre aber, die Möglichkeit zu geben, einen neuen OCR-Durchgang zu veranlassen, den der Leser betreuen kann. Denn die Feinjustierung würde ich gern übernehmen, wenn ich dafür einen Text bekomme, der auch ohne die Bilder verständlich ist.

Ipsissimus
Dämmerung
Lebende Legende

Benutzeravatar
 
Beiträge: 10251
Registriert: 29.10.2004
Fr 10. Jan 2014, 16:14 - Beitrag #10

das hier hat aber imo nichts mit fehlender manueller Nachbearbeitung zu tun, das ist einfach nur schlechte OCR-Software. Hier gab es keinen Wörterbuchabgleich und mit an Sicherheit grenzender Wahrscheinlichkeit auch keine Trainingsrunden


Zurück zu Software

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron