OCR

Das Akronym OCR steht für die „Optical Character Recognition“ – zu Deutsch „Optische Buchstaben Erkennung“. Eine OCR scannt ein Dokument und stellt anhand des gelernten Alphabets bzw. Semiotik (Bspw. Latein, Russisch, Kanji, Hiragana …) fest um welchen Buchstaben es sich handelt.

Der so ausgelesene Text wird als zusätzliche sog. „Volltextinformation“ zu dem Dokument abgespeichert, wodurch das gesamte Dokument durchsuchbar wird.

Wichtig ist hierbei jedoch das nicht jede OCR gleichermaßen gut funktioniert, es kommt immer darauf an wie gut eine bestehende OCR angelernt ist bzw. werden kann.