Begrippenlijst - OCR
OCR is oorspronkelijk een manier om geschreven, gedrukte of geprinte tekst te digitaliseren; dat wil zeggen dat de tekst geschikt wordt gemaakt om met een computer te bewerken. Het papier waarop de tekst staat wordt gescand en speciale software herkent welke letters er staan. Vervolgens worden die letters bewerkbaar gemaakt, bijvoorbeeld door er ASCII-tekst van te maken.
De techniek is (nog) niet zo ver dat alle teksten foutloos verwerkt kunnen worden.
De kwaliteit van de digitale tekst hangt onder meer af van:
- het soort origineel; geschreven tekst is moeilijker om te zetten dan geprinte tekst;
- de kwaliteit van het origineel; als de tekst op dun krantenpapier staat waardoor de achterkant erdoorheen schijnt, is het doorgaans lastiger om een goede tekst te reproduceren; ook vlekken en puntjes in de tekst en dichtgelopen letters bemoeilijken het proces;
- de kwaliteit van de hard- en software.
Tegenwoordig wordt OCR-software ook gebruikt om bijvoorbeeld captcha's te ontcijferen.
OCR is een afkorting van Optical Character Recognition.
Zijn er begrippen waarvan je de betekenis niet weet?


