Zoeken op binnenzijde teksten in bidprentjes

Discussies en feedback m.b.t. Nederlands Bidprentjes Archief

Wilt U lid worden van het forum, laat het ons dan even weten via contact in NBA?

Moderators: uaf, Thea, Wim Janssen

Gebruikersavatar
Wim Janssen
Berichten: 15
Lid geworden op: 07 mar 2013, 16:15
Locatie: Helmond
Contacteer:

Zoeken op binnenzijde teksten in bidprentjes

Bericht door Wim Janssen » 24 jul 2015, 12:56

Zoeken op teksten op de binnenzijde van bidprentjes.

Om in de binnenzijde-teksten te kunnen zoeken moeten deze eerst vanaf het afbeeldingsbestand naar tekst worden omgezet en daarna in de databank worden opgeslagen. Voor dit proces is een aantal stappen benodigd die ik hier eens wil toelichten.
Het omzetten van grafische tekst naar 'gewone' tekst gebeurt middels een OCR (Optical, Character, Recognition) proces.
Uitgangspunt was om, door onze zeer beperkte middelen, gebruik te maken van gratis software. Dat maakt het natuurlijk extra uitdagend.

zie:
Afbeelding

Stap 1: Dit is het jpg-afbeeldingsbestand zoals opgeslagen op de server, ons uitgangspunt. Dit bestand is in JPG-indeling wat het geschikt maakt om snel te kunnen laden van internet. Het is echter een zogenaamd 'lossy' formaat waardoor bij datacompressie gegevens verloren gaan.

Stap 2: In de databank wordt alvast een record aangemaakt in de ocr-tabel.

Stap 3: Met de commandoregel-tool 'Convert' wordt het bestand eerst op een tijdelijke locatie omgezet naar het TIFF-formaat. Dit is een formaat wat geschikt is om te kunnen verwerken in het OCR proces. Het OCR programma accepteert ook alleen formaten die 'bitmapped' zonder verlies van beeldinformatie zijn. Vandaar deze stap. Zie ook: Image Magick website

Stap 4: Met het programma Scantailor wordt het afbeeldingsbestand opgesplitst in meerdere pagina's in dit geval. Ook wordt de tekst rechtgezet mocht dat nodig zijn en nog een paar andere bewerkingen zoals verscherpen worden toegepast. Dit allemaal om tot een beter resultaat te komen in de volgende stap. Zie ook: Scantailor website een erg handig programma voor als u vaak documenten scant.

Stap 5: Met het programma Tesseract wordt de daadwerkelijke omzetting gedaan. Het zogenaamde OCR-proces. Zie ook: Wiki over Tesseract. Een oud project, maar nog steeds één van de beste vrije/gratis programma's voor OCR.

Stap 6: In dit geval hebben we te maken met twee zijden. Dus worden beide verwerkt en de teksten hier ook samengevoegd.

Stap 7: We zijn klaar en het resultaat kan in de databank ocr-tabel worden weggeschreven.

Stap 8: Hier ziet u het resultaat van de OCR-omzetting. Omdat woorden kleiner dan drie letters niet doorzocht worden, worden deze gefilterd in de tekst. In het geel omkaderde woord zit een fout. Daar heeft het OCR-proces 10s van het woord 'ons' gemaakt. Wij mensen zien dit en kunnen dit eenvoudig vanuit de context herstellen. Zelfs zonder de originele tekst erbij te halen. Helaas zijn computers nog niet zo slim. Daarom kunnen we ook niet garanderen dat elk woord ook altijd gevonden wordt. Dit is natuurlijk erg afhankelijk van de kwaliteit van de originele scan. Ook worden bepaalde lettertypes en/of talen slecht omgezet. Het proces is dus zeker nog voor verbetering vatbaar. Maar we zijn al trots op het tot nu toe bereikte resultaat.

Slotopmerking:
Het proces wordt als beheertaak direct na een update gestart. Het loopt in de achtergrond een paar dagen op de server zelf. Op de hier afgebeelde scherm-dump ziet u dat we het desgewenst ook kunnen volgen. Het wordt uitgevoerd voor alle nieuwe prentjes na een update. Maar wel terwijl de web-site gewoon in de lucht is. Dus direct na een update kan de server wat trager reageren hierdoor. Ook zullen niet alle nieuwe prentjes direct te doorzoeken zijn op tekst uiteraard.
Met vriendelijke groeten,
Wim Janssen
Plaats reactie