Nationalbiblioteket i Luxemburg har udviklet og trænet et ‘Optical Character Recognition’ værktøj (OCR), som besøgende kan finde koden til på Github og bruge i deres arbejde med historiske aviser og artikler. Softwareværktøjet skærper kvalitetet af eksisterende XML skemaer eller andre OCR-værktøjer.
Nautilus-OCR er et open source værktøj til digitalisering af bl.a. historiske aviser. Bibliothèque nationale de Luxembourg (BnL), Nationalbibliotektet i Luxemburg, stiller værktøjet til rådighed for biblioteketets gæster. BnL begyndte med at digitalisere aviser i 2006 ved at bruge layout genkendelse og Optical Character Recognition (OCR). Repository til Nautilus-OCR blev til ved at genbruge andre open source løsninger og det bliver løbende videreudviklet.
Standarder for at konvertere ord og layout til tekst
OCR er en digital konvertering af billeder til tekst. Det stiller krav til billedkvalitet for at sikre den bedste OCR analyse. BnL bruger standarden METS/ALTO til alt dets OCR-arbejde.
Metadata Encoding and Transmission Standard (METS) giver mulighed for at udveksle metadata på digitaliserede dokumenter kulturinstitutioner imellem. Standarden er udtrykt i XML skema sproget. Et sprog, der er vedligeholdt af Library of Congress i USA. Analysed Layout and Text Objects (ALTO) er et europæisk project til at gemme information om indhold og layout af fysiske dokumenter.
Nautilus værktøjet er skabt af BnL selv til at fremvise METS filer med OCR filer i et ALTO format. Det er særligt godt til at digitalisere aviser, hvor layout er nøje udvalgt og lavet for at underbygge læseoplevelsen. Her står METS for indholdet, mens ALTO angiver koordinatorerne for det enkelte ord.
Øget kvalitet eller regulær optimeringsmotor
BnL har digitaliseret mere end 800.000 sider af nationale aviser. Når BnL vælger at bruge METS/ALTO standarden, kan de gemme aviserne med deres originale layout. Metadata kan frit undersøges af besøgende forskere i det (digitale) bibliotek.
Ifølge Github siden for Nautilus, kan dets repository bruges på to måder:
- Forøge OCR-kvaliteten på en METS/ALTO pakke.
- Bruges som en almindelig OCR-motor på en række billeder.
Værktøjet er skrevet i Python og bygget på flere andre open source biblioteker, inklusiv kraken, TensorFlow og openCV.
Nautilus-OCR er allerede trænet på mere en 33.000 linjer af billedmetadata i forskellige skrifttyper, når en besøgende får den i hånden:
The set is based on Luxembourg historical newspapers in the public domain (published before 1878), written generally in German, French and Luxembourgish. Transcription was done using a double-keying technique with a minimum accuracy of 99.95%.
- Description of Train Set bnl-public-ocr, Nautilus-OCR
Tag med videre
- Med BnLs OCR-værktøj er det muligt at få og optimere indholder og billedemetadata i gamle aviser.
- OCR-værktøjet er bygget på open source og åbne standarder, bl.a. vedligholdt af BnL (National Library of Luxembourg).
- Softwareværktøjet, der består af genbrug fra flere kodebaser, er trænet på mere end 33.000 linjers billedmetadata.