Nacházíte se: Úvod » Archiv čísel » 4/2020 » Projekt PERO – OCR pro historické texty
PERO – Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti má za cíl vytvořit nástroje a technologie pro zpřístupnění obsahu digitalizovaných historických dokumentů s využitím nejnovějších poznatků v oblasti počítačového vidění, strojového učení a jazykového modelování. Hlavním řešitelem projektu je Fakulta informačních technologií Vysokého učení technického v Brně, Moravská zemská knihovna má roli spoluřešitele (NAKI II, 2018–2022).
V paměťových institucích probíhá v posledních dvou desetiletích masová digitalizace všech typů dokumentů, od moderních knih až po nejstarší archivní materiál. Jedná se o stamiliony stránek, kde jen digitální knihovna MZK obsahuje téměř 60 milionů stran. Na digitalizátech se provádí optické rozpoznávání obsahu dokumentu (OCR – Optical Character Recognition), jehož požadovaným výstupem je fulltext nutný pro strojovou indexaci, či případnou automatickou rešerši. Rozpoznání textu bylo ale možné provádět jen u kvalitních tisků vysázených standardními typy písma. Pro tisky s nižší kvalitou, s poškozením či nerovnými texty nebo starším jazykem byla úroveň kvality OCR nedostatečná, u starých tisků s novogotickými typy písma nebo s kombinací antikvy a fraktury se neprovádělo vůbec. Veškeré zpracování pro účely indexace a vyhledávání buď vyžadovalo důslednou kontrolu a ruční úpravy, nebo smíření se s velkou chybovostí. Rozpoznávání ručně psaného textu (HTR – Handwritten Text Recognition) není při digitalizaci z pochopitelných důvodů řešeno vůbec a dodnes neexistují univerzální nástroje pro jejich úplné automatické zpracování.
Projekt chce dosáhnout lepší míru zpřístupnění obsahu problematických digitalizátů třemi způsoby – zlepšováním kvality, automatickým rozpoznáním starých tištěných textů a poloautomatickým přepisem ručně psaných dokumentů. Vytvoření těchto nástrojů vede ke zvýšení kvality OCR a extrakci sémantických informací, které dokáží výrazně zlepšit přístupnost, dohledatelnost a využitelnost digitálních dokumentů.
Díky metodám z počítačového vidění, strojového učení (neuronové sítě) a jazykového modelování lze rozšířit možnosti využití obsahu textů digitalizovaných sbírek. Konvoluční neuronové sítě najdou uplatnění při zvyšování kvality obrazu, odstranění lokálních poškození a OCR, rekurentní neuronové sítě a generativní modely založené na GANs (Generative Adversarial Networks) naopak při HTR, příp. při rozpoznávání řeči.
Vyvíjené nástroje využívají pokročilé metody strojového učení a velké datové sady. Nejprve bylo nutné ručně zpracovat velké množství digitalizátů s odpovídajícími přepisy (data trénovací) a “získaná vědomost” se pak testovala na dalších digitalizátech (data testovací). Obecné modely byly jazykově nezávislé, postupně se přizpůsobily novému dokumentu (vlastnosti, jazyk). Mluvíme o jazykovém modelování pro interaktivní rozpoznávání textu, které přizpůsobuje vizuální a jazykové modely konkrétnímu dokumentu, přiřazuje pravděpodobnosti větám a umožňuje vybrat nejlepší možnost z hlediska dnešního jazyka. Při práci s historickými dokumenty, např. starými tisky, byly proto modely češtiny (z velkého množství dat) dotrénované na starší jazyk (méně dat, specifické). K učení je vždy nutná ruční anotace dat, tedy lidská práce specialistů, kteří pomáhají modelům k vyšší přesnosti.
Projekt lze rozdělit na tři hlavní směry dle použitých technických řešení, která se vzájemně doplňují a zčásti využívají stejné základní metody a přístupy. V současnosti, na podzim 2020, je dokončeno řešení problematiky zlepšení čitelnosti obrazu, OCR pro tištěné stejně jako pro rukopisné dokumenty čeká provozní testování spojené s finalizací aplikace. Všechny dosavadní výstupy jsou jako open source dostupné na GitHubu.
1. Zvyšování a kontrola kvality digitalizátů (2018-2020)
Tato etapa byla zaměřena na opravy obrazu založené na konvolučních neuronových sítích a pokročilých metodách rekonstrukce obrazu. Mnohé dokumenty jsou digitalizovány v nedostatečné kvalitě, mají vybledlé nebo odřené texty. Typickým příkladem jsou mikrofilmy starších novin, kdy poměrně nekvalitní předlohy byly analogově snímány a mikrofilm byl dodatečně skenován, čímž došlo jednak ke ztrátě barevné informace i k částečné ztrátě kvality. Přitom se jedná o miliony digitalizovaných stran, které mají často unikátní charakter, a opětovné skenování originálů je vystavuje riziku poškození. Dokument se upravil pro optimalizaci čitelnosti zvýrazněním a rekonstrukcí textu, kvalitní binarizaci obrazu, odstraněním prosvítajícího textu, opravami drobných vad podkladu nebo narovnáním řádků. Vznikla tak sada softwarových nástrojů pro automatickou kontrolu a zlepšení kvality digitalizátů (viď GitHub).
2. OCR tištěných dokumentů (2019-2021)
Cílem je zlepšení OCR starých novin a tisků i nižší kvality, tedy rozpoznávání tištěného textu sázeného frakturou i antikvou. Modely byly trénovány na velkém množství uměle generovaných dat a sběrem rozmanitých datových sad pro učení (Deutsches Textarchiv, IMPACT aj.) obohacených o ruční přepisy textů. Příprava interních nástrojů spočívala v lokalizaci a detekci řádků a automatickém přepisu řádků. Porovnáním výstupů z projektu PERO s komerční aplikací ABBYY je vidět výrazný pokrok ve výsledcích OCR.
PERO-OCR aplikace
První verze produkčního OCR najdete na stránce: pero-ocr.fit.vutbr.cz. Aplikace umožňuje registrovaným uživatelům práci s vlastními dokumenty nebo dělat ruční opravy nutné k opakovanému trénování modelů. Součástí aplikace jsou i krátké video manuály, které názorně ukazují práci s aplikací. Byla již připravena i první verze API pro integraci vytvořených OCR nástrojů do automatizovaných digitalizačních linek.
3. Poloautomatický přepis ručně psaného textu a extrakce sémantické informace (2020-2022)
Pro rozpoznávání ručně psaného písma nebyly dosavadní pokusy dost univerzální nebo měly nutnost vstupných manuálních úprav. Nástroje poloautomatického přepisu v projektu PERO staví na datech systému Transkribus, ale využívají modely větší sady stylů písma (český dataset). Pokusí se i o automatické zpracování vybraných textů na úrovni extrakce sémantických informací pomocí technik zpracování přirozeného jazyka (např. evidenční štítky a matriky). Dosavadní výsledky naznačují, že neuronové sítě mohou být vhodným řešením tohoto problému a dá se očekávat výrazný posun v rozpoznávání moderního písma a částečně i historických textů.
Přínos projektu PERO je viditelný již nyní. Open source softwarové nástroje přinesou po jejich dokončení zvýšení čitelnosti dokumentů, snazší vyhledávání a využití obsahu digitalizátů, možnosti strojové indexace a fulltextového vyhledávání, ale i další automatické zpracování dokumentů (analýzy obsahu).
Tímto chceme požádat odbornou veřejnost o spolupráci při vývoji aplikací, či už se jedná o doladění výstupů OCR historických tisků nebo vývoje aplikace pro rozpoznávání ručně psaného písma. V případě dotazů kontaktujte e-mail: Alzbeta.Zavrelova@mzk.cz.
ZAVŘELOVÁ, Alžběta. Projekt PERO – OCR pro historické texty. Duha: Informace o knihách a knihovnách [online]. 2020, 34(4) [cit. 2024-12-30]. ISSN 1804-4255. Dostupné z: http://duha.mzk.cz/clanky/projekt-pero-ocr-pro-historicke-texty
/*
Duha vychází 4× ročně v elektronické i tištěné podobě. Tištěná čísla ve formátu PDF naleznete zde.
|
|