Přejít k hlavnímu obsahu

Projekty strojového učení v Moravské zemské knihovně v Brně

Moravská zemská knihovna se v průběhu let stala nedílnou součástí informační a pramenné opory vzdělávání a výzkumu v druhém největším univerzitním centru České republiky. Jako jedna z předních knihovnických institucí rozvíjí přirozenou spolupráci s univerzitami a dalšími vědeckými a akademickými institucemi v republikovém i mezinárodním měřítku. Moravská zemská knihovna je také řešitelkou projektů národních a evropských grantových schémat a je zapojena do celoevropských výzkumných infrastruktur. Ve spolupráci s Národní knihovnou ČR, Knihovnou Akademie věd ČR, Vysokým učením technickým v Brně, Univerzitou Karlovou a Masarykovou univerzitou realizuje několik klíčových knihovnických projektů, které budou spoluutvářet podobu českého knihovnictví a ukazovat směr dalšího jeho vývoje. Knihovnictví nejen v České republice prochází dynamickými změnami, které souvisí s akcelerací společenských proměn, prudkým rozvojem digitálního světa a zvyšujícími se nároky na knihovnické služby. Diskuze o rozvinutí a zpřesnění role knihovnických institucí a jejich služeb v době prudkého rozvoje technosféry bude pokračovat i v následujících letech.

Zpřístupňování informací

Jedním z klíčových úkolů Moravské zemské knihovny, jako veřejné výzkumné organizace a knihovnické instituce, je úsilí o zpřístupnění archivovaných informací – v současné době mimo jiné i v jejich digitální podobě. V této oblasti navazujeme na dlouhodobé úsilí, jehož cílem je zpřístupnit co možná největší část historického i novodobého kulturního a vědeckého dědictví občanům. Tisíce titulů a sbírkových předmětů v obrazové, textové i zvukové podobě jsou aktuálně přístupné z pohodlí domova a uživatelské nástroje nad digitálními knihovnami výrazně zvyšují nejen pohodlí při vyhledávání, ale mnohdy otevírají rozsáhlé badatelské pole pro studenty a akademické pracovníky. Výzkumná a inovační činnost – implementace nejnovějších technologií, nástrojů a postupů - směřuje především k zvýšení interakčních možností uživatelů a zpřístupnění dat a informací. Toto otevření probíhá směrem ke koncovým uživatelům, ale i pro automatizované nástroje umožňující integrovat tato data do systémů třetích stran za dosažení synergického efektu.

Projekty realizované v letech 2016-2022

Vzhledem k multioborovosti současného výzkumu a vývoje jsou výsledky projektů, na kterých Moravská zemská knihovna spolupracuje, výsledkem týmové spolupráce. Po pěti letech realizace byly ukončeny projekty financované z Programu na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022. Všech pět dlouholetých projektů, do kterých se Moravská zemská knihovna společně s univerzitními pracovišti zapojila, uspělo a některé z projektů byly hodnoceny jako vynikající s výsledky mezinárodního významu.

PERO

Na využití potenciálu výpočetních kapacit algoritmů strojového čtení byl zaměřen projekt „PERO: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti“. Projekt řešila Moravská zemská knihovna ve spolupráci s Vysokým učením technickým v Brně, které garantovalo technologickou část procesu. Několikaleté badatelské úsilí a efektivní spolupráce mezi brněnskými institucemi umožnila vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů. Tyto nástroje využívají aktuálních možností vývoje v oblasti počítačového vidění, strojového učení a jazykového modelování. V symbióze se současnými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů tyto nástroje nyní umožňují snazší vyhledávání a využití obsahu digitalizátů v případech, kde to dříve nebylo technicky možné.  

V rámci projektu byly vytvořeny nástroje pro dosažení co nejvyšší úrovně automatizace v celém řetězci digitalizace a pro rozšíření automatické analýzy obsahu i na dokumenty, které nebylo možné automaticky zpracovat. V loňském roce se například podařilo rozšířit sadu OCR modelů o model pro středověké rukopisy. Nástroje, které v projektu vznikly, umožnily dramatické zlepšení kvality digitalizátů a především zajištění automatického přepisu ručně psaných dokumentů (např. ručně psané legionářské deníky, matriky, obecní kroniky a tak podobně) nebo dalších dokumentů na kterých jiné nástroje selhávaly (např. skeny mikrofilmovaných novin nebo staré typy písem). 

"Strojové učení je podoblastí umělé inteligence, zabývající se algoritmy a technikami, které umožňují počítačovému systému 'učit se'. Učením v daném kontextu rozumíme takovou změnu vnitřního stavu systému, která zefektivní schopnost přizpůsobení se změnám okolního prostředí (Wikipedia)".

Digital Libraries for Digital Humanities

V oblasti digital humanites pod hlavičkou projektu „DL4DH – Digital Libraries for Digital Humanities“ probíhal vývoj, testování a implementace softwarových nástrojů, které umožňují badatelům v systému Kramerius tagování, selekci a následný export dat do některého z požadovaných formátů umožňujících další strojové zpracování. Vedle vývojových prací byla významným aplikačním výstupem projektu metodika zabývající se přípravou dat z digitálních knihoven pro digital humanities a jejich zprostředkování vědecké komunitě jako takové. Cílem projektu nebylo jen zvýšení pohodlí uživatelů a efektivity vyhledávání a třídění informací, ale i umožnit vědecké obci a studentům účinněji a šířeji využít možnosti digitálního prostoru a nabídnout technologické průvodce, které umožní propojit jak vědní disciplíny a přístupy tak i různé typy digitálních dokumentů.

Projekty v letech 2023-2028

Úsilí o rozvoj digitálních technologií a nástrojů využívajících strojové učení bude ohniskem spolupráce i v následujících letech. Moravská zemská knihovna spolu s univerzitními partnery uspěla při podávání žádostí o podporu a získala finance na pětiletou realizaci čtyř technologicky klíčových projektů. V březnu tohoto roku jsme zahájili realizaci těchto výzkumných projektů:

  • semANT - Sémantický průzkumník textového kulturního dědictví
    Hlavní řešitel Fakulta informačních technologií Vysokého učení technického v Brně, partneři Moravská zemská knihovna v Brně,  Fakulta sociálních studií Masarykovy univerzity
    Fondy českých knihoven a archivů obsahují obrovské množství digitalizovaných dokumentů. Možnosti jejich online prezentace a vyhledávání se v posledních letech výrazně zlepšují. Velká část digitalizovaných tištěných dokumentů je již zpracována pomocí OCR, a je tedy fulltextově dohledatelná. Existující nástroje pro automatický přepis starých tisků i ručně psaných dokumentů znamenají, že jejich kompletní zpracování je nyní jen otázkou času. Samotné fulltextové vyhledávání, které se v knihovních systémech většinou využívá, je ovšem nejjednodušší možné. Dokáže většinou vyhledat různé tvary slova, ale neumí pracovat s významem. Najít dokumenty k určitému tématu je tedy velmi pracné.
    Hlavním cílem tohoto projektu je proto efektivizace možností vyhledávání ve fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu a zlepšení možností přirozené navigace mezi tematicky podobnými dokumenty. Uživatelům poskytne fulltextové vyhledávání rozšířené o pochopení významu dotazů možnost vyhledávat podle částí textu (například odstavců) a současně možnost specifikovat a dále vyhledávat ohraničené téma, o které se v daném textu zajímá. Schopnosti identifikace témat v textech bude dále využita pro přehledové vizualizace frekvence výskytů témat a jejich vzájemné interakce. Bude tak možné sledovat vývoj témat v čase, jejich návaznost a proměny a jejich propojení se známými pojmenovanými entitami jako jsou místa a osoby. Výsledky projektu bude využívat jednak laická veřejnost při rutinní práci s knihovními systémy, jednak vědecká komunita pro kvalitnější analýzu textových dat.

  • OmniOMR – rozpoznávání hudebního záznamu pomocí strojového učení pro digitální knihovny.
    Hlavní řešitel: Matematicko-fyzikální fakulta Univerzita Karlova, partner Moravská zemská knihovna v Brně
    Moravská zemská knihovna zavedla jako první v ČR do katalogizace hudebních rukopisů a starých tisků vkládání záznamu notového incipitu (prvních několika taktů, respektive tónů). Stávající knihovní systémy však neumožňují s takto zapsanou notací dále pracovat. Při digitalizaci hudebnin jsou ukládány jen jejich digitální obrazy, které procházejí nanejvýš textovým OCR (optické rozpoznávání znaků). Navíc pokud se notový záznam vyskytuje v knize, která není zpracována jako hudebnina, není nijak blíže identifikován.
    V současné době tak nelze v digitalizovaných hudebních záznamech vyhledávat podobně, jako je možné fulltextově prohledávat dokumenty zpracované pomocí OCR, a navíc nelze ani systematicky vyhledávat notované dokumenty hudební kultury ve smíšených médiích. Cílem projektu je automaticky zdokumentovat, evidovat a zpřístupňovat hudební kulturní dědictví zapsané v hudební notaci v českých digitálních knihovních sbírkách. Tento cíl bude naplněn pomocí implementace dvou úzce souvisejících funkcionalit pro české digitální sbírky - umožnit vyhledávání hudební notace a umožnit vyhledávání v hudební notaci a pomocí hudební notace. Technologické cíle projektu tak předpokládají, že bude nutné detekovat regiony dokumentů obsahující hudební notaci a určit typ notace (s využitím strojového učení). Následně extrahovat z detekovaných regionů hudebně-sémantické informace a indexovat výsledky v databázi. Finálním krokem pak bude nabídnout uživatelsky přívětivé a intuitivní prostředí pro vyhledávání a práci s informacemi.

  • Orbis Pictus – oživení knihy pro kulturní a kreativní odvětví
    Hlavní řešitel Knihovna Akademie věd ČR, partneři Moravská zemská knihovna v Brně, Fakulta informačních technologií Vysokého učení technického v Brně, Národní knihovna ČR
    Fondy českých knihoven obsahují obrovské množství informací. Přesto, že dominují informace textové, významnou částí našeho kulturního dědictví jsou i informace zachycené graficky, ať už se jedná o kresby, mapy, schémata, grafy, fotografie, tabulky nebo jiné primárně grafické prvky. S postupující digitalizací se díky nasazení systémů OCR a fulltextového vyhledávání daří otevírat veřejnosti doposud skryté textové kulturní dědictví.
    Cílem předkládaného projektu je podobným způsobem otevřít veřejnosti i grafický obsah digitálních knihoven. S využitím metod strojového učení bude možné identifikovat grafické elementy obsažené v digitalizovaných dokumentech, typově je kategorizovat, doplnit o kontextové údaje umožňující jejich snadnější vyhledávání a rozšířit nabídku služeb našich digitálních knihoven o systém pro vyhledávání takto identifikovaných grafických prvků. Významnou součástí výstupů projektu bude i nástroj pro nalezení různých vyobrazení stejných osob a databáze takto nalezených osob, které se podaří identifikovat. Výsledkem projektu tak bude mimo jiné i významné usnadnění přístupu externích uživatelů ke grafickým prvkům obsaženým ve fondech knihoven a jejich dalšímu využití v jiných kreativních odvětvích.

  • Smart digilinka - strojové učení  pro digitalizaci tištěného dědictví
    Hlavní řešitel Knihovna Akademie věd ČR, partneři Moravská zemská knihovna v Brně, Fakulta informačních technologií Vysokého učení technického v Brně, Národní knihovna ČR
    Rozsáhlé fondy monografií a periodik, které spravují knihovny, mohou postupně podléhat zkáze opotřebením a rozpadem papíru, na kterém jsou vytištěny. Přes intenzivní snahy o záchranu tištěných originálů restaurátorskými postupy je klíčovým nástrojem pro záchranu kulturního dědictví digitalizace, která výrazně snižuje mechanické opotřebení originálů a zároveň otevírá informační obsah široké veřejnosti. Kapacita digitalizačních linek v jednotlivých knihovnách je však limitovaná především manuální náročností digitalizačního procesu. Ročně je v knihovnách digitalizováno v souhrnu menší množství stran, než jich do fondů přibude. Řada starších dokumentů tak postupně podléhá degradaci a zkáze. V mnoha případech jsou už uživatelům některé dokumenty zcela znepřístupněny z důvodu jejich ochrany před úplným rozpadem.
    Cílem tohoto projektu je vývoj nástrojů využívajících strojového učení v procesu digitalizace a vytvoření poloprovozu digitalizační linky tak, aby se tento proces výrazně zefektivnil a bylo z něj odstraněno co nejvíce činností, které může zajistit moderní software. Poloprovoz bude kombinovat existující nástroje s nástroji vyvinutými speciálně pro potřeby digitalizačních center knihoven. Komplexní výsledek projektu bude použitelný na digitalizačních pracovištích velkých českých i zahraničních knihoven, a to v podobě samostatné instalace nebo na dálku využívané služby. Jedná se zejména o softwarové nástroje a metodiky pro vyrovnání a scelování nasnímaných předloh a nástroje podporující strojovou tvorbu strukturálních metadat.

Závěr

Jak vidíme, digitální svět a strojové učení získává stále větší význam i v knihovnickém prostředí.  Uživatelé již nemusí fyzicky chodit do knihoven, ale přesto využívají jejich služby v elektronické podobě. Asistence a pomoc při vyhledávání informací a informačních zdrojů pro uspokojování potřeb uživatelů i nadále zůstane jedním z hlavních úkolů knihoven v dalších dekádách. Větší důraz bude zřejmě kladen na kurátorskou roli a také roli průvodce stále více robustním a košatým světem digitálních obrazů a textů. Aplikace výsledků výše zmíněných projektů by měla napomoci nejen efektivnější práci s digitálními zdroji, ale také usnadnit a zpřehlednit uživatelům knihovnických služeb orientaci v rostoucím informačním poli. Moravská zemská knihovna si je vědoma naléhavosti tohoto úkolu a jako aktivní účastník výzkumu a vývoje klade silný důraz na transfer výsledků směrem k praxi, k potenciálním uživatelům, a snaží se výsledky výzkumného úsilí co nejšířeji volně zpřístupnit.

Strojové učení je rychle se rozvíjejícím oborem studia a výzkumu. Letošní rok jednoznačně ukázal, že budoucnost patří „umělé inteligenci”. Technologie strojového učení se stanou běžnou součástí každodenního života a na tuto změnu by měl být ve všech aspektech připraven i svět knihoven. Knihovny jsou přirozenými centry celoživotního vzdělání, jejichž prostřednictvím jsou veřejnosti poskytovány zdroje pro rozvoj vzdělanosti a současně rozvíjeny nástroje pro práci s těmito zdroji. Využití špičkových informačních technologií a přesun aktivit do virtuálního prostoru vytváří tlak na procesy, které definují samotné jádro knihovnických služeb. Inovovaný design knihovnických služeb tak úzce souvisí nejen s technickými možnostmi v oblasti digitálního světa, ale především s tím, jak knihovníci, jako informační specialisté, budou schopni artikulovat a předvídat reálné potřeby uživatelů na pozadí stále se zrychlujícího technologického vývoje. Knihovny jako správci kulturního a znalostního bohatství se tak stávají hybridními institucemi, které poskytují tradiční i digitální fond a fyzický i virtuální prostor. V době, která je označována za  postfaktickou, knihovny tak mohou přebírat roli ručitelů objektivity a přesnosti informací a uchovávají kulturní dědictví, přičemž na tomto poslání spolupracují s dalšími paměťovými a univerzitními institucemi.


ŠVEC, Jan . Projekty strojového učení v Moravské zemské knihovně v Brně. Duha: Informace o knihách a knihovnách [online]. 2025, 37(2) [cit. 2025-11-03]. ISSN 1804-4255. Dostupné z: https://duha.mzk.cz/clanky/projekty-strojoveho-uceni-v-moravske-zemske-knihovne-v-brne

Vaše hodnocení:
Nikdo zatím nehodnotil.