Nacházíte se: Úvod » Archiv čísel » 1/2013 » Zpracování novinových článků v Digitální knihovně Arna Nováka: výtah z magisterské diplomové práce
Digitální knihovna Arna Nováka (DKAN) je budována Ústřední knihovnou Filozofické fakulty Masarykovy univerzity v Brně. Je to projekt zpřístupňující digitalizované dílo prof. Arna Nováka (2. 3. 1880 – 26. 11. 1939), literárního vědce, kritika, historika a esejisty. Arne Novák je autorem mnoha monografií, článků, recenzí, úvodů i doslovů. Působil na Filozofické fakultě Masarykovy univerzity a byl rektorem Masarykovy univerzity ve 20. a 30. letech 20. století. V roce 2009 uběhlo 70 let od jeho smrti a jeho dílo se tak stalo po autorsko-právní stránce volné. V roce 2010 bylo zase oslaveno 130. výročí jeho narození. Ústřední knihovna FF MU přišla v souvislosti s tímto výročím s myšlenkou převést jeho dílo do digitální podoby a zpřístupnit je volně na internetu. V digitální knihovně je možné nalézt Novákovy monografie a úvody či doslovy k dílům jiných autorů. Celkem je zde obsaženo více než 13 000 naskenovaných stran.
Digitální knihovna je k nalezení na adrese http://knihovna.phil.muni.cz/arne-novak. Hlavní částí je tzv. Seznam, kde jsou k dispozici všechny digitalizované dokumenty seřazeny podle roku vydání s propojením do prohlížení dokumentů. V knihovně je implementován nástroj Google Vlastní vyhledávání, pomocí kterého lze dokumenty vyhledávati i fulltextově. Prohlížení dokumentů probíhá přímo na webových stránkách a to staticky bez efektu otáčení. U každého titulu se na stránce objevuje záhlaví, bibliografická citace díla a náhledy jeho jednotlivých stran. Dále jsou zde k dispozici navigační lišty Odkazy a Soubory, které obsahují např. odkazy do katalogu Aleph a Beth a soubory ke stažení v podobě dokumentu PDF nebo metadat. Při prokliknutí na konkrétní stránku titulu se zobrazí stránka s obrázkem, pod kterým je navíc umístěn OCR text obrázku (bez oprav) sloužící k indexaci vyhledavači. Uživatel se pohybuje mezi jednotlivými stránkami celého dokumentu pomocí odkazů (čísla stránek).
Jako rozhraní pro práci s digitálními dokumenty zde slouží Digitální repozitář Ústřední knihovny FF MU. Základními objekty v repozitáři jsou dokument (book) a stránka (book/page), tedy dvě úrovně. Objekty mají svůj identifikátor (ID), streamy (soubory tvořící objekt) a zvolenou licenci. Repozitář je zatím uzpůsoben pro zpracování monografií. Velkou částí díla Arna Nováka jsou však také články a to články novinové vydané v Lidových novinách a Národních listech. Jejich problémem je velké množství (asi 3000 článků) a také nejednotný formát vzhledu. Jsou různě vsazené do textu novinové strany a často je tvoří několik různě velkých částí. Je třeba je z ostatního obsahu novin vydělit, upravit a připravit tak, aby mohly být zobrazovány v Digitální knihovně Arna Nováka.
Z výše popsané potřeby vyvstalo téma pro diplomovou práci. Cílem bylo vytvoření návrhu zpracování novinových článků od jejich získání až po zpřístupnění na webu DKAN. Návrh zahrnuje naplánování činností či kroků, pomocí kterých je zpracování článků realizováno. Jedná se o činnosti, jako je tvorba rešerše Novákovy činnosti v novinách, získání článků, jejich celková úprava, vytvoření metadat, vložení do Repozitáře DKAN a zobrazení článků na webu. Těmto krokům je dále věnována pozornost v jednotlivých bodech.
Pro potřeby DKAN byl vytvořen soupis činnosti Arna Nováka v novinách. Ten poslouží jako přehled článků, které Arne Novák napsal, a zjednoduší tak jejich hledání. Zhotovený soupis vychází ze Soupisu vědecké a kritické činnosti Arna Nováka z roku 1940, který podává téměř vyčerpávající seznam Novákovy činnosti. Z tohoto díla byly vybrány pouze články vydané v novinách. Konkrétně se jedná o Národní listy a Lidové noviny.
Úkolem bylo vypátrat, zda a kde jsou dané noviny již digitalizované a jak je možné je získat. Bylo zjištěno, že oba tituly jsou k dispozici v Krameriu v Moravské zemské knihovně v Brně. Jsou zde seřazeny podle ročníku, data vydání a čísla, která jsou rozdělena do více souborů DjVu a poskytnuta ke stažení. Digitalizované kopie novin či jejich příslušných částí je možné z Krameria získat a poté již může následovat vyjmutí samotných článků a jejich úprava.
Články jsou do novinové strany vsazeny různě. Skládají se často z několika sloupců, které jsou buď uspořádané v řadě vedle sebe, nebo se nacházejí na jiném místě strany novin. Záleží na konkrétním článku, jak byl nasázen. Řešením je jednotlivé sloupce či části článku vyřezat z ostatního obsahu a pak s nimi naložit podle konkrétního článku (spojit je, nebo naopak rozdělit ještě na více částí). S každou částí je pak zacházeno jako s jednou stránkou. Části článku jsou dále upraveny dle potřeby (vyčištění okrajů, rotace, změna barevné hloubky) a uloženy ve vybraném obrazovém formátu. Následuje také uložení článku se všemi jeho částmi do jednoho PDF dokumentu.
Pro úpravu obrázků musel být nalezen vhodný nástroj, který umí načíst soubory DjVu, disponuje základními editačními vlastnostmi (ořezání, otáčení, změna velikosti a barevné hloubky obrazu atp.), dále umí převést obrázky do jiných formátů (JPEG, PNG, PDF, TIFF aj.), spojit je a vytvořit z nich vícestránkový PDF soubor. Požadavkem byl také volně dostupný, jednoduchý, rychlý a intuitivní software. Po vyzkoušení několika nástrojů bylo zhodnoceno, že pro úpravu článků postačí nástroj IrfanView, protože je rychlý, jednoduchý, obsahuje potřebné editační vlastnosti a umí jako jeden z mála načíst DjVu soubory. Pro vytvoření vícestránkových PDF dokumentů byl vybrán Adobe Acrobat, ke kterému má Filozofická fakulta zakoupenou licenci. Avšak použít se dají i jiné nástroje s požadovanými funkcemi.
Články jsou v první fázi uloženy jako obrazové soubory. V tomto kroku byl vybrán obrazový formát, barevná hloubka, komprese, rozlišení a další vlastnosti obrázku. Noviny jako textové dokumenty nejsou příliš náročné na ukládaný počet barev. K jejich uložení jsou potřeba dvě hodnoty – černá a bílá, což obsáhne 1-bitová barevná hloubka. Bude tedy nejlepší vytvářet bitonální obrázky. To sníží velikost obrázků na minimum a bude to vhodné také při rozpoznávání znaků (OCR). Rozlišení obrazu je 300 DPI tak, jak ho zadala Moravská zemská knihovna při digitalizaci tisků. Jako formát obrázků pro repozitář byl zvolen TIFF s kompresí CCITT G4. TIFF je mezi digitálními knihovnami značně rozšířen a používán běžně jako archivní formát. Splňuje stanovená klíčová kritéria pro výběr formátu, jako je možnost výkonné bezeztrátové komprese, schopnost pracovat s minimem bitů barevné hloubky, technická nenáročnost (není nutné pro jeho používání pořizovat speciální programy nebo pluginy) aj.
Součástí zpracování je dále rozpoznání znaků v obrázku. Pro potřeby DKAN je možné využít více OCR nástrojů. Testovány byly placený ABBYY FineReader, bezplatný FreeOCR, částečně placená služba Free Online OCR, OCR systém využívaný Informačním systémem Masarykovy univerzity a Adobe Acrobat. Protože pro DKAN je prioritou nízká cena, pořizovat drahé OCR nástroje není relevantní. V poměru ceny a kvality vychází nejlépe OCR systém Informačního systému MU, což je ve skutečnosti jedna z verzí ABBYY FineReaderu. Je zdarma přístupný studentům a zaměstnancům MU, kteří budou s největší pravděpodobností s články pracovat.
Návrh zahrnuje také oblast metadat, která jsou velice důležitá pro uložení, vyhledání a identifikaci dokumentů v jakékoliv digitální knihovně. V současné fázi DKAN by měla být uchovávána zejména popisná a strukturální metadata. Pro popis článků byl navržen metadatový formát MODS, který umožňuje jednoduchý i složitý popis dokumentu a dokáže dobře vystihnout vztah mezi článkem a jeho titulem. Dále se ukázal jako vhodný formát METS. Jeho kladem jsou části Soubory a Strukturální mapa, které ukládají v záznamu informaci o tom, jaké soubory tvoří daný objekt a jak jsou navzájem logicky či fyzicky "poskládány" a propojeny. To by bylo využitelné při popisu struktury mezi částmi článku. METS je navíc rozšířeným standardem pro kódování a přenos metadat.
Celý záznam by byl uzpůsoben tak, že v popisné části METS by byl vnořen záznam MODS, a dále by byly obsaženy minimálně části Soubory a Strukturální mapa. Takto by byl metadatový záznam METS přenášen jako jeden soubor pro každý článek. Vedle standardizovaných metadat byla v diplomové práci řešena a určena také metadata interní. To jsou metadata generovaná v repozitáři sloužící pro popis a manipulaci objektu uvnitř DKAN. To, jak a jaká metadata jsou v repozitáři uložená, se projeví ve webovém uživatelském rozhraní knihovny při prohlížení článků. Tato metadata jsou částečně kódována v Dublin Core a část jsou vlastní metadatové prvky generované automaticky při importu dat do repozitáře.
Články v DKAN budou tvořeny dvěma typy objektů – article (článek jako celek) a article/part (část článku). Ke každému objektu bude přidán jedinečný identifikátor a také jednotlivé soubory (streamy), které objekt tvoří. Pro práci s těmito soubory je v DKAN využíván speciální editor E-PEditor, do kterého jsou soubory vloženy a poté uploadovány do repozitáře. Článek (objekt article) bude obsahovat tyto streamy/soubory:
Část článku (article/part) bude obsahovat tyto streamy/soubory:
Všechny streamy včetně metadat slouží k zobrazení a navigaci článků v uživatelském rozhraní DKAN (pouze obrázky TIFF zůstávají k archivaci). Objekt celého článku (objekt article) je na webu tvořen přehledem jeho částí, na které lze přímo prokliknout, a dále záhlavím článku a bibliografickou citací. V levém menu by se měly objevit odkazy na záznamy článku v katalozích Beth a Aleph (pokud jsou obsaženy) a také na medailonek autora v Beth. Zde přichází v úvahu odkázat rovněž na digitalizovaný hostitelský dokument (např. v Krameriu), ze kterého byl článek vyňat. V menu by měly být k dispozici také soubory ke stažení (PDF dokument, textový soubor a záznam METS v XML).
Při prokliknutí na konkrétní část článku (objekt article/part) sekce Odkazy a Soubory a bibliografická citace zůstávají stejné. Mění se záhlaví podle čísla aktuální části (dle metadat pro objekt v Repozitáři) a zobrazuje se jeden obrázek ve formátu PNG. Ten je odkazy provázán s předchozími a následujícími částmi článku a s nadřazeným článkem tak, jak to definují metadata v Repozitáři. Každá část článku je zobrazována jako jedna webová stránka. Pod obrázkem se nachází viditelný rozpoznaný text části, což umožní vyhledavačům indexovat celý dokument.
Posledním úkolem bylo pokusit se odhadnout množství práce a času k realizaci tohoto projektu. Předpokládaná doba pro vytvoření jednoho článku je 1,5 – 2 hodiny, když bereme v potaz, že průměrně článek obsahuje dvě části. Protože článků je cca 3000, na celkové zpracování novinových článků bude potřeba tedy asi 5500 hodin. Pro představu, kolik času a lidí musí být v projektu použito, poslouží následující příklady:
Tento návrh byl vytvořen s cílem co nejvíce usnadnit základní kroky dalšího vývoje Digitální knihovny Arna Nováka. Pro zpracování novinových článků bylo navrženo použití více nástrojů (IrfanView, Adobe Acrobat, OCR systém IS MU, E-PEditor a částečně XML Copy Editor). Ideálním stavem by bylo mít k dispozici pouze jeden systém, v kterém by byly články kompletně připraveny a nahrány do repozitáře. Některé systémy se tomuto ideálu blíží, ale vzhledem ke své ceně jsou zvláště pro menší knihovny či projekty nepřijatelné. Navržený proces tak možná bude pomalejší, ale zato úsporný a budou použity ty nejvhodnější možné nástroje. Co se týče metadat, články jako takové vyžadují již pokročilý a standardizovaný popis zdroje, proto bylo navrženo použití moderních metadatových standardů MODS a METS.
Zdroje:
Digitální knihovna Arna Nováka: O projektu [online]. c2010 [cit. 2012-08-24]. Dostupné z: <http://knihovna.phil.muni.cz/arne-novak/o-projektu>.
Digitální knihovna Arna Nováka: Technické řešení [online]. c2010 ÚK FF MU [cit. 2012-11-10]. Dostupné z: <http://knihovna.phil.muni.cz/arne-novak/technicke-reseni>.
Soupis vědecké a kritické činnosti Arne Nováka. V Praze: Pražský linguistický kroužek, 1940. 163 s.
DAMBORSKÁ, Lenka. Zpracování novinových článků v Digitální knihovně Arna Nováka: výtah z magisterské diplomové práce. Duha: Informace o knihách a knihovnách [online]. 2013, 27(1) [cit. 2024-10-09]. ISSN 1804-4255. Dostupné z: http://duha.mzk.cz/clanky/zpracovani-novinovych-clanku-v-digitalni-knihovne-arna-novaka-vytah-z-magisterske-diplomove-p
/*
Duha vychází 4× ročně v elektronické i tištěné podobě. Tištěná čísla ve formátu PDF naleznete zde.
|
|