Nacházíte se: Úvod » Archiv čísel » 2/2014 » České paměťové instituce a digitální data – historický exkurz, současný stav a předpokládaný vývoj III.
Časové vymezení: od roku 2011 do jara 2013
Rok 2011 jako pomyslnou hranici mezi druhou a třetí fázi nebyl vybrán náhodou. Toho roku se po několikaletém plánování rozběhl projekt Národní digitální knihovna (NDK). Projekt Národní digitální archiv (NDA) byl blízko vyhlášení výběrového řízení. Oba projekty byly spojeny s plány na získání LTP systému na logickou dlouhodobou ochranu digitálních dat. Součástí NDK je také digitalizace 26 milionů stran. Ve stejné době se NK ČR upsala společnosti Google do společného projektu masové digitalizace sbírek 16 - 18. století. Krajské knihovny začaly s projekty na vybudování digitálních úložišť a masové digitalizace. To byl dobrý předpoklad pro stabilizování situace okolo ukládání dat i v menších institucích.
Ve světě po roce 2010 stále více a více velkých paměťových institucí a univerzit implementovalo LTP systémy, které si vytvářely samy, nebo nakupovaly hotová komerční řešení. DAM fázi už měly za sebou, a pochopily, že z pohledu zajištění ochrany a použitelnosti dat v budoucnu pouhý systém na správu dat není dostatečný. České instituce s výjimkou univerzit této DAM fáze ani nedosáhly. Některé se začaly snažit vytvářet systémy na správu i s určitou funkcionalitou pro dlouhodobou ochranu dat, např. Knihovna Akademie věd a její snaha o vytvoření nadstavby nad repozitářem Fedora - ProARC. Důvodem byla často finanční nedostupnost komerčních řešení.
V českých archivech pokračovala ve větších objemech digitalizace matrik a také ostatních často využívaných dokumentů. Aktivní byly vedle NA ČR také archivy oblastní. Začaly spojovat své síly, např. v projektu Acta Publica, kde zpřístupňují matriky Moravský zemský archiv, Státní oblastní archiv v Praze a SOA Plzeň. Obecně ale chybí celostátní koncepce digitalizace archiválií, centrální financování i metodika. Celé snažení je tak roztříštěné z technického pohledu, standardů a především z pohledu uživatele/badatele. Situace v knihovnách je daleko centralizovanější.
Z pohledu metadat je toto období jednoznačně ve znamení mezinárodních standardů, které jsou implementovány ve většině projektů. Již nikdo se nesnaží vytvářet vlastní specifikace metadat tam, kde existuje běžně užívaný standard. Důvodem je i větší orientace na mezinárodní spolupráci (EU projekty), propojení projektů, digitálních archivů, knihoven.
Po roce 2005 se ve světě objevuje nový koncept “digitalizace pro zpřístupnění”. Smyslem již nebyla náhrada papírového dokumentu ve studovnách z důvodu jeho fyzické ochrany, ale snaha uživatelům nabídnout co nejvíce dokumentů v digitální podobě online. Stále více a více uživatelů má totiž pocit, že to, co není dostupné online, neexistuje – viz také [KAHLE, 2004, s. 31]. Výraz „masová digitalizace“, čili digitalizace v masovém měřítku, se začal poprvé používat ve spojitosti s projekty jako Google Books. Tato kooperace mezi paměťovými institucemi a komerční firmou začala v roce 2004 jako Google Library Project. Existoval také obdobný projekt společnosti Microsoft – Microsoft Live Books, který byl ukončen v roce 2008. Po roce 2005 začaly s masovou digitalizací zahraniční knihovny i vlastními silami, např. národní knihovny Norska, Finska, Nizozemí, Kongresová knihovna a jiné. Karen Coyle ve svém článku Mass Digitization of Books [COYLE, 2006] uvádí, že masová digitalizace není jen projekt na digitalizaci velkého množství dokumentů. Je to digitalizace průmyslovou metodou, často digitalizace celých knihoven nebo celků bez jakéhokoliv výběru dokumentů. Cílem masové digitalizace není vytvářet jednotlivé sbírky, ale digitalizovat vše. A to ekonomicky výhodným, rychlým způsobem. Opakem masové digitalizace dle Karen Coyle je např. klasická „digitalizace jednotlivin“, tj. pečlivě vybíraných dokumentů nebo částí sbírek. Coyle rozlišuje i pojem „digitalizace velkého množství“ dokumentů, který dle ní také produkuje velká množství dat/stránek, ale cílí na vytváření sbírek, konkrétní dokumenty a komplexnost sbírek.
EU podpořila masovou digitalizaci již v roce 2006 v Doporučení Evropské komise členským státům z 24. srpna 2006, které zavazuje státy, aby vytvořily a provozovaly pracoviště masové digitalizace [EUROPEAN COMMISSION, 2006, s. 29]. V českém prostředí se začalo uvažovat o masové digitalizaci jako o možnosti urychlení digitalizace v NK ČR v roce 2007, kdy odstartovala jednání o spolupráci s firmou Google v projektu Google Books. K dohodě ale došlo až na konci roku 2010. Důraz na urychlení digitalizace byl i v Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. Koncepce nebyla nikdy pro nedostatek finanční podpory naplněna. Reálné úvahy o nákupu robotických skenerů pro NK ČR/MZK se objevily v roce 2008 s prvními plány na projekt NDK, který má masovou digitalizaci jako jeden ze svých tří hlavních cílů. Robotické skenery byly do NK ČR a do MZK nakoupeny v roce 2012. Oproti ostatním světovým národním knihovnám jde o několikaleté zpoždění a to i přesto, že již v roce 2005 pracovníci AIP Beroun testovali s pozitivním výsledkem skenery 4DigitalBooks na historických novinách z NK ČR [PSOHLAVEC, 2006, s. 39]. V současné době lze říci, že mezi českými paměťovými institucemi provádějí reálně masovou digitalizaci NK ČR a MZK v rámci projektu NDK.
Po roce 2011 se v ČR vedle projektu WebArchiv objevily nové aktivity ve shromažďování digital born dokumentů. V roce 2011 se v NK ČR začal plánovat projekt e-deposit na získávání a archivaci elektronických knih. NA ČR začal v projektu NDA řešit problematiku získávání, zpracování i dlouhodobé ochrany digital born archiválií.
Kořeny projektu je třeba hledat v Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. Ta poprvé popisovala Národní digitální knihovnu, již tvoří tři projekty NK ČR - Kramerius, WebArchiv a Manuscriptorium. Koncept NDK získal financování ze strukturálních fondů EU ve výši 300 milionů Kč a vznikl z něj projekt Vytvoření Národní digitální knihovny, který běží v NK ČR a MZK od roku 2008 do roku 2014. Cílem je vyřešit nejbolavější místa českého knihovnictví, tj. neexistenci masové digitalizace, neexistující LTP systém a absenci jednotného uživatelského rozhraní pro přístup ke všem možným zdrojům informací dostupných v dnešních knihovnách. Do konce projektu v roce 2014 má být zdigitalizováno 26 milionů stran periodik a monografií z 19. a 20. století. Stávající data NK ČR a nově vzniklá data by měla být uložena v LTP systému, který má zajistit jejich logickou dlouhodobou ochranu a zpřístupnění v budoucnu. Projekt má období udržitelnosti do roku 2019, kdy se díky získaným zkušenostem a nakoupeným systémům bude moci v digitalizaci pokračovat. Do té doby by mělo být hotovo 50 milionů naskenovaných stran, což odpovídá asi 300.000 svazků. Rychlostí digitalizace, kterou se postupovalo do roku 2011, by se takový počet stránek digitalizoval více než 100 let.
Před Vánoci 2010 se NK ČR stala jednou ze dvanácti evropských knihoven, se kterými společnost Google spolupracuje na digitalizaci. Google již několik let uzavírá smlouvy s knihovnami v USA a v Evropě a provádí masovou digitalizaci jejich sbírek. Digitalizaci provádí na své náklady a to výměnou za přípravu metadat a vlastní data, kterých se poté stane vlastníkem. Knihovna dostane data v obrazovém formátu, který si z Googlem nabízených možností vybere a může je zpřístupnit skrz své aplikace. Vedle toho jsou data primárně zpřístupněna na webu Google Books. V případě NK ČR Google zdigitalizuje asi 200 tisíc svazků vydaných do konce 18. století, včetně dokumentů ze Slovanské knihovny. V případě Historických a hudebních fondů NK ČR bude pozornost věnována tištěné produkci 16., 17. a 18. století, jejíž digitalizace byla dosud zcela nedostačující [NÁRODNÍ KNIHOVNA ČR, 2011, s. 2]. Digitalizace probíhá v německém Mnichově, kde Google digitalizuje svazky Bavorské státní knihovny již několik let. Všechny dokumenty proto projdou transportem, vzhledem k jejich historické ceně musejí mít povolení k vývozu. Celý projekt je tak logisticky velmi náročný pro NK ČR. Příprava popisných metadat (katalogizačních záznamů) se ukázala jako časově i personálně náročná, u spousty dokumentů záznam v elektronické podobě ani neexistoval.
Podstata projektu NDA byla plánována již od počátku nového tisíciletí. Už tehdy bylo jasné, že bude nutno řešit situaci, kdy původci a státní správa začali vytvářet dokumenty v digitální podobě a české archivy neměly procesní ani technické podmínky k tomu, aby je přijímaly a dlouhodobě uchovávaly. V roce 2008 pak vznikl technologický projekt k NDA, vytvořila ho firma ICZ. Projekt později získal financování ze strukturálních fondů EU. Cílem projektu je vytvořit HW a procesní infrastrukturu pro příjem digitálních dokumentů, jejich zpracování ve spolupráci s původcem (pořádání, skartace aj.), uložení do archivu, který bude schopen provádět procesy logické dlouhodobé ochrany. Samozřejmostí je i zpřístupnění badatelům. Součástí není proces digitalizace. Projekt NDA nevzniká na zelené louce, je podporován legislativou, koncepcemi, zkušenostmi, které MV ČR a pracovníci NA ČR získali a vytvořili od roku 2004. Jinými slovy digitální archiv musí vzniknout, aby čeští archiváři byli schopni naplnit literu Archivního zákona z roku 2004 a pozdějších vyhlášek. Pokud se podaří projekt naplnit podle Zadávací dokumentace, půjde o velký pokrok pro české archivnictví. Výběrové řízení na dodavatele technologií ICT, implementaci a vývoj SW bylo vyhlášeno v roce 2012, poté zrušeno a znovu vyhlášeno na jaře 2013.
Digitalizace pro projekt Monasterium se po roce 2011 podstatně zrychlila. Za léta 2011-2012 bylo v českých spolupracujících archivech zdigitalizováno cca 38 000 listin a cca 40 600 stran rukopisů. Tempo se tedy oproti předcházejícím letem zrychlilo (celkem 20 tisíc listin v letech 2006-2011) [KŘEČKOVÁ, 2012].
Je projekt NK ČR zaměřený na digital born publikace, konkrétně na získávání a archivaci elektronických knih. Nakladatelé již před rokem 2008 do NK ČR zasílali své publikace v elektronické podobě. Dělali to dobrovolně nad rámec povinného výtisku, který ještě ani v roce 2013 elektronické publikace nezahrnuje [!]. NK ČR neměla procesy pro příjem, zpracování nebo jejich uložení. Cílem čtyřletého projektu spuštěného v roce 2012 je vytvořit procesy na přebírání e-knih, obohacení o metadata a uložení v digitálním úložišti NK ČR. Projekt by měl mj. čerpat z možností, které vytvoří jiný projekt NDK.
Změnu v přístupu k logické dlouhodobé ochraně digitálních dat mají do českých paměťových institucí přinést již zmíněné projekty NDA a NDK. U obou je tato změna podmíněna obrovským množstvím dat, které v jejich rámci budou NK ČR a NA ČR ukládat. V obou případech jde o dokumenty z historického a kulturního hlediska významné a tedy je nutné je ochránit pro budoucnost. V projektu NDK se počítá s vybudováním repozitáře a pořízením LTP systému na logickou dlouhodobou ochranu pro stará data a nová data z masové digitalizace vzniklá v NK ČR a MZK. Pokud se to podaří v původně plánovaném rozsahu, bude to velký pokrok oproti předchozímu stavu v NK ČR a ostatních knihovnách. Podobně i LTP systém NA ČR by měl podpořit logickou dlouhodobou ochranu digitálních archiválií v českém archivnictví. Zda tomu tak opravdu bude, ukáže v případě obou projektů čas.
Vyspělé paměťové instituce ve světě se od konce prvního desetiletí 21. století začaly zaměřovat na další krok po DAM systémech, a tím je logická dlouhodobá ochrana digitálních dat v podobě LTP systému. Při nasazení LTP systému se veškeré světové knihovny a archivy orientují na prověřená a otevřená řešení. Jdou cestou sdílení znalostí a specifikací požadavků na nové systémy, popisů datových modelů a metadat. „Zkušenost s provozem první generace systémů pro dlouhodobou ochranu je totiž naučila, že jedním ze zásadních požadavků na systém pro dlouhodobou ochranu a správu digitálních dokumentů je otevřenost ve smyslu možnosti integrace nástrojů třetích stran, veřejné dokumentace, flexibility nastavení data modelu a jednotlivých workflow pro správu dat.“ [FOJTŮ, HUTAŘ a MELICHAR, 2011, s. 74] Funkcionalita LTP systémů překračuje běžnou správu dat a ochranu ve smyslu záloh.
V posledních pěti letech se začala objevovat jak hotová komerční řešení pro LTP systémy, tak také open source LTP systémy. Pro centrální organizace typu národní knihovna nebo archiv je vhodným kandidátem komerční řešení; nevyžaduje velké úpravy a je schopno prokazatelně pracovat s miliony digitálních objektů. Ve vyzkoušeném komerčním řešení je záruka stability, úspěšné a rychlé implementace a dalšího rozvoje systému. Z komerčních LTP systémů jmenujme Safety Deposit Box (SDB, výrobce firma Tessella, Velká Británie) a LTP systém Rosetta (výrobce firma Ex Libris, Izrael). Naproti tomu Open source LTP systémy se hodí pro střední nebo malé instituce, které mají zdroje na vývoj, úpravy a další rozvoj systému a nepožadují správu několika milionů digitálních objektů. Open source LTP systémy jsou většinou výstupem několikaletého vývoje v rámci komunity, který se začal zúročovat až v poslední době. Velkou množinu zástupců tvoří systémy postavené na DAM SW pro správu repozitáře Fedora (RODA, HOPPLA, MOPSEUS, ISLANDORA). Nejdále s vývojem a reálným nasazením open source LTP je ovšem kanadská Archivematica, za kterou stojí firma Artefactual Systems. Archivematica je vyvíjena ve spolupráci s UNESCO Memory of the World. Archivematica prochází v roce 2013 testováním i v českých institucích, např. KNAV nebo MZK.
V roce 2012 se objevila novinka, když firma Tessella začala nabízet logickou ochranu digitálních dat jako službu v podobě využití systému umístěného v cloudu – služba dostala název Preservica a je dostupná od jara 2012. Využívají ji menší ale i středně velké knihovny a archivy. Podobným směrem se začínají ubírat i úvahy některých států, které uvažují o DPaaS (Digital Preservation as a Service) s jedním LTP systémem, který by řešil tuto problematiku pro všechny paměťové instituce (např. Finsko, Nový Zéland, Německo, Irsko, Francie).
Systém, který byl vybrán ve výběrovém řízení projektu NDK, je SW na správu dat (ECM systém) AiP SAFE. Systém v nabízené podobě nebyl prokazatelně schopen splnit požadavky pro LTP funkcionalitu ze zadávací dokumentace. Dodavatel ovšem deklaroval záměr doplnit SW na plně funkční LTP. I přesto ve výběrovém řízení, které bylo několikrát zpochybněno jak pracovníky NK ČR, tak odbornou veřejností (Knihovnická rada dopisem ze 6.1.2012), vyhrál AIP SAFE nad zavedenými zahraničními systémy uvedenými výše, které veškerou funkcionalitu pro LTP v době tendru měly. V roce 2014 v rámci certifikace LTP systému bude zřejmé, zda NK ČR fázi DAM, jak jsme ji definovali v předchozím textu, přeskočí či nikoli. Až po ukončení projektu bude možné vyhodnotit, zda systém AIP SAFE má a poskytuje veškerou funkcionalitu požadovanou v Zadávací dokumentaci pro LTP systém.
Situace v pochopení, v čem spočívá logická dlouhodobá ochrana, je stále nedostatečná, jak v dodavatelských firmách, tak i v paměťových institucích. Většina z nich považuje za dlouhodobou ochranu uložení a zálohy dat. Mimo národní instituce, v menších knihovnách, archivech, muzeích je situace stejná jako v předchozím období. Stále zápasí s tím, aby měly odpovídající digitální repozitář a problematika logické dlouhodobé ochrany pro ně není zatím aktuální.
Logická dlouhodobá ochrana digitálních informací, jak ji specifikuje referenční rámec OAIS (ISO 14721:2012) není jen o ochraně bitstreamu a prokázání, že se s digitálním dokumentem nijak nemanipulovalo apod. Podstatou je dosáhnout toho, aby dokument byl čitelný, použitelný i v budoucnu. V tomto smyslu je nutné provádět na dokumentech změny a ty zaznamenat (změnou je nejčastěji myšlena migrace do jiného formátu). Systém na logickou dlouhodobou ochranu proto musí kontrolovat zastarávání formátů, musí mít přehled o tom, jaké formáty jsou v archivu uloženy, musí vědět o problematických (nevalidních souborech) apod. Systém musí být schopen pomoci správci dat s migrací. Tj. poskytnout prostředí pro vyhledání dokumentů, testování různých způsobů migrace, porovnání jejich výsledků. Měl by také nabídnout možnost migraci provést. O všech těchto procesech, změnách, přístupech k datům apod. se musí zaznamenávat metadata.
Typický systém na digitální archiv (nebo archiv elektronických dokumentů) nabízený firmám a archivům v ČR výše uvedené nesplňuje. Jde o systémy na správu dat, které do jisté míry odpovídají funkčně DAM systémům. Mohou mít funkcionalitu navíc, např. identifikaci formátů, ale preservation modul, kontrolu rizik spojených s formáty, hodnocení rizik nebo validity formátů, které by odpovídaly OAIS, nemají. Firmy se snaží do těchto systémů zabudovat procesy na tvorbu, kontrolu časových razítek, elektronických podpisů apod. Důvodem je prokázání autenticity digitálních dokumentů. Jelikož elektronický podpis (certifikáty na jejich kontrolu) mají časově omezenou životnost, je nutno dokumenty razítkovat opakovaně tak, aby byla potvrzena platnost certifikátu. Obecně lze k těmto dokumentům přistupovat tak, že jejich autenticita je prokázána metadaty, tedy údaji o všech procesech. Na to samozřejmě musí být systém, který tyto údaje zaznamená. Definici autenticity podle ISO 15479 International Standard on Records Management zcela odpovídá, pokud je archiv schopen prokázat všechny události, které se s dokumentem děly, od okamžiku jeho přebrání od původce. Tedy digitální dokument je autentický, pokud byl vytvořen a zaslán oprávněnou osobou, v relevantním čase, a je tím, zač se vydává. Za autenticitu dokumentu do okamžiku přebrání archivem zodpovídá původce. Tento přístup je plně podporován v OAIS a existujících systémech na logickou ochranu digitálních dat. Společnost, tedy uživatelé, musí mít také samozřejmě důvěru v instituci archivu samotného.
Převážná většina větších českých institucí (krajské knihovny, oblastní archivy, univerzity a muzea) má vyřešenu ochranu bit-streamu a zálohy svých dat na online úložištích. Stále je to ale nejčastěji pouze ve file systému, bez aplikace na správu dat a metadat. Někde je to provedeno na centrální úrovni, např. některé kraje a krajská datová centra. Ukládání dat na optických nosičích nebo offline externích discích je již spíše výjimečné. V mnoha institucích ve světě se začíná využívat uložení dat v tzv. cloudu, který lze využít jak pro uložení, zálohování, tak pro logickou dlouhodobou ochranu. Je to vlastně další médium, se kterým se SW pro repozitáře nebo LTP učí pracovat. Nejčastěji jsou využívány služby Amazon S3 nebo novější Amazon Glacier, Microsoft Azure a další. Zvláště v USA je populární SW iRODS, který zajišťuje správu digitálních objektů uložených v cloudu. Na jeho základě funguje např. data grid rozhraní (a také síť) pro dlouhodobou ochranu digitálních dat pocházejících z více institucí – Chronopolis, které je podporováno Kongresovou knihovnou v rámci NDIIPP programu. Významnou výhodou využívání cloudu obecně je dostupnost dat, flexibilita a doprovodné služby. Služby jako Amazon Glacier mohou být řešením pro menší instituce, které nechtějí nebo nedosáhnou na budování vlastního digitálního repozitáře. V určitých zemích tyto snahy podporuje i místní vláda, která buduje centrální datová centra pro vládní instituce, která potom fungují na principu IaaS (Infrastructure as a Service). Knihovna, muzeum aj. si pak nakupuje potřebný úložný prostor od vlastní vlády, čímž šetří peníze za spoustu doprovodných služeb, které by musely hradit při budování svého repozitáře (viz Rakousko, Nový Zéland aj.). V českém prostředí se zatím na národní úrovni IaaS pro paměťové instituce neplánuje, ukládání v cloudu není rovněž rozšířené.
Základní charakteristiky současného stavu připravenosti k dlouhodobé archivaci digitálních dat v paměťových institucích ČR by se daly shrnout do několika bodů:
Pochopení dlouhodobé ochrany digitálních dat
V českých paměťových institucích stále existuje malé pochopení rozdílu mezi ochranou bit streamu, v podobě jejich uložení a dostatečných záloh; a mezi logickou dlouhodobou ochranou, která má zajistit dostupnost, pochopitelnost, zobrazitelnost obsahu dokumentů v budoucnu i přes technologické změny (zastarání HW a SW apod.).
Mandát k dlouhodobé archivaci digitálních dat
Instituce jasně nevyjadřují, že se dlouhodobou ochranou budou zabývat. Nemají jasně definované strategie, jejich zřizovatelé po nich strategie v tomto směru nechtějí. Možná je to díky malé důležitosti, která se v českých paměťových institucích strategiím, zvláště těm dlouhodobým, často přisuzuje.
Data management - správa dat
České paměťové instituce se vyznačují ad hoc řešením managementu dat - většina projektů v oblasti AKM byla jen slabě plánována v tomto ohledu a management dat v institucích byl a je řešen minimálně. V institucích neexistují plány správy dat, jejich ukládání ani zavedené a fixované procesy, které by mohly zajistit standardní implementaci datových plánů. Písemná dokumentace k procesům chybí. Každý pracovník provádí proces „po svém“, ideální proces není kodifikován. Výsledkem jsou ztráty dat. Žádoucí je větší formalizace a standardizace v této oblasti, tj. zavedení standardních procesů, které umožní plánovat správu dat a financování už ve fázi hledání finančního zajištění projektů. Ideálem je situace, kde ten, kdo plánuje digitalizační projekt má k dispozici nástroje, které mu snadno umožní odhadnout požadavky na uložení, dopředu stanovit procesy, které musí zajistit pro archivaci a trvalé uložení dat. Procesy a plány by pak byly naplňovány.
Zajištění integrity a autenticity dat
Díky minimálním možnostem managementu dat jsou nedostatečné i mechanismy a procesy pro kontrolu a zajištění integrity a autenticity dat. Instituce nemají stanovené procesy a často data ani nekontrolují. Není možné doložit co se s dokumentem během jeho uložení v archivu dělo. Instituce nevědí, kdo k datům interně přistupuje (zaměstnanci, správci IT, externí firmy apod.) a zda jsou data v pořádku. Autenticita takových dokumentů je nulová.
Financování
Aktivity spojené s archivací dat jsou financovány z provozních rozpočtů institucí nebo, a to daleko více, z projektů. V minimu institucí je financování uložení a ochrany dat pevnou součástí rozpočtu se svou položkou. Řeší se nárazově.
Lidské zdroje
Odvíjí se od předchozího bodu. Problémem je financování, v menších institucích se o archivaci dat stará IT, nebo osoba, která spravuje počítače. Ve větších institucích může existovat oddělení nebo určená osoba, také většinou součástí IT. Chybí odpovídající finanční ohodnocení a tím pádem problém udržet kvalitní pracovníky.
Spolupráce a sdílení znalostí
Spolupráce v oblasti dlouhodobé ochrany je mezi českými paměťovými institucemi malá, zvláště mezi obory (archivnictví, knihovnictví, muzejnictví a galerie). Nejvíce centralizovaná spolupráce, financování a také procesy, standardy jsou v knihovnictví. Sdílení znalostí probíhá nahodile. I přes existenci konferencí jako je např. Archivy, knihovny a muzea v digitálním světě, jsou společné projekty vidět málokdy.
Grafické vyjádření stavu logické dlouhodobé ochrany digitálních dat v malých a velkých českých institucích.
Předpovídat situaci v oblasti dlouhodobé logické ochrany digitálních dat v českých paměťových institucích není lehké. Výchozími body mohou být probíhající projekty a současná situace. Výsledky projektu NDK a NDA můžeme zhodnotit po ukončení projektů. Hmatatelným úspěchem obou projektů zcela jistě bude, že si zapojené instituce zkusí provádět logickou dlouhodobou ochranu na svých datech, poučí se z nabytých zkušeností a následující řešení bude již takové, které bude vyhovovat nejen jim, ale posune dopředu celou komunitu paměťových institucí v ČR. Velmi by pomohla účast jedné z významných paměťových institucí v nějakém projektu EU zaměřeném na výzkum nebo praktické nasazení digital preservation.
Myslíme si, že do roku 2015 alespoň jedna instituce v ČR bude mít funkční LTP systém v provozu a plném využití. Na mysli máme systém, který je vyvinutý jako LTP a je využívaný ve více institucích ve světě jako řešení odpovídající OAIS a jeho specifikaci procesů (Rosetta, SDB nebo podobný). Nemusí nutně jít o paměťovou instituci, je reálné, že to bude spíše komerční instituce typu banky, firmy, výzkumného centra, případně akademická instituce.
Nepředpokládáme, že české paměťové instituce začnou do roku 2017 reálně řešit problémy logické dlouhodobé ochrany digitálních dokumentů jako jednu ze svých běžných denních činností. Zcela určitě bude zajištěna ve většině z nich ochrana bit-streamu, tedy zálohy jednotlivých souborů na technicky odpovídajícím HW. Úspěchem bude, pokud většina paměťových institucí bude v roce 2015 běžně používat alespoň DAM systém, což by oproti stavu v roce 2013 byl viditelný pokrok pro většinu z nich (zvláště těch menších). Používání SW jako je DSpace, Fedora, DigiTool mimo univerzitní prostředí stále není běžné. Do roku 2015 zcela určitě několik nejaktivnějších knihoven s velkými objemy digitálních dat otestuje a snad nasadí do běžného provozu jeden z open source LTP systémů, nejvíce nadějí skýtá systém Archivematica, jež je v hledáčku několika českých knihoven.
V oblasti metadat je možné očekávat, že velké i menší instituce začnou produkovat technická, administrativní a ochranná metadata, jak tomu je např. v projektu NDK. Od roku 2013 totiž přejal metadatovou specifikaci i VISK 7. Půjde ale převážně o vytváření těchto metadat v procesu digitalizace, ne o vytváření a využívání těchto metadat v rámci správy dat a jejich uložení.
Do knihoven a archivů začnou ještě ve větší míře proudit digital born dokumenty, zvláště NA ČR si s tím bude muset poradit. NA ČR nemůže být spokojen s pouhým uložením digitálních dat ve file systému bez systému správy a dlouhodobé ochrany, nedostál by tak zákonné povinnosti získávat, ukládat, ochraňovat a zpřístupňovat materiály úředního původu a státní správy. Musí vybudovat a provozovat spolehlivé řešení příjmu a zpracování digitálních archiválií (projekt NDA). Podobně NK ČR se bude muset vypořádat s nárůstem počtu, ochranou a zpřístupněním elektronických knih, a to i bez existence povinného výtisku elektronických publikací. Knihovny obecně se budou muset přizpůsobit nárůstu objemů digitalizovaných dat. Do roku 2015 bude proces masové digitalizace vedle NK ČR a MZK provádět jistě i jiná paměťová instituce, snad krajské knihovny, které mají nakročeno v projektech krajské digitalizace.
Opomenutou stránkou digitalizace v českém prostředí je film, resp. filmový archiv. Záchrana významných děl české kinematografie formou digitalizace není dostatečná, spíše minimální. Pracovníci NFA jsou si toho vědomi a snaží se o získání financí jak na digitalizaci, tak na dlouhodobou ochranu takto vzniklých dat. Jejich objem bude tedy v příštích letech narůstat. Lze také očekávat, že se do roku 2017 v prostředí českých muzeí a galerií začne prosazovat 3D skenování trojrozměrných objektů, podobně jak je tomu v zahraničí. Data takto vzniklá budou dalším typem dat, která bude někde nutné ukládat a ochraňovat je.
Bude také potřeba začít řešit uložení a ochranu děl, která vznikají v digitální podobě – filmy i běžné televizní a rozhlasové digitální vysílání. Česká televize se částečně zabývá uchováním vlastního vysílání a digitalizací původní tvorby a starých filmových titulů, není ovšem jasné, na jaké úrovni jejich digitální archiv funguje. Není také jasné, zda jsou v ČR archivovány rozhlasové pořady v digitální podobě a kdo je za to zodpovědný. Pokud bude zodpovědnost určena, existuje možnost, že televizní vysílání a rozhlas budou novým typem dat, která bude potřeba ukládat a dlouhodobě ochraňovat (podobně jako v USA, Kanadě, Norsku a Novém Zélandu). V českém prostředí spíše ale po roce 2017.
Výše uvedený vývoj a nárůst ukládaných dat by měl vést k nějakému centrálnímu HW úložišti, které by mělo být zaštítěno vládou ČR a využíváno paměťovými institucemi např. jako IaaS. Výhodou by bylo ušetření času a prostředků na nákup HW a podpůrných systémů, údržbu apod. Příkladů pro takové centrální úložiště je ve světě několik (Rakousko, Norsko, Nový Zéland aj.). Odtud je již krůček k centrálnímu řešení logické dlouhodobé ochrany s jedním LTP systémem na národní úrovni a Digital Preservation as a Service, spíše ale po roce 2017, pokud vůbec. U některých menších institucí se dá očekávat, že začnou do roku 2015 využívat uložení dat v cloudu od komerčních poskytovatelů (Amazon, Microsoft). Předpokládáme ale, že půjde o čisté uložení dat, případně jako záloha, žádné návazné služby. Využívání komerční DPaaS jako je např. Preservica od společnosti Tessella neočekáváme, případně bude světlou výjimkou.
Digitální repozitáře jakéhokoliv druhu a typu by měly být certifikovány, zvláště pokud jsou provozovány ve státních institucích financovaných ze státního rozpočtu a ukládají data významná po kulturní, společenské a státně organizační stránce, nebo data která vznikají za státní peníze. Do roku 2015 by měla vzniknout centrální instituce, která by se zabývala metodikou a také samotnou certifikací (auditem) repozitářů a organizací, které je provozují. Tato aktivita ovšem předpokládá soustavnou strategickou a finanční podporu dlouhodobé ochrany ze strany české vlády. Bylo by dobré vytvořit strategii dlouhodobé ochrany ČR, s plánem financování a oprostit se od pocitu, že podpora digitalizace je řešením.
Fáze třetí - masová digitalizace; snaha o nasazení LTP systému; řešení pro digital born dokumenty
Časové vymezení: od roku 2011 do jara 2013
Rok 2011 jako pomyslnou hranici mezi druhou a třetí fázi nebyl vybrán náhodou. Toho roku se po několikaletém plánování rozběhl projekt Národní digitální knihovna (NDK). Projekt Národní digitální archiv (NDA) byl blízko vyhlášení výběrového řízení. Oba projekty byly spojeny s plány na získání LTP systému na logickou dlouhodobou ochranu digitálních dat. Součástí NDK je také digitalizace 26 milionů stran. Ve stejné době se NK ČR upsala společnosti Google do společného projektu masové digitalizace sbírek 16 - 18. století. Krajské knihovny začaly s projekty na vybudování digitálních úložišť a masové digitalizace. To byl dobrý předpoklad pro stabilizování situace okolo ukládání dat i v menších institucích.
Ve světě po roce 2010 stále více a více velkých paměťových institucí a univerzit implementovalo LTP systémy, které si vytvářely samy, nebo nakupovaly hotová komerční řešení. DAM fázi už měly za sebou, a pochopily, že z pohledu zajištění ochrany a použitelnosti dat v budoucnu pouhý systém na správu dat není dostatečný. České instituce s výjimkou univerzit této DAM fáze ani nedosáhly. Některé se začaly snažit vytvářet systémy na správu i s určitou funkcionalitou pro dlouhodobou ochranu dat, např. Knihovna Akademie věd a její snaha o vytvoření nadstavby nad repozitářem Fedora - ProARC. Důvodem byla často finanční nedostupnost komerčních řešení.
V českých archivech pokračovala ve větších objemech digitalizace matrik a také ostatních často využívaných dokumentů. Aktivní byly vedle NA ČR také archivy oblastní. Začaly spojovat své síly, např. v projektu Acta Publica, kde zpřístupňují matriky Moravský zemský archiv, Státní oblastní archiv v Praze a SOA Plzeň. Obecně ale chybí celostátní koncepce digitalizace archiválií, centrální financování i metodika. Celé snažení je tak roztříštěné z technického pohledu, standardů a především z pohledu uživatele/badatele. Situace v knihovnách je daleko centralizovanější.
Z pohledu metadat je toto období jednoznačně ve znamení mezinárodních standardů, které jsou implementovány ve většině projektů. Již nikdo se nesnaží vytvářet vlastní specifikace metadat tam, kde existuje běžně užívaný standard. Důvodem je i větší orientace na mezinárodní spolupráci (EU projekty), propojení projektů, digitálních archivů, knihoven.
Po roce 2005 se ve světě objevuje nový koncept “digitalizace pro zpřístupnění”. Smyslem již nebyla náhrada papírového dokumentu ve studovnách z důvodu jeho fyzické ochrany, ale snaha uživatelům nabídnout co nejvíce dokumentů v digitální podobě online. Stále více a více uživatelů má totiž pocit, že to, co není dostupné online, neexistuje – viz také [KAHLE, 2004, s. 31]. Výraz „masová digitalizace“, čili digitalizace v masovém měřítku, se začal poprvé používat ve spojitosti s projekty jako Google Books. Tato kooperace mezi paměťovými institucemi a komerční firmou začala v roce 2004 jako Google Library Project. Existoval také obdobný projekt společnosti Microsoft – Microsoft Live Books, který byl ukončen v roce 2008. Po roce 2005 začaly s masovou digitalizací zahraniční knihovny i vlastními silami, např. národní knihovny Norska, Finska, Nizozemí, Kongresová knihovna a jiné. Karen Coyle ve svém článku Mass Digitization of Books [COYLE, 2006] uvádí, že masová digitalizace není jen projekt na digitalizaci velkého množství dokumentů. Je to digitalizace průmyslovou metodou, často digitalizace celých knihoven nebo celků bez jakéhokoliv výběru dokumentů. Cílem masové digitalizace není vytvářet jednotlivé sbírky, ale digitalizovat vše. A to ekonomicky výhodným, rychlým způsobem. Opakem masové digitalizace dle Karen Coyle je např. klasická „digitalizace jednotlivin“, tj. pečlivě vybíraných dokumentů nebo částí sbírek. Coyle rozlišuje i pojem „digitalizace velkého množství“ dokumentů, který dle ní také produkuje velká množství dat/stránek, ale cílí na vytváření sbírek, konkrétní dokumenty a komplexnost sbírek.
EU podpořila masovou digitalizaci již v roce 2006 v Doporučení Evropské komise členským státům z 24. srpna 2006, které zavazuje státy, aby vytvořily a provozovaly pracoviště masové digitalizace [EUROPEAN COMMISSION, 2006, s. 29]. V českém prostředí se začalo uvažovat o masové digitalizaci jako o možnosti urychlení digitalizace v NK ČR v roce 2007, kdy odstartovala jednání o spolupráci s firmou Google v projektu Google Books. K dohodě ale došlo až na konci roku 2010. Důraz na urychlení digitalizace byl i v Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. Koncepce nebyla nikdy pro nedostatek finanční podpory naplněna. Reálné úvahy o nákupu robotických skenerů pro NK ČR/MZK se objevily v roce 2008 s prvními plány na projekt NDK, který má masovou digitalizaci jako jeden ze svých tří hlavních cílů. Robotické skenery byly do NK ČR a do MZK nakoupeny v roce 2012. Oproti ostatním světovým národním knihovnám jde o několikaleté zpoždění a to i přesto, že již v roce 2005 pracovníci AIP Beroun testovali s pozitivním výsledkem skenery 4DigitalBooks na historických novinách z NK ČR [PSOHLAVEC, 2006, s. 39]. V současné době lze říci, že mezi českými paměťovými institucemi provádějí reálně masovou digitalizaci NK ČR a MZK v rámci projektu NDK.
Po roce 2011 se v ČR vedle projektu WebArchiv objevily nové aktivity ve shromažďování digital born dokumentů. V roce 2011 se v NK ČR začal plánovat projekt e-deposit na získávání a archivaci elektronických knih. NA ČR začal v projektu NDA řešit problematiku získávání, zpracování i dlouhodobé ochrany digital born archiválií.
Některé z typických projektů
Vytvoření Národní digitální knihovny (NDK)
Kořeny projektu je třeba hledat v Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. Ta poprvé popisovala Národní digitální knihovnu, již tvoří tři projekty NK ČR - Kramerius, WebArchiv a Manuscriptorium. Koncept NDK získal financování ze strukturálních fondů EU ve výši 300 milionů Kč a vznikl z něj projekt Vytvoření Národní digitální knihovny, který běží v NK ČR a MZK od roku 2008 do roku 2014. Cílem je vyřešit nejbolavější místa českého knihovnictví, tj. neexistenci masové digitalizace, neexistující LTP systém a absenci jednotného uživatelského rozhraní pro přístup ke všem možným zdrojům informací dostupných v dnešních knihovnách. Do konce projektu v roce 2014 má být zdigitalizováno 26 milionů stran periodik a monografií z 19. a 20. století. Stávající data NK ČR a nově vzniklá data by měla být uložena v LTP systému, který má zajistit jejich logickou dlouhodobou ochranu a zpřístupnění v budoucnu. Projekt má období udržitelnosti do roku 2019, kdy se díky získaným zkušenostem a nakoupeným systémům bude moci v digitalizaci pokračovat. Do té doby by mělo být hotovo 50 milionů naskenovaných stran, což odpovídá asi 300.000 svazků. Rychlostí digitalizace, kterou se postupovalo do roku 2011, by se takový počet stránek digitalizoval více než 100 let.
Google Books v NK ČR
Před Vánoci 2010 se NK ČR stala jednou ze dvanácti evropských knihoven, se kterými společnost Google spolupracuje na digitalizaci. Google již několik let uzavírá smlouvy s knihovnami v USA a v Evropě a provádí masovou digitalizaci jejich sbírek. Digitalizaci provádí na své náklady a to výměnou za přípravu metadat a vlastní data, kterých se poté stane vlastníkem. Knihovna dostane data v obrazovém formátu, který si z Googlem nabízených možností vybere a může je zpřístupnit skrz své aplikace. Vedle toho jsou data primárně zpřístupněna na webu Google Books. V případě NK ČR Google zdigitalizuje asi 200 tisíc svazků vydaných do konce 18. století, včetně dokumentů ze Slovanské knihovny. V případě Historických a hudebních fondů NK ČR bude pozornost věnována tištěné produkci 16., 17. a 18. století, jejíž digitalizace byla dosud zcela nedostačující [NÁRODNÍ KNIHOVNA ČR, 2011, s. 2]. Digitalizace probíhá v německém Mnichově, kde Google digitalizuje svazky Bavorské státní knihovny již několik let. Všechny dokumenty proto projdou transportem, vzhledem k jejich historické ceně musejí mít povolení k vývozu. Celý projekt je tak logisticky velmi náročný pro NK ČR. Příprava popisných metadat (katalogizačních záznamů) se ukázala jako časově i personálně náročná, u spousty dokumentů záznam v elektronické podobě ani neexistoval.
Národní digitální archiv (NDA)
Podstata projektu NDA byla plánována již od počátku nového tisíciletí. Už tehdy bylo jasné, že bude nutno řešit situaci, kdy původci a státní správa začali vytvářet dokumenty v digitální podobě a české archivy neměly procesní ani technické podmínky k tomu, aby je přijímaly a dlouhodobě uchovávaly. V roce 2008 pak vznikl technologický projekt k NDA, vytvořila ho firma ICZ. Projekt později získal financování ze strukturálních fondů EU. Cílem projektu je vytvořit HW a procesní infrastrukturu pro příjem digitálních dokumentů, jejich zpracování ve spolupráci s původcem (pořádání, skartace aj.), uložení do archivu, který bude schopen provádět procesy logické dlouhodobé ochrany. Samozřejmostí je i zpřístupnění badatelům. Součástí není proces digitalizace. Projekt NDA nevzniká na zelené louce, je podporován legislativou, koncepcemi, zkušenostmi, které MV ČR a pracovníci NA ČR získali a vytvořili od roku 2004. Jinými slovy digitální archiv musí vzniknout, aby čeští archiváři byli schopni naplnit literu Archivního zákona z roku 2004 a pozdějších vyhlášek. Pokud se podaří projekt naplnit podle Zadávací dokumentace, půjde o velký pokrok pro české archivnictví. Výběrové řízení na dodavatele technologií ICT, implementaci a vývoj SW bylo vyhlášeno v roce 2012, poté zrušeno a znovu vyhlášeno na jaře 2013.
Monasterium
Digitalizace pro projekt Monasterium se po roce 2011 podstatně zrychlila. Za léta 2011-2012 bylo v českých spolupracujících archivech zdigitalizováno cca 38 000 listin a cca 40 600 stran rukopisů. Tempo se tedy oproti předcházejícím letem zrychlilo (celkem 20 tisíc listin v letech 2006-2011) [KŘEČKOVÁ, 2012].
e-deposit - Správa elektronických publikací v síti knihoven České republiky
Je projekt NK ČR zaměřený na digital born publikace, konkrétně na získávání a archivaci elektronických knih. Nakladatelé již před rokem 2008 do NK ČR zasílali své publikace v elektronické podobě. Dělali to dobrovolně nad rámec povinného výtisku, který ještě ani v roce 2013 elektronické publikace nezahrnuje [!]. NK ČR neměla procesy pro příjem, zpracování nebo jejich uložení. Cílem čtyřletého projektu spuštěného v roce 2012 je vytvořit procesy na přebírání e-knih, obohacení o metadata a uložení v digitálním úložišti NK ČR. Projekt by měl mj. čerpat z možností, které vytvoří jiný projekt NDK.
Fáze z hlediska dlouhodobé ochrany digitálních informací
Změnu v přístupu k logické dlouhodobé ochraně digitálních dat mají do českých paměťových institucí přinést již zmíněné projekty NDA a NDK. U obou je tato změna podmíněna obrovským množstvím dat, které v jejich rámci budou NK ČR a NA ČR ukládat. V obou případech jde o dokumenty z historického a kulturního hlediska významné a tedy je nutné je ochránit pro budoucnost. V projektu NDK se počítá s vybudováním repozitáře a pořízením LTP systému na logickou dlouhodobou ochranu pro stará data a nová data z masové digitalizace vzniklá v NK ČR a MZK. Pokud se to podaří v původně plánovaném rozsahu, bude to velký pokrok oproti předchozímu stavu v NK ČR a ostatních knihovnách. Podobně i LTP systém NA ČR by měl podpořit logickou dlouhodobou ochranu digitálních archiválií v českém archivnictví. Zda tomu tak opravdu bude, ukáže v případě obou projektů čas.
Vyspělé paměťové instituce ve světě se od konce prvního desetiletí 21. století začaly zaměřovat na další krok po DAM systémech, a tím je logická dlouhodobá ochrana digitálních dat v podobě LTP systému. Při nasazení LTP systému se veškeré světové knihovny a archivy orientují na prověřená a otevřená řešení. Jdou cestou sdílení znalostí a specifikací požadavků na nové systémy, popisů datových modelů a metadat. „Zkušenost s provozem první generace systémů pro dlouhodobou ochranu je totiž naučila, že jedním ze zásadních požadavků na systém pro dlouhodobou ochranu a správu digitálních dokumentů je otevřenost ve smyslu možnosti integrace nástrojů třetích stran, veřejné dokumentace, flexibility nastavení data modelu a jednotlivých workflow pro správu dat.“ [FOJTŮ, HUTAŘ a MELICHAR, 2011, s. 74] Funkcionalita LTP systémů překračuje běžnou správu dat a ochranu ve smyslu záloh.
V posledních pěti letech se začala objevovat jak hotová komerční řešení pro LTP systémy, tak také open source LTP systémy. Pro centrální organizace typu národní knihovna nebo archiv je vhodným kandidátem komerční řešení; nevyžaduje velké úpravy a je schopno prokazatelně pracovat s miliony digitálních objektů. Ve vyzkoušeném komerčním řešení je záruka stability, úspěšné a rychlé implementace a dalšího rozvoje systému. Z komerčních LTP systémů jmenujme Safety Deposit Box (SDB, výrobce firma Tessella, Velká Británie) a LTP systém Rosetta (výrobce firma Ex Libris, Izrael). Naproti tomu Open source LTP systémy se hodí pro střední nebo malé instituce, které mají zdroje na vývoj, úpravy a další rozvoj systému a nepožadují správu několika milionů digitálních objektů. Open source LTP systémy jsou většinou výstupem několikaletého vývoje v rámci komunity, který se začal zúročovat až v poslední době. Velkou množinu zástupců tvoří systémy postavené na DAM SW pro správu repozitáře Fedora (RODA, HOPPLA, MOPSEUS, ISLANDORA). Nejdále s vývojem a reálným nasazením open source LTP je ovšem kanadská Archivematica, za kterou stojí firma Artefactual Systems. Archivematica je vyvíjena ve spolupráci s UNESCO Memory of the World. Archivematica prochází v roce 2013 testováním i v českých institucích, např. KNAV nebo MZK.
V roce 2012 se objevila novinka, když firma Tessella začala nabízet logickou ochranu digitálních dat jako službu v podobě využití systému umístěného v cloudu – služba dostala název Preservica a je dostupná od jara 2012. Využívají ji menší ale i středně velké knihovny a archivy. Podobným směrem se začínají ubírat i úvahy některých států, které uvažují o DPaaS (Digital Preservation as a Service) s jedním LTP systémem, který by řešil tuto problematiku pro všechny paměťové instituce (např. Finsko, Nový Zéland, Německo, Irsko, Francie).
Systém, který byl vybrán ve výběrovém řízení projektu NDK, je SW na správu dat (ECM systém) AiP SAFE. Systém v nabízené podobě nebyl prokazatelně schopen splnit požadavky pro LTP funkcionalitu ze zadávací dokumentace. Dodavatel ovšem deklaroval záměr doplnit SW na plně funkční LTP. I přesto ve výběrovém řízení, které bylo několikrát zpochybněno jak pracovníky NK ČR, tak odbornou veřejností (Knihovnická rada dopisem ze 6.1.2012), vyhrál AIP SAFE nad zavedenými zahraničními systémy uvedenými výše, které veškerou funkcionalitu pro LTP v době tendru měly. V roce 2014 v rámci certifikace LTP systému bude zřejmé, zda NK ČR fázi DAM, jak jsme ji definovali v předchozím textu, přeskočí či nikoli. Až po ukončení projektu bude možné vyhodnotit, zda systém AIP SAFE má a poskytuje veškerou funkcionalitu požadovanou v Zadávací dokumentaci pro LTP systém.
Situace v pochopení, v čem spočívá logická dlouhodobá ochrana, je stále nedostatečná, jak v dodavatelských firmách, tak i v paměťových institucích. Většina z nich považuje za dlouhodobou ochranu uložení a zálohy dat. Mimo národní instituce, v menších knihovnách, archivech, muzeích je situace stejná jako v předchozím období. Stále zápasí s tím, aby měly odpovídající digitální repozitář a problematika logické dlouhodobé ochrany pro ně není zatím aktuální.
Logická dlouhodobá ochrana digitálních informací, jak ji specifikuje referenční rámec OAIS (ISO 14721:2012) není jen o ochraně bitstreamu a prokázání, že se s digitálním dokumentem nijak nemanipulovalo apod. Podstatou je dosáhnout toho, aby dokument byl čitelný, použitelný i v budoucnu. V tomto smyslu je nutné provádět na dokumentech změny a ty zaznamenat (změnou je nejčastěji myšlena migrace do jiného formátu). Systém na logickou dlouhodobou ochranu proto musí kontrolovat zastarávání formátů, musí mít přehled o tom, jaké formáty jsou v archivu uloženy, musí vědět o problematických (nevalidních souborech) apod. Systém musí být schopen pomoci správci dat s migrací. Tj. poskytnout prostředí pro vyhledání dokumentů, testování různých způsobů migrace, porovnání jejich výsledků. Měl by také nabídnout možnost migraci provést. O všech těchto procesech, změnách, přístupech k datům apod. se musí zaznamenávat metadata.
Typický systém na digitální archiv (nebo archiv elektronických dokumentů) nabízený firmám a archivům v ČR výše uvedené nesplňuje. Jde o systémy na správu dat, které do jisté míry odpovídají funkčně DAM systémům. Mohou mít funkcionalitu navíc, např. identifikaci formátů, ale preservation modul, kontrolu rizik spojených s formáty, hodnocení rizik nebo validity formátů, které by odpovídaly OAIS, nemají. Firmy se snaží do těchto systémů zabudovat procesy na tvorbu, kontrolu časových razítek, elektronických podpisů apod. Důvodem je prokázání autenticity digitálních dokumentů. Jelikož elektronický podpis (certifikáty na jejich kontrolu) mají časově omezenou životnost, je nutno dokumenty razítkovat opakovaně tak, aby byla potvrzena platnost certifikátu. Obecně lze k těmto dokumentům přistupovat tak, že jejich autenticita je prokázána metadaty, tedy údaji o všech procesech. Na to samozřejmě musí být systém, který tyto údaje zaznamená. Definici autenticity podle ISO 15479 International Standard on Records Management zcela odpovídá, pokud je archiv schopen prokázat všechny události, které se s dokumentem děly, od okamžiku jeho přebrání od původce. Tedy digitální dokument je autentický, pokud byl vytvořen a zaslán oprávněnou osobou, v relevantním čase, a je tím, zač se vydává. Za autenticitu dokumentu do okamžiku přebrání archivem zodpovídá původce. Tento přístup je plně podporován v OAIS a existujících systémech na logickou ochranu digitálních dat. Společnost, tedy uživatelé, musí mít také samozřejmě důvěru v instituci archivu samotného.
Způsoby uložení dat
Převážná většina větších českých institucí (krajské knihovny, oblastní archivy, univerzity a muzea) má vyřešenu ochranu bit-streamu a zálohy svých dat na online úložištích. Stále je to ale nejčastěji pouze ve file systému, bez aplikace na správu dat a metadat. Někde je to provedeno na centrální úrovni, např. některé kraje a krajská datová centra. Ukládání dat na optických nosičích nebo offline externích discích je již spíše výjimečné. V mnoha institucích ve světě se začíná využívat uložení dat v tzv. cloudu, který lze využít jak pro uložení, zálohování, tak pro logickou dlouhodobou ochranu. Je to vlastně další médium, se kterým se SW pro repozitáře nebo LTP učí pracovat. Nejčastěji jsou využívány služby Amazon S3 nebo novější Amazon Glacier, Microsoft Azure a další. Zvláště v USA je populární SW iRODS, který zajišťuje správu digitálních objektů uložených v cloudu. Na jeho základě funguje např. data grid rozhraní (a také síť) pro dlouhodobou ochranu digitálních dat pocházejících z více institucí – Chronopolis, které je podporováno Kongresovou knihovnou v rámci NDIIPP programu. Významnou výhodou využívání cloudu obecně je dostupnost dat, flexibilita a doprovodné služby. Služby jako Amazon Glacier mohou být řešením pro menší instituce, které nechtějí nebo nedosáhnou na budování vlastního digitálního repozitáře. V určitých zemích tyto snahy podporuje i místní vláda, která buduje centrální datová centra pro vládní instituce, která potom fungují na principu IaaS (Infrastructure as a Service). Knihovna, muzeum aj. si pak nakupuje potřebný úložný prostor od vlastní vlády, čímž šetří peníze za spoustu doprovodných služeb, které by musely hradit při budování svého repozitáře (viz Rakousko, Nový Zéland aj.). V českém prostředí se zatím na národní úrovni IaaS pro paměťové instituce neplánuje, ukládání v cloudu není rovněž rozšířené.
Shrnutí - současný stav v oblasti dlouhodobé ochrany v ČR
Základní charakteristiky současného stavu připravenosti k dlouhodobé archivaci digitálních dat v paměťových institucích ČR by se daly shrnout do několika bodů:
Pochopení dlouhodobé ochrany digitálních dat
V českých paměťových institucích stále existuje malé pochopení rozdílu mezi ochranou bit streamu, v podobě jejich uložení a dostatečných záloh; a mezi logickou dlouhodobou ochranou, která má zajistit dostupnost, pochopitelnost, zobrazitelnost obsahu dokumentů v budoucnu i přes technologické změny (zastarání HW a SW apod.).
Mandát k dlouhodobé archivaci digitálních dat
Instituce jasně nevyjadřují, že se dlouhodobou ochranou budou zabývat. Nemají jasně definované strategie, jejich zřizovatelé po nich strategie v tomto směru nechtějí. Možná je to díky malé důležitosti, která se v českých paměťových institucích strategiím, zvláště těm dlouhodobým, často přisuzuje.
Data management - správa dat
- České paměťové instituce se vyznačují ad hoc řešením managementu dat - většina projektů v oblasti AKM byla jen slabě plánována v tomto ohledu a management dat v institucích byl a je řešen minimálně. V institucích neexistují plány správy dat, jejich ukládání ani zavedené a fixované procesy, které by mohly zajistit standardní implementaci datových plánů. Písemná dokumentace k procesům chybí. Každý pracovník provádí proces „po svém“, ideální proces není kodifikován. Výsledkem jsou ztráty dat. Žádoucí je větší formalizace a standardizace v této oblasti, tj. zavedení standardních procesů, které umožní plánovat správu dat a financování už ve fázi hledání finančního zajištění projektů. Ideálem je situace, kde ten, kdo plánuje digitalizační projekt má k dispozici nástroje, které mu snadno umožní odhadnout požadavky na uložení, dopředu stanovit procesy, které musí zajistit pro archivaci a trvalé uložení dat. Procesy a plány by pak byly naplňovány.
Zajištění integrity a autenticity dat
Díky minimálním možnostem managementu dat jsou nedostatečné i mechanismy a procesy pro kontrolu a zajištění integrity a autenticity dat. Instituce nemají stanovené procesy a často data ani nekontrolují. Není možné doložit co se s dokumentem během jeho uložení v archivu dělo. Instituce nevědí, kdo k datům interně přistupuje (zaměstnanci, správci IT, externí firmy apod.) a zda jsou data v pořádku. Autenticita takových dokumentů je nulová.
Financování
Aktivity spojené s archivací dat jsou financovány z provozních rozpočtů institucí nebo, a to daleko více, z projektů. V minimu institucí je financování uložení a ochrany dat pevnou součástí rozpočtu se svou položkou. Řeší se nárazově.
Lidské zdroje
Odvíjí se od předchozího bodu. Problémem je financování, v menších institucích se o archivaci dat stará IT, nebo osoba, která spravuje počítače. Ve větších institucích může existovat oddělení nebo určená osoba, také většinou součástí IT. Chybí odpovídající finanční ohodnocení a tím pádem problém udržet kvalitní pracovníky.
Spolupráce a sdílení znalostí
Spolupráce v oblasti dlouhodobé ochrany je mezi českými paměťovými institucemi malá, zvláště mezi obory (archivnictví, knihovnictví, muzejnictví a galerie). Nejvíce centralizovaná spolupráce, financování a také procesy, standardy jsou v knihovnictví. Sdílení znalostí probíhá nahodile. I přes existenci konferencí jako je např. Archivy, knihovny a muzea v digitálním světě, jsou společné projekty vidět málokdy.
Grafické vyjádření stavu logické dlouhodobé ochrany digitálních dat v malých a velkých českých institucích.
Fáze třetí - masová digitalizace; snaha o nasazení LTP systému; řešení pro digital born dokumenty
Časové vymezení: od roku 2011 do jara 2013
Základní charakteristiky fáze
Rok 2011 jako pomyslnou hranici mezi druhou a třetí fázi nebyl vybrán náhodou. Toho roku se po několikaletém plánování rozběhl projekt Národní digitální knihovna (NDK). Projekt Národní digitální archiv (NDA) byl blízko vyhlášení výběrového řízení. Oba projekty byly spojeny s plány na získání LTP systému na logickou dlouhodobou ochranu digitálních dat. Součástí NDK je také digitalizace 26 milionů stran. Ve stejné době se NK ČR upsala společnosti Google do společného projektu masové digitalizace sbírek 16 - 18. století. Krajské knihovny začaly s projekty na vybudování digitálních úložišť a masové digitalizace. To byl dobrý předpoklad pro stabilizování situace okolo ukládání dat i v menších institucích.
Ve světě po roce 2010 stále více a více velkých paměťových institucí a univerzit implementovalo LTP systémy, které si vytvářely samy, nebo nakupovaly hotová komerční řešení. DAM fázi už měly za sebou, a pochopily, že z pohledu zajištění ochrany a použitelnosti dat v budoucnu pouhý systém na správu dat není dostatečný. České instituce s výjimkou univerzit této DAM fáze ani nedosáhly. Některé se začaly snažit vytvářet systémy na správu i s určitou funkcionalitou pro dlouhodobou ochranu dat, např. Knihovna Akademie věd a její snaha o vytvoření nadstavby nad repozitářem Fedora - ProARC. Důvodem byla často finanční nedostupnost komerčních řešení.
V českých archivech pokračovala ve větších objemech digitalizace matrik a také ostatních často využívaných dokumentů. Aktivní byly vedle NA ČR také archivy oblastní. Začaly spojovat své síly, např. v projektu Acta Publica, kde zpřístupňují matriky Moravský zemský archiv, Státní oblastní archiv v Praze a SOA Plzeň. Obecně ale chybí celostátní koncepce digitalizace archiválií, centrální financování i metodika. Celé snažení je tak roztříštěné z technického pohledu, standardů a především z pohledu uživatele/badatele. Situace v knihovnách je daleko centralizovanější.
Z pohledu metadat je toto období jednoznačně ve znamení mezinárodních standardů, které jsou implementovány ve většině projektů. Již nikdo se nesnaží vytvářet vlastní specifikace metadat tam, kde existuje běžně užívaný standard. Důvodem je i větší orientace na mezinárodní spolupráci (EU projekty), propojení projektů, digitálních archivů, knihoven.
Po roce 2005 se ve světě objevuje nový koncept “digitalizace pro zpřístupnění”. Smyslem již nebyla náhrada papírového dokumentu ve studovnách z důvodu jeho fyzické ochrany, ale snaha uživatelům nabídnout co nejvíce dokumentů v digitální podobě online. Stále více a více uživatelů má totiž pocit, že to, co není dostupné online, neexistuje – viz také [KAHLE, 2004, s. 31]. Výraz „masová digitalizace“, čili digitalizace v masovém měřítku, se začal poprvé používat ve spojitosti s projekty jako Google Books. Tato kooperace mezi paměťovými institucemi a komerční firmou začala v roce 2004 jako Google Library Project. Existoval také obdobný projekt společnosti Microsoft – Microsoft Live Books, který byl ukončen v roce 2008. Po roce 2005 začaly s masovou digitalizací zahraniční knihovny i vlastními silami, např. národní knihovny Norska, Finska, Nizozemí, Kongresová knihovna a jiné. Karen Coyle ve svém článku Mass Digitization of Books [COYLE, 2006] uvádí, že masová digitalizace není jen projekt na digitalizaci velkého množství dokumentů. Je to digitalizace průmyslovou metodou, často digitalizace celých knihoven nebo celků bez jakéhokoliv výběru dokumentů. Cílem masové digitalizace není vytvářet jednotlivé sbírky, ale digitalizovat vše. A to ekonomicky výhodným, rychlým způsobem. Opakem masové digitalizace dle Karen Coyle je např. klasická „digitalizace jednotlivin“, tj. pečlivě vybíraných dokumentů nebo částí sbírek. Coyle rozlišuje i pojem „digitalizace velkého množství“ dokumentů, který dle ní také produkuje velká množství dat/stránek, ale cílí na vytváření sbírek, konkrétní dokumenty a komplexnost sbírek.
EU podpořila masovou digitalizaci již v roce 2006 v Doporučení Evropské komise členským státům z 24. srpna 2006, které zavazuje státy, aby vytvořily a provozovaly pracoviště masové digitalizace [EUROPEAN COMMISSION, 2006, s. 29]. V českém prostředí se začalo uvažovat o masové digitalizaci jako o možnosti urychlení digitalizace v NK ČR v roce 2007, kdy odstartovala jednání o spolupráci s firmou Google v projektu Google Books. K dohodě ale došlo až na konci roku 2010. Důraz na urychlení digitalizace byl i v Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. Koncepce nebyla nikdy pro nedostatek finanční podpory naplněna. Reálné úvahy o nákupu robotických skenerů pro NK ČR/MZK se objevily v roce 2008 s prvními plány na projekt NDK, který má masovou digitalizaci jako jeden ze svých tří hlavních cílů. Robotické skenery byly do NK ČR a do MZK nakoupeny v roce 2012. Oproti ostatním světovým národním knihovnám jde o několikaleté zpoždění a to i přesto, že již v roce 2005 pracovníci AIP Beroun testovali s pozitivním výsledkem skenery 4DigitalBooks na historických novinách z NK ČR [PSOHLAVEC, 2006, s. 39]. V současné době lze říci, že mezi českými paměťovými institucemi provádějí reálně masovou digitalizaci NK ČR a MZK v rámci projektu NDK.
Po roce 2011 se v ČR vedle projektu WebArchiv objevily nové aktivity ve shromažďování digital born dokumentů. V roce 2011 se v NK ČR začal plánovat projekt e-deposit na získávání a archivaci elektronických knih. NA ČR začal v projektu NDA řešit problematiku získávání, zpracování i dlouhodobé ochrany digital born archiválií.
Některé z typických projektů
Vytvoření Národní digitální knihovny (NDK)
Kořeny projektu je třeba hledat v Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. Ta poprvé popisovala Národní digitální knihovnu, již tvoří tři projekty NK ČR - Kramerius, WebArchiv a Manuscriptorium. Koncept NDK získal financování ze strukturálních fondů EU ve výši 300 milionů Kč a vznikl z něj projekt Vytvoření Národní digitální knihovny, který běží v NK ČR a MZK od roku 2008 do roku 2014. Cílem je vyřešit nejbolavější místa českého knihovnictví, tj. neexistenci masové digitalizace, neexistující LTP systém a absenci jednotného uživatelského rozhraní pro přístup ke všem možným zdrojům informací dostupných v dnešních knihovnách. Do konce projektu v roce 2014 má být zdigitalizováno 26 milionů stran periodik a monografií z 19. a 20. století. Stávající data NK ČR a nově vzniklá data by měla být uložena v LTP systému, který má zajistit jejich logickou dlouhodobou ochranu a zpřístupnění v budoucnu. Projekt má období udržitelnosti do roku 2019, kdy se díky získaným zkušenostem a nakoupeným systémům bude moci v digitalizaci pokračovat. Do té doby by mělo být hotovo 50 milionů naskenovaných stran, což odpovídá asi 300.000 svazků. Rychlostí digitalizace, kterou se postupovalo do roku 2011, by se takový počet stránek digitalizoval více než 100 let.
Google Books v NK ČR
Před Vánoci 2010 se NK ČR stala jednou ze dvanácti evropských knihoven, se kterými společnost Google spolupracuje na digitalizaci. Google již několik let uzavírá smlouvy s knihovnami v USA a v Evropě a provádí masovou digitalizaci jejich sbírek. Digitalizaci provádí na své náklady a to výměnou za přípravu metadat a vlastní data, kterých se poté stane vlastníkem. Knihovna dostane data v obrazovém formátu, který si z Googlem nabízených možností vybere a může je zpřístupnit skrz své aplikace. Vedle toho jsou data primárně zpřístupněna na webu Google Books. V případě NK ČR Google zdigitalizuje asi 200 tisíc svazků vydaných do konce 18. století, včetně dokumentů ze Slovanské knihovny. V případě Historických a hudebních fondů NK ČR bude pozornost věnována tištěné produkci 16., 17. a 18. století, jejíž digitalizace byla dosud zcela nedostačující [NÁRODNÍ KNIHOVNA ČR, 2011, s. 2]. Digitalizace probíhá v německém Mnichově, kde Google digitalizuje svazky Bavorské státní knihovny již několik let. Všechny dokumenty proto projdou transportem, vzhledem k jejich historické ceně musejí mít povolení k vývozu. Celý projekt je tak logisticky velmi náročný pro NK ČR. Příprava popisných metadat (katalogizačních záznamů) se ukázala jako časově i personálně náročná, u spousty dokumentů záznam v elektronické podobě ani neexistoval.
Národní digitální archiv (NDA)
Podstata projektu NDA byla plánována již od počátku nového tisíciletí. Už tehdy bylo jasné, že bude nutno řešit situaci, kdy původci a státní správa začali vytvářet dokumenty v digitální podobě a české archivy neměly procesní ani technické podmínky k tomu, aby je přijímaly a dlouhodobě uchovávaly. V roce 2008 pak vznikl technologický projekt k NDA, vytvořila ho firma ICZ. Projekt později získal financování ze strukturálních fondů EU. Cílem projektu je vytvořit HW a procesní infrastrukturu pro příjem digitálních dokumentů, jejich zpracování ve spolupráci s původcem (pořádání, skartace aj.), uložení do archivu, který bude schopen provádět procesy logické dlouhodobé ochrany. Samozřejmostí je i zpřístupnění badatelům. Součástí není proces digitalizace. Projekt NDA nevzniká na zelené louce, je podporován legislativou, koncepcemi, zkušenostmi, které MV ČR a pracovníci NA ČR získali a vytvořili od roku 2004. Jinými slovy digitální archiv musí vzniknout, aby čeští archiváři byli schopni naplnit literu Archivního zákona z roku 2004 a pozdějších vyhlášek. Pokud se podaří projekt naplnit podle Zadávací dokumentace, půjde o velký pokrok pro české archivnictví. Výběrové řízení na dodavatele technologií ICT, implementaci a vývoj SW bylo vyhlášeno v roce 2012, poté zrušeno a znovu vyhlášeno na jaře 2013.
Monasterium
Digitalizace pro projekt Monasterium se po roce 2011 podstatně zrychlila. Za léta 2011-2012 bylo v českých spolupracujících archivech zdigitalizováno cca 38 000 listin a cca 40 600 stran rukopisů. Tempo se tedy oproti předcházejícím letem zrychlilo (celkem 20 tisíc listin v letech 2006-2011) [KŘEČKOVÁ, 2012].
e-deposit - Správa elektronických publikací v síti knihoven České republiky
Je projekt NK ČR zaměřený na digital born publikace, konkrétně na získávání a archivaci elektronických knih. Nakladatelé již před rokem 2008 do NK ČR zasílali své publikace v elektronické podobě. Dělali to dobrovolně nad rámec povinného výtisku, který ještě ani v roce 2013 elektronické publikace nezahrnuje [!]. NK ČR neměla procesy pro příjem, zpracování nebo jejich uložení. Cílem čtyřletého projektu spuštěného v roce 2012 je vytvořit procesy na přebírání e-knih, obohacení o metadata a uložení v digitálním úložišti NK ČR. Projekt by měl mj. čerpat z možností, které vytvoří jiný projekt NDK.
Fáze z hlediska dlouhodobé ochrany digitálních informací
Změnu v přístupu k logické dlouhodobé ochraně digitálních dat mají do českých paměťových institucí přinést již zmíněné projekty NDA a NDK. U obou je tato změna podmíněna obrovským množstvím dat, které v jejich rámci budou NK ČR a NA ČR ukládat. V obou případech jde o dokumenty z historického a kulturního hlediska významné a tedy je nutné je ochránit pro budoucnost. V projektu NDK se počítá s vybudováním repozitáře a pořízením LTP systému na logickou dlouhodobou ochranu pro stará data a nová data z masové digitalizace vzniklá v NK ČR a MZK. Pokud se to podaří v původně plánovaném rozsahu, bude to velký pokrok oproti předchozímu stavu v NK ČR a ostatních knihovnách. Podobně i LTP systém NA ČR by měl podpořit logickou dlouhodobou ochranu digitálních archiválií v českém archivnictví. Zda tomu tak opravdu bude, ukáže v případě obou projektů čas.
Vyspělé paměťové instituce ve světě se od konce prvního desetiletí 21. století začaly zaměřovat na další krok po DAM systémech, a tím je logická dlouhodobá ochrana digitálních dat v podobě LTP systému. Při nasazení LTP systému se veškeré světové knihovny a archivy orientují na prověřená a otevřená řešení. Jdou cestou sdílení znalostí a specifikací požadavků na nové systémy, popisů datových modelů a metadat. „Zkušenost s provozem první generace systémů pro dlouhodobou ochranu je totiž naučila, že jedním ze zásadních požadavků na systém pro dlouhodobou ochranu a správu digitálních dokumentů je otevřenost ve smyslu možnosti integrace nástrojů třetích stran, veřejné dokumentace, flexibility nastavení data modelu a jednotlivých workflow pro správu dat.“ [FOJTŮ, HUTAŘ a MELICHAR, 2011, s. 74] Funkcionalita LTP systémů překračuje běžnou správu dat a ochranu ve smyslu záloh.
V posledních pěti letech se začala objevovat jak hotová komerční řešení pro LTP systémy, tak také open source LTP systémy. Pro centrální organizace typu národní knihovna nebo archiv je vhodným kandidátem komerční řešení; nevyžaduje velké úpravy a je schopno prokazatelně pracovat s miliony digitálních objektů. Ve vyzkoušeném komerčním řešení je záruka stability, úspěšné a rychlé implementace a dalšího rozvoje systému. Z komerčních LTP systémů jmenujme Safety Deposit Box (SDB, výrobce firma Tessella, Velká Británie) a LTP systém Rosetta (výrobce firma Ex Libris, Izrael). Naproti tomu Open source LTP systémy se hodí pro střední nebo malé instituce, které mají zdroje na vývoj, úpravy a další rozvoj systému a nepožadují správu několika milionů digitálních objektů. Open source LTP systémy jsou většinou výstupem několikaletého vývoje v rámci komunity, který se začal zúročovat až v poslední době. Velkou množinu zástupců tvoří systémy postavené na DAM SW pro správu repozitáře Fedora (RODA, HOPPLA, MOPSEUS, ISLANDORA). Nejdále s vývojem a reálným nasazením open source LTP je ovšem kanadská Archivematica, za kterou stojí firma Artefactual Systems. Archivematica je vyvíjena ve spolupráci s UNESCO Memory of the World. Archivematica prochází v roce 2013 testováním i v českých institucích, např. KNAV nebo MZK.
V roce 2012 se objevila novinka, když firma Tessella začala nabízet logickou ochranu digitálních dat jako službu v podobě využití systému umístěného v cloudu – služba dostala název Preservica a je dostupná od jara 2012. Využívají ji menší ale i středně velké knihovny a archivy. Podobným směrem se začínají ubírat i úvahy některých států, které uvažují o DPaaS (Digital Preservation as a Service) s jedním LTP systémem, který by řešil tuto problematiku pro všechny paměťové instituce (např. Finsko, Nový Zéland, Německo, Irsko, Francie).
Systém, který byl vybrán ve výběrovém řízení projektu NDK, je SW na správu dat (ECM systém) AiP SAFE. Systém v nabízené podobě nebyl prokazatelně schopen splnit požadavky pro LTP funkcionalitu ze zadávací dokumentace. Dodavatel ovšem deklaroval záměr doplnit SW na plně funkční LTP. I přesto ve výběrovém řízení, které bylo několikrát zpochybněno jak pracovníky NK ČR, tak odbornou veřejností (Knihovnická rada dopisem ze 6.1.2012), vyhrál AIP SAFE nad zavedenými zahraničními systémy uvedenými výše, které veškerou funkcionalitu pro LTP v době tendru měly. V roce 2014 v rámci certifikace LTP systému bude zřejmé, zda NK ČR fázi DAM, jak jsme ji definovali v předchozím textu, přeskočí či nikoli. Až po ukončení projektu bude možné vyhodnotit, zda systém AIP SAFE má a poskytuje veškerou funkcionalitu požadovanou v Zadávací dokumentaci pro LTP systém.
Situace v pochopení, v čem spočívá logická dlouhodobá ochrana, je stále nedostatečná, jak v dodavatelských firmách, tak i v paměťových institucích. Většina z nich považuje za dlouhodobou ochranu uložení a zálohy dat. Mimo národní instituce, v menších knihovnách, archivech, muzeích je situace stejná jako v předchozím období. Stále zápasí s tím, aby měly odpovídající digitální repozitář a problematika logické dlouhodobé ochrany pro ně není zatím aktuální.
Logická dlouhodobá ochrana digitálních informací, jak ji specifikuje referenční rámec OAIS (ISO 14721:2012) není jen o ochraně bitstreamu a prokázání, že se s digitálním dokumentem nijak nemanipulovalo apod. Podstatou je dosáhnout toho, aby dokument byl čitelný, použitelný i v budoucnu. V tomto smyslu je nutné provádět na dokumentech změny a ty zaznamenat (změnou je nejčastěji myšlena migrace do jiného formátu). Systém na logickou dlouhodobou ochranu proto musí kontrolovat zastarávání formátů, musí mít přehled o tom, jaké formáty jsou v archivu uloženy, musí vědět o problematických (nevalidních souborech) apod. Systém musí být schopen pomoci správci dat s migrací. Tj. poskytnout prostředí pro vyhledání dokumentů, testování různých způsobů migrace, porovnání jejich výsledků. Měl by také nabídnout možnost migraci provést. O všech těchto procesech, změnách, přístupech k datům apod. se musí zaznamenávat metadata.
Typický systém na digitální archiv (nebo archiv elektronických dokumentů) nabízený firmám a archivům v ČR výše uvedené nesplňuje. Jde o systémy na správu dat, které do jisté míry odpovídají funkčně DAM systémům. Mohou mít funkcionalitu navíc, např. identifikaci formátů, ale preservation modul, kontrolu rizik spojených s formáty, hodnocení rizik nebo validity formátů, které by odpovídaly OAIS, nemají. Firmy se snaží do těchto systémů zabudovat procesy na tvorbu, kontrolu časových razítek, elektronických podpisů apod. Důvodem je prokázání autenticity digitálních dokumentů. Jelikož elektronický podpis (certifikáty na jejich kontrolu) mají časově omezenou životnost, je nutno dokumenty razítkovat opakovaně tak, aby byla potvrzena platnost certifikátu. Obecně lze k těmto dokumentům přistupovat tak, že jejich autenticita je prokázána metadaty, tedy údaji o všech procesech. Na to samozřejmě musí být systém, který tyto údaje zaznamená. Definici autenticity podle ISO 15479 International Standard on Records Management zcela odpovídá, pokud je archiv schopen prokázat všechny události, které se s dokumentem děly, od okamžiku jeho přebrání od původce. Tedy digitální dokument je autentický, pokud byl vytvořen a zaslán oprávněnou osobou, v relevantním čase, a je tím, zač se vydává. Za autenticitu dokumentu do okamžiku přebrání archivem zodpovídá původce. Tento přístup je plně podporován v OAIS a existujících systémech na logickou ochranu digitálních dat. Společnost, tedy uživatelé, musí mít také samozřejmě důvěru v instituci archivu samotného.
Způsoby uložení dat
Převážná většina větších českých institucí (krajské knihovny, oblastní archivy, univerzity a muzea) má vyřešenu ochranu bit-streamu a zálohy svých dat na online úložištích. Stále je to ale nejčastěji pouze ve file systému, bez aplikace na správu dat a metadat. Někde je to provedeno na centrální úrovni, např. některé kraje a krajská datová centra. Ukládání dat na optických nosičích nebo offline externích discích je již spíše výjimečné. V mnoha institucích ve světě se začíná využívat uložení dat v tzv. cloudu, který lze využít jak pro uložení, zálohování, tak pro logickou dlouhodobou ochranu. Je to vlastně další médium, se kterým se SW pro repozitáře nebo LTP učí pracovat. Nejčastěji jsou využívány služby Amazon S3 nebo novější Amazon Glacier, Microsoft Azure a další. Zvláště v USA je populární SW iRODS, který zajišťuje správu digitálních objektů uložených v cloudu. Na jeho základě funguje např. data grid rozhraní (a také síť) pro dlouhodobou ochranu digitálních dat pocházejících z více institucí – Chronopolis, které je podporováno Kongresovou knihovnou v rámci NDIIPP programu. Významnou výhodou využívání cloudu obecně je dostupnost dat, flexibilita a doprovodné služby. Služby jako Amazon Glacier mohou být řešením pro menší instituce, které nechtějí nebo nedosáhnou na budování vlastního digitálního repozitáře. V určitých zemích tyto snahy podporuje i místní vláda, která buduje centrální datová centra pro vládní instituce, která potom fungují na principu IaaS (Infrastructure as a Service). Knihovna, muzeum aj. si pak nakupuje potřebný úložný prostor od vlastní vlády, čímž šetří peníze za spoustu doprovodných služeb, které by musely hradit při budování svého repozitáře (viz Rakousko, Nový Zéland aj.). V českém prostředí se zatím na národní úrovni IaaS pro paměťové instituce neplánuje, ukládání v cloudu není rovněž rozšířené.
Shrnutí - současný stav v oblasti dlouhodobé ochrany v ČR
Základní charakteristiky současného stavu připravenosti k dlouhodobé archivaci digitálních dat v paměťových institucích ČR by se daly shrnout do několika bodů:
Pochopení dlouhodobé ochrany digitálních dat
V českých paměťových institucích stále existuje malé pochopení rozdílu mezi ochranou bit streamu, v podobě jejich uložení a dostatečných záloh; a mezi logickou dlouhodobou ochranou, která má zajistit dostupnost, pochopitelnost, zobrazitelnost obsahu dokumentů v budoucnu i přes technologické změny (zastarání HW a SW apod.).
Mandát k dlouhodobé archivaci digitálních dat
Instituce jasně nevyjadřují, že se dlouhodobou ochranou budou zabývat. Nemají jasně definované strategie, jejich zřizovatelé po nich strategie v tomto směru nechtějí. Možná je to díky malé důležitosti, která se v českých paměťových institucích strategiím, zvláště těm dlouhodobým, často přisuzuje.
Data management - správa dat
- České paměťové instituce se vyznačují ad hoc řešením managementu dat - většina projektů v oblasti AKM byla jen slabě plánována v tomto ohledu a management dat v institucích byl a je řešen minimálně. V institucích neexistují plány správy dat, jejich ukládání ani zavedené a fixované procesy, které by mohly zajistit standardní implementaci datových plánů. Písemná dokumentace k procesům chybí. Každý pracovník provádí proces „po svém“, ideální proces není kodifikován. Výsledkem jsou ztráty dat. Žádoucí je větší formalizace a standardizace v této oblasti, tj. zavedení standardních procesů, které umožní plánovat správu dat a financování už ve fázi hledání finančního zajištění projektů. Ideálem je situace, kde ten, kdo plánuje digitalizační projekt má k dispozici nástroje, které mu snadno umožní odhadnout požadavky na uložení, dopředu stanovit procesy, které musí zajistit pro archivaci a trvalé uložení dat. Procesy a plány by pak byly naplňovány.
Zajištění integrity a autenticity dat
Díky minimálním možnostem managementu dat jsou nedostatečné i mechanismy a procesy pro kontrolu a zajištění integrity a autenticity dat. Instituce nemají stanovené procesy a často data ani nekontrolují. Není možné doložit co se s dokumentem během jeho uložení v archivu dělo. Instituce nevědí, kdo k datům interně přistupuje (zaměstnanci, správci IT, externí firmy apod.) a zda jsou data v pořádku. Autenticita takových dokumentů je nulová.
Financování
Aktivity spojené s archivací dat jsou financovány z provozních rozpočtů institucí nebo, a to daleko více, z projektů. V minimu institucí je financování uložení a ochrany dat pevnou součástí rozpočtu se svou položkou. Řeší se nárazově.
Lidské zdroje
Odvíjí se od předchozího bodu. Problémem je financování, v menších institucích se o archivaci dat stará IT, nebo osoba, která spravuje počítače. Ve větších institucích může existovat oddělení nebo určená osoba, také většinou součástí IT. Chybí odpovídající finanční ohodnocení a tím pádem problém udržet kvalitní pracovníky.
Spolupráce a sdílení znalostí
Spolupráce v oblasti dlouhodobé ochrany je mezi českými paměťovými institucemi malá, zvláště mezi obory (archivnictví, knihovnictví, muzejnictví a galerie). Nejvíce centralizovaná spolupráce, financování a také procesy, standardy jsou v knihovnictví. Sdílení znalostí probíhá nahodile. I přes existenci konferencí jako je např. Archivy, knihovny a muzea v digitálním světě, jsou společné projekty vidět málokdy.
Grafické vyjádření stavu logické dlouhodobé ochrany digitálních dat v malých a velkých českých institucích.
MELICHAR, Marek; HUTAŘ, Jan. České paměťové instituce a digitální data – historický exkurz, současný stav a předpokládaný vývoj III.. Duha: Informace o knihách a knihovnách [online]. 2014, 28(2) [cit. 2025-04-05]. ISSN 1804-4255. Dostupné z: http://duha.mzk.cz/clanky/ceske-pametove-instituce-digitalni-data-historicky-exkurz-soucasny-stav-predpokladany-vyvoj-i
/*
Duha vychází 4× ročně v elektronické i tištěné podobě. Tištěná čísla ve formátu PDF naleznete zde.
|
|