Nacházíte se: Úvod » Archiv čísel » 1/2012 » Dlouhodobá ochrana podnikových dokumentů: Analýza rozdílů mezi ECM a OAIS
Přeložili: Marek Melichar, Jan Hutař
V digitální podobě je dnes produkováno stále více informací. Kromě tzv. čistě elektronického obsahu (born-digital) se také původně analogový materiál převádí do digitální podoby, a to z ochranných důvodů i pro účely zpřístupnění. Tyto digitální informace vznikají ve stále více variantách formátů, z nichž mnohé relativně rychle zastarávají. Nové verze téhož softwaru často nejsou schopny otevřít soubory vytvořené ve starších verzích daného programu, natož pak soubory vytvořené podobným programem jiného výrobce. Softwarové a hardwarové prostředí se neustále vyvíjí a po několika letech mohou být starší soubory v aktuálně existujících systémech zcela nepoužitelné.
Zatímco velké vědecké organizace a paměťové instituce (muzea, knihovny a archivy) věnovaly v posledních letech problematice dlouhodobé ochrany digitálních dat značnou pozornost, firemní svět nemá v současné době nástroje umožňující dlouhodobé uchovávání digitálních informací.
Tento článek si klade za cíl ukázat, co by bylo potřeba proto, aby moderní Enterprise Content Management (ECM) systémy byly připraveny k dlouhodobé ochraně v nich ukládaných dat. Pro tento účel jsou v článku popsány obecný model ECM a Referenční model pro otevřený archivní informační systém (OAIS), a jsou identifikovány specifické potřeby systémů pro správu podnikového obsahu (ECM).
Zvláštní důraz je kladen na management elektronických záznamů (ERM) jako složku ECM, která zahrnuje jednoduché funkce podporující uchovávání dat, ale postrádá ty aspekty OAIS systémů, které podporují skutečně dlouhodobou ochranu. ERM systémy schopné dlouhodobé ochrany budou muset tyto funkce implementovat a přitom zachovat soulad s relevantními normami a pravidly (uchování nebo zničení daných dokumentů v souladu s platnou legislativou).
Během několika posledních desetiletí je stále více informací produkováno v digitální podobě. Zatímco první počítače mohly sloužit převážně jen jako inteligentní psací stroje, rostoucí část obsahu, který dříve existoval pouze v analogové podobě, je dnes digitální. Kromě toho materiál, který vznikal jako analogový, je dnes často digitalizován, jak s cílem zajištění ochrany obsahu, tak i za účelem širšího zpřístupnění. Digitální informace vznikají ve stále více variantách formátů, z nichž mnohé relativně rychle zastarávají. Často zmiňovaným příkladem je formát Microsoft Word, který se neustále mění s každou novou verzí softwaru, a také soubory CAD, které jsou natolik závislé na softwaru, ve kterém byly vytvořeny, že je obvykle nemožné otevřít starší soubory v nových verzích daného softwaru, natož pak v softwaru jiného výrobce.
Během času se softwarové a dokonce i hardwarové prostředí mění, až nakonec po pouhých několika letech nelze již starší soubory jednoduše otevřít. K pochopení tohoto problému je třeba vzít v úvahu dva aspekty dlouhodobé ochrany digitálních dat. Zaprvé, je třeba zajistit dostupnost vlastních bitů, které tvoří danou digitální informaci. Tomu se obvykle říká ochrana bit-streamu. Ochrana bit-streamu zahrnuje otázky integrity medií a hardware nutný k přečtení daných medií.
Tento aspekt problému je již dnes řešen v mnoha ECM systémech. Udržování redundantních kopií všech dat může sice pomoci zamezit ztrátám vlastních souborů, tato strategie však nemůže zajistit dlouhodobou (pozn1) dostupnost dat. Nebezpečí ztráty celé sbírky dat v důsledku zastarání formátu, softwaru nebo běhového prostředí musí být předcházeno vývojem systémů pro dlouhodobou ochranu digitálních dat. Tento aspekt je znám jako logická ochrana digitálních dat. A právě logická ochrana je předmětem této gap analýzy.
Velké vědecké organizace a paměťové instituce v posledních letech věnovaly značné úsilí zajištění dlouhodobé dostupnosti jim svěřeného digitálního obsahu. K tomuto účelu vytvořily jak komerční firmy tak i několik menších či větších projektů (pozn2) systémy pro ukládání, správu a zpřístupňování těchto zdrojů. Zvláštní důraz byl ve všech těchto snahách kladen na soulad s Referenčním modelem pro otevřený archivní informační systém (OAIS) [4]. OAIS je od roku 2003 ISO standardem a popisuje systém pro zajištění dlouhodobé ochrany digitálních dat, a také poskytuje zainteresovaným společný slovník.
V podnikovém prostředí je situace celkem podobná tomu, co je popsáno výše. Velké objemy dat jsou vkládány, spravovány a zpřístupňovány systémy, kterým se dnes říká souhrnně systémy pro správu podnikových dokumentů (Enterprise Content Management Systems - ECM). Hlavním rozdílem mezi ECM systémy, a systémy používanými v mnoha shora zmíněných institucích je to, že ECM systémy v současné době nedisponují prostředky k zajištění dlouhodobé dostupnosti ukládaných informací.
Cílem tohoto textu je ukázat co je zapotřebí udělat, aby moderní ECM systémy byly připraveny k dlouhodobé ochraně v nich ukládaných zdrojů. S tímto cílem budou oba typy systémů porovnány, budou identifikovány specifické potřeby podnikových systémů a budou popsány kroky nutné k tomu, aby typický ECM systém odpovídal požadavkům OAIS.
V podnikovém prostředí existuje řada termínů používaných k popisu systémů, které slouží k ukládání digitálních informací. A to především ze dvou důvodů:
1. Jednotlivé pojmy jsou prosazovány při propagaci softwaru. Jednotlivé firmy prodávají své softwary pod různými názvy, aby odlišily svoje produkty od podobných produktů jiných firem nebo také od starších verzí svých vlastních produktů, které měly méně funkcí nebo jiné funkce.
2. Až donedávna neexistoval pro tyto systémy společný model.
Dlouhou dobu se používal pro označení podnikových systémů pro správu toku dokumentů a obsahu pojem Content Management System (CMS). Dnes se ovšem pojem Content Management nejčastěji používá k označení softwaru k udržování, správě, úpravám a přeskupování webových prezentací.
Pro účely této analýzy bude tento text používat definici (pozn3) pocházející od Association for Information and Image Management (AIIM)[2] a bude používat pojem Enterprise Content Management System (ECM) k popisu strategií, metod a nástrojů používaných ke správě podnikového obsahu. Pro popis systému pro dlouhodobou archivaci vytvořila Consultative Committee for Space Data Systems (CCSDS) (pozn 4) refrenční model OAIS. V této analýze budou používány termíny OAIS, pokud se bude mluvit o systému pro zajištění dlouhodobé ochrany digitálních dat.
Následující text článku je uspořádán následovně: část 2 představí Enterprise Content Management model, pak následuje část 3., kde jsou popsány základní koncepty modelu OAIS. Vlastní gap analýza je potom ve 4. části článku.
Následující popis modelu ECM vychází z popisu AIIM. Association for Information and Image Management, „vedoucí nezisková organizace, která pomáhá uživatelům porozumět problematice spojené se správou dokumentů, obsahu, záznamů, a podnikových procesů”(pozn5) se v roce 2005 rozhodla zavést společné označení a popis procesů a typů systémů, které slouží ke správě podnikového obsahu.
AIIM popisuje ECM jako „strategie, metody a nástroje používané k vytěžování, správě, ochraně a dodávání dokumentů spojených s organizačními procesy“.[2] Tyto nástroje, metody a strategie jsou používány k řízení toho, co se označuje jako životní cyklus digitálního obsahu.
Pro účely tohoto popisu budeme používat model, který odpovídá textovému popisu AIIM spíše než ilustračním obrázkům, které text doprovází. Obrázky, které AIIM používá ke znázornění modelu, odrážejí poměrně komplexní koncepty, ovšem způsobem vhodným pro marketing. Komplexnost modelu je dána tím, že zahrnuje strategie, metody a nástroje, přičemž se snaží dostatečně respektovat požadavky různých prostředí a potřebu producentů systémů zdůraznit výhody svých konkrétních systémů.
Obrázek 1. znázorňuje základní komponenty modelu ECM:
Vytěžování (správa vkládání dat) /capture (input management)/: Komponenta Vytěžování dat zajišťuje, že jakýkoli obsah vznikající v určitém definovaném prostředí, je spravován ECM systémem od okamžiku, kdy vzniká. Důležitou součástí Vytěžování dat je automatická klasifikace obsahu.
Správa /manage/: Správa je komponenta, která umožňuje správu každé jednotlivé jednotky obsahu ve všech fázích jejího životního cyklu. Obsahuje následující aplikace:
Správa dokumentů (DM) /document management/: Dokument je v kontextu správy dokumentů v ECM definován jako zaznamenaná informace nebo objekt, se kterými může být nakládáno jako s jednotkou[1]. Správa dokumentů dnes zahrnuje také správu e-mailů (EMM) a správu digitálních zdrojů (DAM).(pozn6)
Nástroje podporující spolupráci (Collab) /collaboration tools/: Zahrnují společné používání a správu obsahu (včetně správy přístupu) a aplikace, které tyto procesy podporují.
Správa webového obsahu (WCM) /web content managemen/: Obsah webu je často spravován v systémech, kterým se dnes říká Content Management Systems (CMS), které mohou a nemusí být přímo integrovány do ECM systému. Mnoho ECM systémů zpřístupňuje obsah skrze webové rozhraní a mnoho obsahuje vlastní funkce systémů pro správu webového obsahu.
Správa záznamů (RM) /records management/: Správa záznamů je správa toho, čemu se v tomto kontextu říká záznam. Záznamy jsou obsahy, které se už dále nebudou měnit a které, z legislativních důvodů nebo proto, že mohou být časem znovu užitečné v podnikání, musí být ukládány pro další použití [8]. V podnikovém prostředí i v prostředí institucí státní správy se správa elektronických záznamů řídí standardem ISO 15489 [5].
Řízení podnikových procesů (BPM) /Automatizace procesů - workflow (WF) / business process management/workflow/: Řízení podnikových procesů je metodologie, která má zajistit, aby procesy byly účinné a efektivní. K tomu navrhuje, implementuje a provozuje aplikace umožňující automatizaci. Automatizaci procesů - workflow, v protikladu k řízení podnikových procesů, tvoří manuální procesy správy dokumentů v případech, kdy je potřebný lidský zásah (například schvalování nebo hodnocení).
Uložení /store/: Komponenta ECM Uložení obsahuje vlastní fyzické umístění obsahu (pevné disky, storage area network (SAN), nebo dokonce CD/DVD), kde je uložen obsah. Komponenta také obsahuje logickou strukturu těchto fyzických lokací. Ona struktura, které se říká „repozitář“, může být založena na jednoduchém souborovém systému, databázi nebo dokonce na datovém skladu. Uložení také obsahuje strategie zpřístupnění, kterým se říká služby knihoven. Ty zahrnují kontrolované vložení a vystavení obsahu, mechanismy vyhledávání, správu verzí a záznamy auditu, logy, ke každé jednotce obsahu. Komponenta Uložení se tedy do značné míry překrývá s komponentou Správa.
Dodávání (správa zpřístupnění) /deliver (output management)/: Strategie vyhledávání a dodání (pull access) jsou již v tomto modelu kontrolovány komponentami Správa a Uložení, komponenta Dodávání se jimi už nezabývá. Komponenta Dodávání je spojena s řízením zpřístupnění vnějším uživatelům, s publikací a distribucí (push access) obsahu. To zahrnuje také transformace obsahu pro zpřístupnění (například převod textového obsahu do personalizované e-mailové zprávy nebo do formy dopisu, nebo převod do PDF pro webovou publikaci), ale také kompresi souborů pro uložení nebo transformaci, jako například převod dokumentů do PDF/A [6] pro komponentu Ochrana.
Ochrana /preserve/: Komponenta Ochrana pracuje především s obsahem, který byl už identifikován jako záznam komponentou Správa. Tato komponenta je zjevně přímo spojena s komponentou Uložení, protože se zabývá bezpečným a dlouhodobým uložením a zálohováním (ochrana bit-streamu) těchto záznamů. Komponenta Ochrana je plněna buď přímo komponentami Správa záznamů nebo Správa, nebo nepřímo komponentou Dodávání, kde je obsah transformován pro archivaci.
Podnikový obsah, který se už dále pravidelně nepoužívá, se ukládá ze dvou důvodů.
Prvním důvodem je potřeba tzv. compliance (vyhovění zákonným požadavkům). Podle AIIM compliance znamená “zajištění toho, že jsou respektovány správné postupy a obsah je správně vytěžen, uložen, spravován a zlikvidován ve vhodném a zákonem stanoveném okamžiku životního cyklu.”[3] Životní cyklus informačního obsahu může trvat deset nebo více let, během této doby může být potřeba k obsahu přistupovat, zničit jej (pozn7) či předat jiné organizaci (například národnímu archivu) na jeho žádost nebo v určeném čase. Může být důležité, aby firma byla schopna prokázat, že proběhlo správné zničení obsahu v souladu se zákonem. To je možné jen tehdy, když je obsah stále k dispozici v okamžiku, kdy má být podle zákona zničen.
Druhý důvod je přímo spojen s povahou podnikání. Obsah může obsahovat informace o předešlém vývoji nebo o skončených projektech, které mohou být užitečné pro budoucí projekty nebo vývoj.
Obsah, který se již aktivně nevyužívá a který je uchováván z jednoho ze dvou výše zmíněných důvodů, se označuje jako záznam. Existuje ISO standard, který upravuje, jak se má se záznamy pracovat. Podle ISO 15489 je záznam “informace vytvořená, získaná nebo udržovaná jako důkaz a informace poskytnutá osobou nebo organizací za účelem vyhovění zákonné povinnosti nebo k dokumentaci podnikání” a správa (elektronických) záznamů je „oblast řízení odpovědná za systematické řízení vzniku, přijímání, udržování a používání a nakonec i skartaci záznamu, obsahující procesy vytěžování, dokladování a vykazování podnikání a obchodního jednání ve formě záznamu.”[5]
Jak jsme již zmínili výše, záznamy najdeme ve dvou komponentách ECM systémů. Komponenta Správa je odpovědná za rozhodnutí o tom, který obsah bude uchován ve formě záznamů. Komponenta Uchování je odpovědná za vlastní archivaci záznamů. Je třeba říci, že to obvykle znamená především uložení záznamů. Migrace je v tomto kontextu stále ještě především migrací dat z jednoho úložného média na druhé, spíše než migrací obsahu do jiného formátu souborů v okamžiku zastarání původního formátu. Obsah bývá migrován obvykle, jen když prochází komponentou Dodávání. Migrace je zde součástí obecné strategie správy dat spíše než skutečnou akcí dlouhodobé ochrany digitálních dat. Pokud je formát dobře vybrán (například PDF/A pro textové dokumenty) může mít ale i taková migrace podobný dopad na dostupnost obsahu.
AIIM formuluje svůj přístup k dlouhodobé archivaci takto: „Obsah, který má být uchován po několik desítek let, musí být uložen na média jako papír nebo filmový materiál, která mají odpovídající životnost.”[2] Také se debatuje o transformaci obsahu do formátů vhodných z hlediska dlouhodobé archivace. Sama AIIM se podílí na vývoji standardu PDF/A. V komunitě ECM a ERM se také uvažuje například o převodu CAD souborů do TIFFu, JPG nebo JPEG2000. [9] popisuje jako příklad strategie zachování použitelnosti CAD souborů v dalších projektech jejich neustálé migrování do aktuálních verzí formátů, protože je nemožné vytvořit například architektonický plán ze statických rastrových obrazů. Tyto transformace jsou prováděny komponentou Dodávání a jsou tedy spojeny s tou částí ECM systémů, která se běžně zabývá zpřístupňováním a publikováním obsahu (push access) a nikoli dlouhodobou ochranou. Řízení dlouhodobé ochrany, které by obsahovalo vlastní implementaci plánů dlouhodobé ochrany, jak je navrhuje model OAIS (pozn 8), se nezmiňuje.
Model OAIS byl poprvé publikován v roce 1995, kdy si partneři Consultative Committee for Space Data Systems uvědomili, že velké objemy jejich dat byly nepoužitelné kvůli změnám softwarových a hardwarových systémů. Model byl postupně vylepšován. V roce 2002 byl referenční model OAIS publikován jako CCSDS Blue Book a následně byl přijat jako ISO standard (ISO 14721:2003).
Standardy referenčních modelů, jako je OAIS, se tvoří otevřeně a veřejně. Protože problematika, které se tento standard týká, začala být aktuální i mimo komunitu vesmírného výzkumu, rozhodla se CCSDS přizvat k jednání širokou paletu odborníků z jiných oblastí, především z komunity tradičních archivů.(pozn 9). Data z kosmického výzkumu už nebyla jediným předmětem výsledného modelu a pro označení obsahu, který reprezentují data v archivu, se začal používat obecnější pojem informace.
V referenčním modelu OAIS zahrnuje archivní informační systém hardwarové a softwarové komponenty stejně jako osoby, které jsou odpovědné za akvizici, ochranu a zpřístupňování informací. Kromě toho byl model navržen jako společný rámec pro porozumění, implementaci a analýzu konceptů potřebných k zajištění dlouhodobé ochrany informací. Dlouhodobá perspektiva zde znamená „dobu tak dlouhou, že je třeba se zabývat měnící se technologií.”
Jedním z nejdůležitějších konceptů referenčního modelu OAIS je koncept informace. Informace je definována jako „jakýkoli typ znalosti, kterou je možné si vyměňovat.” Informace je vždy reprezentována daty a každá jednotlivá instance takové informace se označuje jako informační objekt.
K zajištění úspěšné ochrany informačního objektu musí OAIS jasně definovat a pochopit datový objekt (data spojená s danou instancí) a s ním spojenou informaci o formě reprezentace. Informace o formě reprezentace je dodatečná informace, která mapuje datový objekt do smysluplnějšího konceptu. Pouze v tomto kontextu je datový objekt použitelný a stává se informačním objektem (tedy objektem, který má být uchováván). Bez informace o formě reprezentace je datový objekt často nepoužitelný. (viz obrázek 2)
S konceptem informace úzce souvisí koncept informačního balíčku. Informační balíček je konceptuální kontejner, obsahující dva typy informací, informační obsah /content information/ (kombinaci datového objektu a informace o formě reprezentace) a archivační informaci /preservation description information/.
Archivační informace je informace nezbytná k odpovídající ochraně informačního obsahu. Obsahuje následující informace:
Informace o provenienci /provenance/: Informace o provenienci popisuje historii informačního obsahu. Jak byl vytvořen, co bylo změněno (například nezbytné změny formátů) a kdo byl za něj od jeho vzniku odpovědný.
Identifikační informace /reference/: Identifikační informace identifikuje informační obsah (podobně jako ISBN identifikuje knihu).
Informace o neporušenosti /fixity/: Informace o neporušenosti poskytuje autentikační mechanismus a autentikační klíč s cílem zajistit, aby informační objekt nemohl být změněn nedokumentovaným způsobem. Tato funkce je úzce spojena s konceptem archivní autenticity, který je také relevantní ve správě záznamů a vyhovění zákonným požadavkům /compliance/ v modelu ECM.
Kontextuální informace /context information/: Kontextuální informace dokumentuje vztahy informačního obsahu s jeho prostředím.
Nejjednodušší znázornění modelu OAIS (viz obrázek 3) obsahuje tři hlavní role:
Producent /producer/: Producent je role entit (osob nebo systémů) poskytujících informace, které mají být ochráněny v OAIS systému.
Management /management/: Management tvoří role těch entit, které určují celkovou OAIS strategii. Tyto entity mají obvykle ještě další řídící funkce v organizaci, ke které OAIS systém patří.
Uživatel /consumer/: Uživatel je role těch entit (osob nebo systémů), které využívají služby OAIS k vyhledávání a získávání uložených informací.
Důležitým konceptem OAIS souvisejícím s rolí uživatele je koncept designované komunity /designated community/. To je identifikovaná skupina možných uživatelů OAIS systému. Uchovávaná informace musí být samostatně srozumitelná /independently understandable/. To znamená, že musí být dokumentována takovým způsobem, že jakýkoli člen designované komunity jí může porozumět bez dodatečných informací. Snaha tohoto stavu dosáhnout určuje obsah informace o formě reprezentace. Čím širší je skupina budoucích uživatelů, tím obsažnější musí být informace o formě reprezentace.
Následuje vysvětlení funkčních entit OAIS (viz obrázek 4) a toku dat v OAIS:
Depositní entita /ingest/: Depositní entita poskytuje OAIS služby a funkce, které zajišťují přijetí informačních balíčků od producentů. Tyto balíčky se nazývají dodavatelské balíčky (Submission Information Packages - SIP). Dodání balíčku SIP je vyjednáno mezi producentem a OAIS systémem. V tomto okamžiku získává OAIS systém dostatečnou kontrolu nad dodávanou informací k zajištění její dlouhodobé ochrany. To znamená, že si vyhrazuje právo nakládat s balíčkem SIP tak, aby mohl zajistit jeho dlouhodobou archivaci. OAIS systém také musí zajistit, že bude informace samostatně srozumitelná designované komunitě uživatelů připojením odpovídající informace o formě reprezentace. OAIS systém musí postupovat podle dokumentovaných strategií a postupů (plány dlouhodobé ochrany), které musí zajistit, že obsah bude ochráněn proti všem možným eventualitám (například migrací do jiného formátu). Na vstupu musí být SIP upraven pro uložení a správu uvnitř archivu. K informačním balíčkům je přidána informace o formě reprezentace. Výsledný archivní balíček (Archival Information Package - AIP) je přesunut do Archivační entity /archival storage/. Související deskriptivní informace (DI), která obsahuje především popis balíčku, je poskytnuta Entitě správy dat /data management/ k zajištění zpřístupnění (vyhledání, uspořádání a načtení informačního objektu uloženého v OAIS systému uživatelem).
Archivační entita /archival storage/: Archivační entita poskytuje služby a funkce podporující uložení, udržování a dodávání AIP. Řídí obnovu úložných medií s cílem zajistit uchování archivovaných zdrojů v čase (ochrana bit-streamu). Pro účely likvidace následků katastrofických událostí nebo poruch /disaster recovery/ disponuje Archivační entita mechanismy vytvářejícími redundantní kopie AIP balíčků v archivních sbírkách. Archivační entita také poskytuje kopie uložených AIP Zpřístupňovací entitě.
Entita správy dat /data management/: Entita správy dat poskytuje služby a funkce podporující plnění, správu a zpřístupnění deskriptivních informací a interních administrativních informací archivu. Přijímá dotazy ze Zpřístupňovací entity a vytváří odpověď na dotaz, která se vrací jako odpověď uživateli. Pokud jsou požadovaná data k dispozici, Entita správy dat generuje žádost o dodání archivního objektu /dissemination request/ Zpřístupňovací entitě.
Zpřístupňovací entita /access/: Zpřístupňovací entita pomáhá uživatelům zjistit, zda v OAIS archivu je požadovaná informace, poskytuje její popis, lokaci a informaci o dostupnosti a umožňuje uživatelům sestavit požadavek na dodání uživatelského balíčku (Dissemination Information Packages - DIP). DIP je vytvořen z části nebo z jednoho celého AIP, nebo z více AIP, a je to informační balíček, který je odeslán uživateli. Mezi funkce Zpřístupňovací entity patří vyhledávací pomůcky, a nástroje, které poskytují přehled o informacích uložených v OAIS archivu.
Administrační entita /administration/: Administrační entita řídí provoz celého OAIS archivu. Administrační entita dojednává s producenty dohody o uložení /submission agreement/, spravuje systémovou konfiguraci, a tvoří standardy a strategie OAIS systému. Ty zahrnují formátové standardy, standardy dokumentace, a popisy postupů, které mají být dodržovány při přijímání dat, stejně jako strategie pro správu úložišť /storage management/. Administrační entita je odpovědná za plánování dlouhodobé ochrany /preservation planning/ a audit AIP balíčků. Proces auditu musí prokázat, že kvalita dat odpovídá požadavkům archivu.
Plánovací entita /preservation planning/: Plánování dlouhodobé ochrany je důležitým úkolem Administrační entity. Plánování dlouhodobé ochrany musí komunikovat s uživateli a producenty dat a zjišťovat změny v jejich požadavcích a dostupných technologiích. Tyto požadavky se mohou týkat formátů dat, volby medií, preference softwarových balíčků a počítačových platforem a dostupných mechanismů pro komunikaci s OAIS systémem (nové nástroje pro vyhledávání pro uživatele, nebo používání FTP pro dodávání dat do archivu namísto dodávání na optických mediích od producentů). Plánovací entita je také odpovědná za sledování vznikajících digitálních technologií, informačních standardů a počítačových platforem (hardware i software) tak, aby identifikovala technologie, které by mohly zavinit k zastarávání komponent systémů tvořících OAIS archiv a tím ohrozit část obsahu uloženého v něm.
Uvnitř archivu je Plánovací entita odpovědná za návrh informačních balíčků a tvorbu podrobných migračních plánů, které mají implementovat strategie Administrační entity a její příkazy. Plánovací entita dostává schválené standardy a migrační cíle od Administrační entity a implementuje je do migračních plánů. Migrační cíle obvykle obsahují transformace AIP, které někdy mohou zahrnovat i transformace ukládaného obsahu. Jakmile jsou plán migrace, struktury dotčených AIP a související software otestovány a odsouhlaseny, celý migrační balík je odeslán Administrační entitě, která provede vlastní migraci AIP.
Je třeba podotknout, že migrace samozřejmě není jediným způsobem, jak lze předcházet technologickému zastarávání. Další možností je například emulace zastaralého hardwarového nebo softwarového prostředí.
Z popisu v předcházejících částech článku vidíme, že ECM a OAIS mají podobné požadavky v mnoha oblastech. Další oblasti najdeme ovšem buď v jednom, nebo v druhém z typů systémů. Jeden z hlavních rozdílů souvisí s organizačním ukotvením obou systémů. OAIS systémy jsou plánovány jako externí organizace (pozn10), které jsou nezávislé na procesech vzniku obsahu, jenž archivují. ECM systémy obvykle tvorbu obsahu usnadňují nebo zajišťují a kontrolují celý životní cyklus svěřeného obsahu. V ECM systémech tedy najdeme proces vytěžování dat, který je navržen tak, že staví vytváření informace (nebo obsahu) do centra ECM systému jako základní okamžik, a první krok ve správě dalších verzí a variant dané informace. V okamžiku, kdy je proces tvoření obsahu ukončen, stává se obsah (content) záznamem (record), je předán komponentě pro Správu elektronických záznamů (ERM) a komponentě Ochrana. Většina funkcí, které ERM/ochrana a OAIS potřebují (např. vyhledání a zpřístupnění) jsou v rámci ECM poskytovány komponentami Správa a Uložení. Některá opatření, která jsou v OAIS zásadní součástí Depositní entity jsou rovněž implementována v ECM systémech. Příkladem může být tvorba metadat a deskriptivních informací, která je již obsažena v procesu vytěžování dat a tato data jsou udržována v průběhu životního cyklu ukládaného obsahu.
Některé požadavky ERM systémů jsou velmi podobné požadavkům archivů nebo vědeckých organizací. Archivy žijí v prostředí pravidel, která nejsou příliš odlišná od pravidel, jež reprezentuje komponenta compliance (vyhovění zákonným požadavkům) v ECM systémech. Konečně, model „Requirements Specification for the Management of Electronic Records” (MoReq2) (pozn11) vznikl na popud DLM fóra (pozn 12), které je nezávislou evropskou komunitou veřejných archivů a dalších organizací zabývajících archivací, informačním managementem a record managementem. Potřeba zachovat v podnikovém prostředí interní informace pro další budoucí použití, je na druhou stranu podobná potřebě velkých vědeckých organizaci jako je například CCSDS.
Organizace jako AIIM si začaly teprve nedávno všímat toho, že digitální soubory mají vrozenou tendenci zastarávat. Nedostatek pozornosti věnované tomuto problému se dá vysvětlit relativně malými objemy dat ukládaných v archivech daných organizací nebo odlišnou představou o tom, po jak dlouhou dobu budou data archivována. Odborníci v podnikové oblasti se začali zajímat o něco víc než jen o hardwarovou stránku archivace teprve nedávno. AIIM se dnes účastní vytváření standardu PDF/A, a několik expertů v této oblasti se zabývá archivními formáty TIFF, JPG a v poslední době také JPEG2000. To jsou ale jen první kroky k zavedení logické ochrany digitálních dat v oblasti ERM.
S tím, jak počet formátů narůstá a stále více informací je ukládáno ve smíšených formátech (například celé webové stránky obsahují jak texty a obrazy, jimiž se už zabývají výše zmíněné aktivity v komunitě ECM, tak také obsahují audio a audiovizuální soubory) je důležité, že se kultura dlouhodobé ochrany digitálních dat šíří.
Tato kultura existuje již řadu let ve vědeckých komunitách a v paměťových institucích, OAIS model je toho dokladem.
Jak bylo popsáno výše, skutečný OAIS systém se skládá z následujících částí: depositní entita /ingest/, Archivační entita /archival storage/, Entita správy dat /data management/, Zpřístupňovací entita /access/, Administrační entita /administration/, Plánovací entita /preservation planning/. Funkce Zpřístupňovací entity jsou v ECM již reprezentovány v komponentě Vytěžování dat /capture/ a v různých částech komponent Správa /manage/ a Dodávání /deliver/, a podobně to je s některými funkcemi Depositní entity /ingest/, Archivační entity /archival storage/, Entity správy dat /data management/. V modelu ECM ovšem zcela chybí kombinace Administrační entity /administration/ a Plánovací entity /preservation planning/. Tyto dvě entity společně tvoří rámec pro skutečně dlouhodobou ochranu digitálních dat /digital preservation/. Poskytují řídící mechanismy a standardy a předepisují strategie dlouhodobé ochrany /preservation policies/, které nastavují pravidla určující, kdy má být určitý typ ochranné akce aplikován na objekty v ohroženém formátu. Plánovací entita /preservation planning/ poskytuje funkce podporující sledování vývoje technologií (obvykle s využitím externích databází a technických registrů) (pozn13), které dávají Administrační entitě impuls ke spuštění ochranných akcí. Pokud například externí registr naznačuje, že některý formát již brzy nebude podporován v žádném vyvíjeném softwaru, Administrační entita na základě této informace musí rozhodnout, že je pravý čas migrovat (v termínech ECM transformovat) všechna data v daném formátu. V tomto okamžiku Plánovací entita musí připravit plán, jak (tj. pomocí jakého softwaru a s jakými parametry) a do jakého formátu mají být ohrožené soubory migrovány.
Důležitou součástí modelu OAIS je popis toku dat uvnitř OAIS systému. Nejen, že připisuje odpovědnost za obsah různým OAIS funkcím v různých fázích zpracování dat, ale také předepisuje, jaké dodatečné informace má OAIS systém k obsahu přidat. Jak jsme viděli výše, ECM systém má podobné funkce, které umožňují správu verzí uložených dat nebo dat o původci (informace o provenienci v OAIS), ovšem jakmile se obsah /content/ stane záznamem /record/, žádná další informace, nebo přesněji řešeno žádné další informace sloužící zajištění dlouhodobé ochrany, nejsou k záznamu v ECM přidávány. To znamená, že zde velká většina archivačních informací /preservation description information/ chybí.
V OAIS jsou informace o formě reprezentace /reprezentation information/ a archivační informace /preservation description information/ přidány k SIPu v Depositní entitě při vstupu do systému. Částečně jde o identifikaci formátů souborů (tj. jaká verze programu soubor vytvořila, je to skutečně ten formát, který napovídá přípona souboru, jako např .doc apod.). To opět zajišťují externí služby. (pozn 14). Tyto kroky jsou důležité proto, že pouze dobře identifikované soubory je možné úspěšně migrovat podle doporučení Plánovací entity /preservation planning/. Tyto informace se v současnosti k záznamům v ECM nepřidávají.
Některé další informace přidávané k SIPu mají zajistit, aby byl obsah designované komunitě srozumitelný bez dodatečných informací. Lze předpokládat, že pro mnoho ECM systémů znalost designované komunity odpovídá znalosti komunity dodavatelů obsahu. Můžeme namítnout, že v takovém případě není třeba žádné takové informace přidávat, že stačí analýza konkrétního prostředí ECM systému. Správně vytvořená archivační informace může ale potenciálně být zdrojem dat pro činnost komponenty správa znalostí /knowledge management/. Může zajistit, že informace o určitých procesech a obsahu se neztratí, když firmu opustí někteří zaměstnanci nebo se změní pracovní postupy.
Jak jsme již řekli, komponenty Uložení /store/, Správa/manage/ a Dodávání /deliver/ v ECM plní většinu funkcí, které v OAIS plní Archivační entita /archival storage/, Entita správy dat /data management/ a Zpřístupňovací entita /access/. Ovšem způsob, jakým tyto komponenty a entity spolu pracují, je v OAIS a ECM odlišný. Po zpracování v Depositní entitě /ingest/ jsou AIP a odpovídající deskriptivní informace odeslány do Archivační entity /archival storage/ a do Entity správy dat /data management/. Zde se obnovují po každé migraci. Na základě dotazu Zpřístupňovací entity je část AIP a její deskriptivní informace složena do podoby balíčku DIP. Tyto funkce pochopitelně ECM systémy neobsahují.
Kromě toho ECM komponenta Správa /manage/ plní některé funkce, která jsou součástí funkcí Administrační entity v OAIS. Ovšem všechny požadavky, které souvisí s auditem balíčků AIP a všechny funkce související s vývojem standardů a strategií v ECM chybí.
Takže, ačkoli některé komponenty ECM plní funkce entit OAIS, žádná neplní potřeby OAIS úplně. Důvodem je to, že cílem ECM je vytvořit prostředí, které umožňuje aktivní manipulaci s obsahem /content/, zatímco hlavním cílem OAIS je dlouhodobě ochránit záznamy /records/ (vložené informace). Přidání OAIS funkcí do ECM entit Správa záznamů /records management/ a Ochrana /preserve/ může zajistit, že informace v záznamech budou velmi podobné uloženému originálu a že budou také ukládány dodatečné informace, které prokáží, že jsou uložené informace autentické.
Lze tedy doporučit, aby ERM systémy byly transformovány do skutečných OAIS systémů, s tím, že budou využívat některé funkce, které jsou již dostupné v ECM systémech.
Jedna důležitá funkce ERM systémů není součástí OAIS systémů a to je právně podložený požadavek zničení některých záznamů (skartace) v určitém okamžiku jejich životního cyklu. Skartační funkce by tak bylo třeba do nového systému doplnit.
V tomto článku jsme popsali a porovnali obecný model pro správu podnikového obsahu (Enterprise Content Management) a referenční model OAIS s cílem zjistit, co by bylo třeba udělat, aby ECM systémy odpovídaly OAIS, a byly tak připraveny zajistit dlouhodobou ochranu digitálních dat.
Viděli jsme, že některé funkce vyžadované OAIS jsou již v ECM implementovány, ale většina toho, co je třeba, aby tyto systémy byly skutečně dlouhodobě spolehlivé, stále chybí:
Z analýzy je vidět, že ECM a OAIS nejsou neslučitelné. OAIS doplňuje funkce ECM. Navrhuje chybějící funkce, které mohou být důležité, protože firmám mohou poskytnout systém pro správu obsahu schopný dostát požadavkům compliance (vyhovění zákonným požadavkům) pro jejich digitální sbírky.
J. Jung, S. Strodl:"Digital Preservation for Enterprise Content: A Gap-Analysis between ECM and OAIS" in:"Proceedings of the 7th International Conference on Preservation of Digital Objects",Österreichische Computer Gesellschaft, (2010), ISBN: 978-385403-262-5; S. 221 - 229.
Překlad: Marek Melichar, Jan Hutař
Poznámka k českému překladu:
Při překladu článku jsme se drželi terminologie z oblasti ECM navržené v publikaci KUNSTOVÁ, Renata. Efektivní správa dokumentů: co nabízí Enterprise Content Management. 1. vyd. Praha: Grada, 2009. 204 s. Management v informační společnosti. ISBN 978-80-247-3257-2. Termíny týkající se OAIS z velké části přebíráme z publikace CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. 1. vyd. Praha: Národní knihovna České republiky, 2010. 154 s. ISBN 978-80-7050-588-5.
Tam, kde to považujeme na nutné, uvádíme anglické originály vedle českých pojmů takto: český termín /english term kurzívou/.
[1] Association for Information and Image Management (AIIM) What is Document
Management (DMS)? AIIM.
http://www.aiim.org/What-is-DocumentManagement-Systems-DMS.aspx . (Naposledy navštíveno 2010-03-23.)
[2] Association for Information and Image Management (AIIM) What is ECM? AIIM.
http://www.aiim.org/What-is-ECM-EnterpriseContent-Management.aspx . (Naposledy navštíveno
2010-03-23.)
[3] Association for Information and Image Management (AIIM) What is Electronic Records
Management? AIIM. http://www.aiim.org/What-isERM-Electronic-Records-Management.aspx. (Naposledy navštíveno 2010-03-23.)
[4] Consultative Committee for Space Data Systems (CCSDS) Reference Model for an Open Archival Information System (OAIS). CCSDS, 2002.
http://public.ccsds.org/publications/archive/650x0b1.pdf . (Naposledy navštíveno 2010-03-23.)
[5] ISO ISO Standard 15489 (Information and documentation - Records management) Part 1: General. ISO, Geneva, 2001.
[6] ISO ISO Standart 19005-1(Document management - Electronic document file format for long-term preservation) - Part 1: Use of PDF 1.4 (PDF/A). ISO, Geneva, 2004.
[7] Kampffmeyer, U. et al Effiziente Informationsverwaltung mit dem neuen europäischen Records-Management-Standard - MoReq2 und Records Management” (Seminarband). PROJECT CONSULT, Hamburg, 2008.
[8] Kampffmeyer, U. ECM Enterprise Content Management – Whitepaper. PROJECT CONSULT, Hamburg, 2006.
[9] Körber, N. Dokumente rüsten für das Archiv FEiG & PARTNER, Leipzig, 2006.
http://www.documanager.de/magazin/artikel_1176_verwaltung_archivierung_digitaler_dokumen_e.html (Naposledy navštíveno on 2010-03-06.)
[10] Wikipedia Enterprise Content Management. Wikipedia, 2004.
http://de.wikipedia.org/w/index.php?title=Datei:ECM_Komponenten.jpg (Naposledy navštíveno 2010-04-26.)
Poznámky pod čarou:
Pozn 1 [4] Definuje „dlouhodobost“ jako „dobu, která je dostatečně dlouhá na to, aby se projevily dopady technologických změn, včetně podpory nových médií nebo datových formátů … na data, která jsou uložena v repozitáři. Tato doba sahá do nekonečné budoucnosti.“
Pozn 2 Například projekty financované EU jako jsou PLANETS [http://www.planetsproject.eu/] nebo rakouský projekt RS-DME [http://www.rs-dme.at/], pro který vznikla první verze této analýzy.
Pozn 3 http://www.aiim.org/
Pozn 4 http://public.ccsds.org/
Pozn 5 http://www.aiim.org/About
Pozn 6 DAM spravuje jakýkoli digitální obsah, který nemůže být označen za dokument.
Pozn 7 Toto je důležitý moment srovnání, protože OAIS model nepočítá s destrukcí obsahu.
Pozn 8 Kampffmeyer zmiňuje OAIS model v [7] jako standard související s migrací, ale zjevně nebere v úvahu význam plánování dlouhodobé ochrany pro ERM systémy.
Pozn 9 Slovo otevřený v názvu OAIS znamená právě tento aspekt modelování procesů, a ne jednoduše Open Access k obsahu OAIS archivu.
Pozn 10 Informace také mohou produkovat různé části jedné organizace.
Pozn 11 Specifikace MoReq2 (http://www.moreq2.eu/) byla vytvořena s finanční podporou Programu IDABC EC (http://ec.europa.eu/idabc/)
Pozn 12 http://www.dlmforum.eu/. Zkratka DLM znamená "Document Lifecycle Management".
Pozn 13 Například registr PRONOM (http://www.nationalarchives.gov.uk/pronom/)
Pozn 14 Například JSTOR/Harvard Object Validation Environment (JHOVE). (http://hul.harvard.edu/jhove/).
JUNG, Joachim; STRODL, Stephan. Dlouhodobá ochrana podnikových dokumentů: Analýza rozdílů mezi ECM a OAIS. Duha: Informace o knihách a knihovnách [online]. 2012, 26(1) [cit. 2025-01-31]. ISSN 1804-4255. Dostupné z: http://duha.mzk.cz/clanky/dlouhodoba-ochrana-podnikovych-dokumentu-analyza-rozdilu-mezi-ecm-oais
/*
Duha vychází 4× ročně v elektronické i tištěné podobě. Tištěná čísla ve formátu PDF naleznete zde.
|
|