Přejít k hlavnímu obsahu

Možnosti a meze integrace českých článků do Centrálního portálu českých knihoven

Cílem Centrálního portálu českých knihoven (CPK) je zastřešit fondy a služby českých knihoven a nabídnout k nim přehledný a komfortní přístup z jednoho místa. I malá knihovna bude působit jako rozhraní do celého systému českých knihoven a nabídne komplexní služby. Služby knihoven díky CPK přijdou naproti obyvatelům menších obcí a hendikepovaným občanům. Dosud byla v souvislosti s CPK věnována pozornost především integraci vlastních zdrojů zúčastněných knihoven (především katalogy a digitální knihovny) v rámci lokálního indexu a integraci zahraničních licencovaných plnotextových a bibliografických databází, do kterých mají členské knihovny (a jejich prostřednictvím i jejich registrovaní uživatelé) přístup, v rámci centrálního indexu. V pozadí prozatím zůstává integrace českých článků. Vzhledem k tomu, že se jedná o velmi významnou skupinu zdrojů, budeme se jí věnovat v tomto příspěvku. Cenné zkušenosti s integrací článků, na kterých můžeme dále stavět, jsme získali v rámci projektu ANL+ v letech 2011-2012.

Ohlédnutí za projektem ANL+

V březnu 2011 ukončila Národní knihovna ČR klasické zpracování článků a výpadek titulů, které excerpovala, se v rámci kooperačního systému článkové bibliografie pokusila v rámci projektu ANL+ nahradit ze dvou zdrojů: zdroje agregované v rámci Anopress a Newton a výsledky vlastní digitalizace s doplněním metadat na úroveň článku. Třetím zdrojem byla metadata pocházející z excerpce dalších členských knihoven kooperačního systému. Všechny tři zdroje byly integrovány v rámci Jednotné informační brány. Z pohledu účastníků kooperačního systému nebyl projekt ANL+ vyhovující náhradou původně dodávaných dat. Důvodem byla hlavně nedostatečná kvalita metadat ze zdrojů Anopress a Newton, kterou z hlediska kooperačního systému nevyvážila ani významná přidaná hodnota – pro neregistrované uživatele dostupnost výňatku plného textu s vyznačenými selekčními prvky a pro registrované uživatele dostupnost plného textu i možnost zobrazení původní podoby článku tam, kde jsou důležité obrázky či grafy a nestačí plný text.

alt obrazku

Vlastní digitalizace v NK ČR byla velmi opožděná, především v důsledku závislosti na grantové podpoře. Nutnost čekání na přidělení grantových prostředků způsobila několikaměsíční skluz v dodávání dat do kooperačního systému.

V roce 2012 došlo k ukončení projektu ANL+, účastníci kooperačního systému dále pokračují v klasické excerpci a probíhá diskuse o další podobě kooperačního systému. Z hlediska kooperačního systému se jeví projekt ANL+ jako neúspěšný, přinesl ale cenné zkušenosti v oblasti integrace článků i přidaného televizního a rozhlasového zpravodajství, na které nyní můžeme v rámci CPK navázat. Zatímco technická rovina integrace je relativně jednoduchá, podstatně složitější je a bude rovina smluvní a licenční – zejména s ohledem na omezení autorského zákona.

alt obrazku

Technická rovina

Na základě smluvního vztahu mezi NK ČR a NEWTON Media, a.s. (a navazující smlouvy o zacházení s daty mezi NEWTON Media, a.s. a MULTIDATA) probíhala integrace takto:

  1. Na stránkách NEWTON Media byla denně vystavena aktualizace dat ke všem 10 nasmlouvaným titulům periodik a televiznímu a rozhlasovému zpravodajství v předem dohodnuté struktuře.
  2. MULTIDATA zajistila denně indexaci metadat a plných textů v lokálním indexu Primo.
  3. Data byla pro vyhledávání k dispozici v systému Primo dočasně zapůjčeném pro účely experimentu v projektu ANL+ a také v systému MetaLib.
  4. Systém Primo generoval z plných textů na základě konkrétních dotazů všude tam, kde to umožňovala zpravodajská licence autorského zákona, krátký výňatek (maximálně 110 znaků) s vyznačením slov zadaných v dotazu. Náhled byl společně s metadaty přístupný i vzdáleným neregistrovaným uživatelům.
  5. Pro plný text i náhled na původní digitalizovaný dokument si již Primo „sahalo“ na základě linku do externího prostředí Newton Media, ale vše bylo integrováno způsobem, že uživatel dostal vše na jednom místě a cizí prostředí nezaznamenal. Plné texty a náhledy na digitalizované články byly k dispozici pouze uživatelům 46 českých knihoven uvedených ve smlouvě na speciálně zabezpečených počítačích.

Poznatky pro CPK:

Ať již bude pro realizaci CPK vybrán jakýkoli systém, ověřili jsme, že je reálné:

  • Převzít od externího dodavatele data v nasmlouvané podobě a zajišťovat denní aktualizace, které jsou u deníků a televizního a rozhlasového zpravodajství nezbytné.
  • Zajistit neregistrovaným vzdáleným uživatelům tam, kde to umožňuje zpravodajská licence a smlouva s producentem, nejen zobrazení metadat, ale i krátké ukázky plného textu s vyznačením slov zadaných v dotazu (viz Obr. 1 a 2).
  • Integrovat přístup k plným textům a digitalizovaným článkům do externího prostředí způsobem, že uživatel externí prostředí a jeho jiné nativní rozhraní nezaznamená (viz Obr. 1 a 2).

Získané zkušenosti nám velmi usnadní technickou rovinu integrace článků i zpravodajství a komunikaci s dodavateli dat i technologického řešení pro realizaci CPK.

Autorský zákon a z něho plynoucí omezená dostupnost dat

Zatímco technická stránka realizace integrace článků a zpravodajství v ANL+ byla snazší a rychlejší, než jsme předpokládali, o dostupnosti dat pro koncové uživatele platil přesný opak. Omezení plynoucí z autorského zákona pro nás knihovníky nebyla nikterak překvapivá, ale pro koncové uživatele byla frustrující, těžko pochopitelná a mnohdy odrazující.

Neregistrovaný vzdálený uživatel se dostal v horším případě pouze k metadatům, v lepším případě ke krátkému výňatku z plného textu s vyznačením slov zadaných v dotazu. Pro přístup k plnému textu a zejména pro přístup k digitalizované verzi článku (s ohledem na přítomnost obrázků, fotografií, tabulek atd.) si musel uživatel dojít do některé z knihoven, která měla na základě smlouvy k datům přístup. Knihovny musely navíc prokázat, že počítače určené pro využití plných textů a digitalizovaných verzí článků jsou řádně zabezpečeny proti stahování a kopírování dat. Počítače vyhrazené pro ANL+ musely splňovat několik požadavků iniciovaných vydavateli, kteří na základě licenčních smluv poskytují svá data Newton Media:

  1. Nelze používat operace se schránkou (např. CTRL+C) v aplikaci zobrazující chráněná data.
  2. Nelze používat USB výměnná média (flashdisk, paměťové karty atp.).
  3. Nelze instalovat aplikace z výměnných médií nebo stažené z internetu.
  4. Nelze spouštět aplikace nevyžadující instalaci.
  5. Je zablokován přístup na příkazovou řádku.

Existují tři základní způsoby řešení zabezpečení počítačů, které splní výše uvedené požadavky:

  1. Vyhrazené počítače s dedikovanou IP adresou, prohlížečem a operačním systémem, který je nakonfigurován tak, aby splňoval výše uvedené podmínky.
  2. Vzdálený přístup (např. protokolem RDP či FreeNX) na plochu serveru, který běží v jiné (pravděpodobně krajské) knihovně a má vlastnosti popsané v bodě 1. Tento přístup je vhodný pro malé knihovny, neboť nevyžaduje vyhrazené počítače ani dedikovanou IP adresu.
  3. Virtuální počítač s ořezaným operačním systémem a prohlížečem, provozovaný v knihovně, který se připojuje na centrální proxy server, proti kterému se ověřuje jménem a heslem.

Obdobné požadavky lze očekávat i u jiných aplikací umožňujících v knihovnách využívat autorsky chráněné dokumenty, proto je důležité se touto problematikou zabývat i mimo rámec CPK.

Následující tabulka připravená v rámci přípravy projektu CPK shrnuje názorně omezenou dostupnost dat pro koncové (zejména vzdálené) uživatele.

Neregistrovaný klient má možnost prohledávat (P) a vidět (V) Odkudkoli V knihovně
Dostupná data (jsou-li v dokumentu k dispozici) Placené zdroje, u nichž licenční podmínky umožňují vzdálený přístup Placené zdroje a/nebo zdroje dostupné s ohledem na autorskoprávní ochranu pouze v knihovně
Metadata P V P V
Obsah P V P V
Abstrakt P V P V
Anotace P V P V
Stručný výtah z plného textu s vyznačenými selekčními prvky V * V *
Plný text P** P**
Digitalizovaný dokument včetně obrázků, tabulek, fotografií atd. - -

*neprohledává se, systém generuje z plného textu
**vidí pouze stručný výtah s vyznačenými selekčními prvky tam, kde to umožňuje zpravodajská licence v návaznosti na AZ – max. 110 znaků

Uživatel registrovaný v knihovně uvedené v příloze C má možnost prohledávat (P) a vidět (V) Odkudkoli V knihovně
Dostupná data (jsou-li v dokumentu k dispozici) Placené zdroje, u nichž licenční podmínky umožňují vzdálený přístup Placené zdroje a/nebo zdroje dostupné s ohledem na autorskoprávní ochranu pouze v knihovně
Metadata P V P V
Obsah P V P V
Abstrakt P V P V
Anotace P V P V
Stručný výtah z plného textu s vyznačenými selekčními prvky V * V *
Plný text PV PV (V některých případech pouze na zabezpečených počítačích)
Digitalizovaný dokument včetně obrázků, tabulek, fotografií atd. V*** V*** Pouze na zabezpečených počítačích

*neprohledává se, systém generuje z plného textu
***neprohledává se, pouze zobrazuje

Přínos integrace článků a zpravodajství pro uživatele CPK

Integrace článků a zpravodajství do CPK bude mít význam především pro uživatele zajímající se o dění v ČR v současné nebo nedávno minulé době a také pro uživatele, kteří potřebují získat informace k úzkým nebo efemérním tématům, která s ohledem na svůj nevědecký charakter a/nebo krátkodobý význam nejsou zachycena v monografiích ani odborných článcích. Z pracovníků knihoven ocení integraci článků do CPK především pracovníci referenčních služeb.

V rámci CPK jsme začali pracovat s uživatelskými scénáři. Na jednom z nich zkusíme nyní ukázat možný přínos integrace (nejen) článků a zpravodajství pro uživatele CPK.

Uživatelský scénář:
Petra, 35 let, novinářka
Petra je novinářka, která přispívá do dvou regionálních periodik a spolupracuje s regionálním rozhlasovým vysíláním, její tematický záběr je široký – potřebuje rychle sehnat co nejúplnější informace k tématům, o kterých právě píše. Kromě češtiny studuje podklady v angličtině a němčině. Žije na vesnici, pracuje především z domova, na schůzky a za studijními prameny dojíždí do krajského města a často i do Prahy. Je registrována v obecní knihovně ve svém bydlišti, v krajské knihovně v blízkém krajském městě, v Národní knihovně ČR a ve fakultní knihovně Fakulty sociálních věd UK. Ve všech těchto knihovnách si půjčuje knihy, studuje tištěná periodika, jako registrovaný uživatel krajské knihovny, Národní knihovny ČR a fakultní knihovny FSV UK má přístup k licencovaným zahraničním databázím i k domácím zdrojům agregovaným Newton Media. U této společnosti má ještě předplacený osobní profil, který ale (s ohledem na cenu služby a její široký tematický záběr) pokrývá jen část jejích potřeb. Sleduje domácí i zahraniční agenturní zprávy.

Hlavní cíle:

  • Sehnat rychle co nejkomplexnější informace k určitému tématu.
  • Při základním průzkumu získat maximum informací z domova a do krajského města nebo do Prahy již vyjet „najisto“ – půjčit si relevantní knihy nebo prostudovat periodika dostupná pouze prezenčně.

Daří se:

  • Získat informace k širším nebo odborným tématům, která jsou pokryta monografiemi, odbornými periodiky a plnotextovými zahraničními i bibliografickými databázemi.
  • Získat informace o momentální dostupnosti knih v jednotlivých knihovnách z domova.
  • Získat informace včetně plných textů ze zahraničních databází z domova.
  • Získat informace o zahraničních událostech ze zahraničních agentur.

Nedaří se:

  • Získat z domova dostatečné informace k novým, efemérním a „neodborným“ domácím tématům. Často jsou k dispozici pouze základní metadata, z nichž nelze zjistit, zda je dokument opravdu relevantní, což vede ke zbytečným výjezdům do krajského města nebo do Prahy.
  • Získat informace z různých domácích i zahraničních zdrojů na jednom místě a v jednotném, uživatelsky přívětivém, rozhraní.
  • Získat informace o dostupnosti různých zdrojů na jednom místě.

alt obrazkuNa následujícím obrázku je znázorněn současný stav, kdy uživatel jako Petra, využívající zdroje různého charakteru, musí postupně prohledávat v horším případě jednotlivé zdroje v jejich nativním rozhraní, v lepším případě zdroje částečně agregované, čímž se sice počet různých rozhraní sníží, ale i tak zůstává vysoký.

České články jsou nyní rozptýleny v českých bibliografických (pouze metadata) i plnotextových databázích (metadata, abstrakty, plné texty) a v českých digitálních knihovnách (digitalizovaná „obrazová“ podoba článků a metadata a plný text vzniklý při dalším zpracování digitalizovaných článků) a jejich integrace v rámci lokálního indexu a zastřešení jednotným rozhraním, které je zároveň propojí s ostatními zdroji, je velmi žádoucí.

Co je třeba udělat pro integraci článků a zpravodajství v CPK

Pro integraci článků a zpravodajství musí na straně CPK existovat vhodné nástroje: lokální index pro integraci dat a discovery systém pro jejich prohledávání a zpřístupnění. Technologické řešení pro CPK bude teprve vybráno, ale, jak jsme se přesvědčili na příkladu projektu ANL+, technická stránka integrace by při volbě kvalitního systému neměla představovat závažný problém a vlastní integraci lze po výběru a zprovoznění systému provést velmi rychle.

Podstatně složitější však budou jednání o podmínkách zpřístupnění článků a zpravodajství jak s agregátory dat, tak s jejich individuálními producenty. Bude třeba respektovat především jejich požadavky na ochranu poskytnutých dat s ohledem na příslušná ustanovení autorského zákona a zakotvit je ve smlouvách, jejichž příprava nebude snadná ani rychlá. Bude nutné vyčlenit finanční prostředky na nákup některých placených zdrojů i na zabezpečení počítačů, na kterých budou tyto zdroje zpřístupňovány. Práce v této oblasti od ukončení ANL+ stagnují a v době, kdy se blíží výběr technologického řešení pro CPK, je nejvyšší čas je obnovit.

STOKLASOVÁ, Bohdana . Možnosti a meze integrace českých článků do Centrálního portálu českých knihoven. Duha: Informace o knihách a knihovnách [online]. 2025, 28(3) [cit. 2025-10-07]. ISSN 1804-4255. Dostupné z: https://duha.mzk.cz/clanky/moznosti-meze-integrace-ceskych-clanku-do-centralniho-portalu-ceskych-knihoven

Vaše hodnocení:
Nikdo zatím nehodnotil.