Paměť novin: sémantické vyhledávání v historickém tisku pomocí AI (4/2025)

Domovská stránka

Články Duhy

4/2025

Paměť novin: sémantické vyhledávání v historickém tisku pomocí AI

4/2025

Informace pro knihovny Martina Bogár Smetánková

Cílem článku je představit principy fungování Paměti novin, ukázat možnosti jejího využití v menších knihovnách a diskutovat limity, které je při práci s tímto typem služby třeba brát vždy v úvahu.

Úvod

Digitální knihovny dnes představují nedílnou součást knihovnické praxe a umožňují zpřístupňovat rozsáhlé fondy tištěného dědictví. V českém prostředí je standardem systém Kramerius, který po více než dvacet let slouží k prohlížení a správě digitalizovaných dokumentů. Nedílnou součástí každé digitální knihovny je možnost vyhledávat v digitalizovaných dokumentech. V běžných digitálních knihovnách, včetně Krameria, se pro vyhledávání používá tzv. fulltextové vyhledávání, což znamená hledání přesné shody s vyhledávaným dotazem. Tradiční fulltextové vyhledávání má však své limity – vyžaduje přesnou shodu slov, je citlivé na chyby v textovém přepisu (OCR) a nereflektuje významovou blízkost textů.

Paměť novin je prototyp, který demonstruje možnosti tzv. sémantického vyhledávání. Namísto hledání podle shody slov rozumí významu položeného dotazu a vrací výsledky i v případě, že se liší pravopis, dobová terminologie či jazyková forma. Nástroj vznikl jako tzv. proof of concept v rámci širšího zkoumání možností využití umělé inteligence (AI) v rámci systému Kramerius.

Co je Paměť novin a jak funguje

Paměť novin je webová aplikace, která umožňuje pokládat dotazy v přirozeném jazyce a získávat odpovědi z výběru digitalizovaných českých novin z let 1880–1914. Na rozdíl od klasického fulltextového vyhledávání, jaké známe např. z Krameria, systém nehledá přesnou shodu slov, ale pracuje s významem dotazu – tzv. sémantikou. Díky tomu dokáže vyhledat články, které dané téma zachycují různými slovy nebo v odlišné jazykové podobě.

Na základě položené otázky systém vyhodnotí význam dotazu a vyhledá co nejrelevantnější textové úseky, které s tématem souvisejí. Z těchto úryvků následně sestaví odpověď a doplní ji o přímé odkazy na zdrojové články v digitálních knihovnách. Pokud v datech nenajde nic, co by odpovídalo zadanému dotazu – například proto, že se o daném tématu v dostupných novinách nepsalo – uživatele o této skutečnosti informuje. Zadání dotazu i výsledky je možné filtrovat podle období (např. jen roky 1890–1900) nebo podle konkrétního titulu (např. Lidové noviny). V současnosti aplikace zahrnuje přes 500 000 stran textu z dvaceti pěti českých periodik, které byly digitalizovány a zpřístupněny v rámci systému Kramerius. Patří mezi ně například Lidové noviny, Národní politika, Rovnost, Právo lidu, Katolické listy nebo regionální listy jako Ostravský kraj či Jizeran.

Jak může být Paměť novin užitečná?

Hlavní přínos tohoto typu vyhledávání spočívá v tom, že umožňuje uživateli „ptát se smysluplně“. Místo hledání jednoho klíčového slova (které se může nebo nemusí vyskytovat v přesné podobě) je možné pokládat dotazy, které se blíží běžné rešeršní praxi:

„Jak se lidé stavěli k zavedení tramvají?“
„Stěžovali si lidé na mládež?“
„Jak společnost reagovala na ženy v kalhotách?“
„Jak se psalo o soudu s Leopoldem Hilsnerem?“
„Jaké měli lidé očekávání od války se Srbskem v roce 1914?”

Tento způsob vyhledávání může být užitečný pro badatele i běžné uživatele, kteří chtějí sledovat vývoj tématu v čase, zkoumat jazyk dobových médií nebo si ověřovat stereotypy a narativy ve veřejném diskurzu. Zároveň může být nástrojem pro inspiraci – k nahlížení do souvislostí, které by při klasickém hledání zůstaly skryté.

Příklad z praxe: Titanic čtyřikrát jinak

Zajímavou ukázkou možností sémantického vyhledávání je dotaz na zkázu Titanicu.

Bez jakéhokoli filtru vrací systém odpověď ve stylu encyklopedického shrnutí – popis lodi, okolnosti nehody, počet obětí i pozdější důsledky.

Při filtrování na období před katastrofou (do 14. 4. 1912) systém odpovídá, že se v dostupných novinových článcích se o Titanicu nepsalo. Naznačuje to, že Titanic nebyl v centru zájmu v rámci našeho vybraného vzorku novin.

Při filtrování na dny bezprostředně po katastrofě (14.-16. 4. 1912) odpověď ukazuje nejasné a protichůdné zprávy, spekulace a zmatení, které tehdy panovalo.

Při použití filtru období prvního výročí katastrofy (14.-16. 4. 1913) se tón výrazně mění – noviny reflektují výročí, popisují důsledky nehody, změny v bezpečnostních opatřeních a způsoby, jakými si společnost tragédii připomínala.

Tato kombinace volného dotazu s možností filtrovat podle období nabízí nový způsob práce s historickými daty – blízký způsobu, jakým se provádí rešerše v běžném výzkumu.

Limity, na které je třeba myslet

Sémantické vyhledávání je silný nástroj, ale má svá omezení – zejména pokud od něj očekáváme příliš konkrétní výsledky.

Nejde o genealogickou databázi – hledání jmen příbuzných většinou není spolehlivé, protože noviny se věnovaly spíše veřejným osobnostem a událostem, běžná jména lze snadno zaměnit.
Výsledek je ovlivněn formulací dotazu – systém vždy nějakou odpověď vrátí, ale čím obecnější dotaz položíme, tím obecnější odpověď získáme.
Datový korpus je zatím omezený – i když zahrnuje reprezentativní vzorek tisku, některé tituly nebo ročníky nejsou (zatím) ve zdrojových knihovnách k dispozici.

Přesto má tento typ vyhledávání velký potenciál. Může zpřístupnit historické informace i lidem, kteří by si jinak na klasické rešerše v digitálních knihovnách netroufli, nebo by je považovali za příliš zdlouhavé.

A co dál?

Paměť novin je zatím prototyp – nástroj ve vývoji, který testuje možnosti zapojení umělé inteligence do práce s historickými daty. Už teď ale ukazuje, že sémantické vyhledávání může být cenným doplňkem digitálních knihoven. Zejména tam, kde jde o porozumění významu, souvislostem a změnám v čase. Jakkoli Paměť novin zůstává prototypem s řadou omezení, otevírá možnosti, které mohou být do budoucna zajímavé i pro menší instituce a běžné uživatele. Nejde o nástroj, který nahradí běžnou rešeršní práci, ale o prostředek, který ji může v některých situacích zpřehlednit a zrychlit. Nebo alespoň nabídnout nový pohled.

Zdroje:

BOGÁR SMETÁNKOVÁ, Martina. Paměť novin: Revoluce v hledání historických dokumentů. Online. Trinera. 2025. Dostupné z: https://www.trinera.cz/blog/pamet-novin-revoluce-v-hledani-historickych-dokumentu. [cit. 2025-10-13].
BOGÁR SMETÁNKOVÁ, Martina. Paměť novin pro všechny: Otevřený přístup, více obsahu, lepší filtrování. Online. Trinera. Dostupné z: https://www.trinera.cz/blog/pamet-novin-pro-vsechny-otevreny-pristup-vice-obsahu-lepsi-filtrovani. [cit. 2025-10-13].
BOGÁR SMETÁNKOVÁ, Martina. Paměť novin: Co nám mohou říct miliony řádků starých novin – a jak jim rozumí stroj. Online. Trinera. 2025. Dostupné z: https://www.trinera.cz/blog/pamet-novin-co-nam-mohou-rict-miliony-radku-starych-novin---a-jak-jim-rozumi-stroj. [cit. 2025-10-13].
KASENCHAK, Robert T. What is Semantic Search? And why is it important? Online. Information Services and Use. 2019, roč. 39, č. 3, s. 205-213. ISSN 0167-5265. Dostupné z: https://doi.org/10.3233/isu-190045. [cit. 2025-10-13].
KNIHOVNA AKADEMIE VĚD ČR. Systém Kramerius. Online. Dostupné z: https://system-kramerius.cz/. [cit. 2025-10-13].
RYCHTÁŘ, Jan. Paměť novin – chytré vyhledávání ve starých novinách. [online video]. In: Umělá inteligence v archivním světě. Odborný workshop. Praha: Masarykův ústav a Archiv AV ČR, 23. 9. 2025. Dostupné z: https://www.youtube.com/live/FYK7tNLSDqo?t=19490. [cit. 2025-10-13].
TRINERA S.R.O. Paměť novin: Chytré vyhledávání v archivech historických novin. Online. 2025. Dostupné z: https://www.pametnovin.cz/. [cit. 2025-10-13].

BOGÁR SMETÁNKOVÁ, Martina . Paměť novin: sémantické vyhledávání v historickém tisku pomocí AI. Duha: Informace o knihách a knihovnách [online]. 2026, 39(4) [cit. 2026-01-04]. ISSN 1804-4255. Dostupné z: https://duha.mzk.cz/clanky/pamet-novin-semanticke-vyhledavani-v-historickem-tisku-pomoci-ai

1 zobrazení

4/2025 4.33 MB

Stáhnout