Nacházíte se: Úvod » Blogy » Osobní » Hadoop-driven digital preservation
Scalable Preservation Environments (SCAPE) a Open Planets Foundation (OPF) organizovali v Rakúskej národnej knižnici vo Viedni 2.-4. decembra hackathon zameraný na Hadoop, open source software framework umožnujúci distribuované paralelné spracovanie veľkého množstva dát.
Podrobný program akcie je dostupný online na stránkach OPF.
Súčasťou programu sú aj odkazy na jednotlivé prezentácie ktoré na tam odzneli.
Prvý deň bol zameraný dosť teoreticky. Zaznelo mnoho prezentácií z ktorých najzaujímavejšia bola asi prezentácia Jimmiho Lina z University of Maryland Big data and Twitter. Okrem všeobecných informácií o Hadoope, praktických ukážok map-reduce úloh v Jave a Pig skriptov rozprával svoje skúsenosti získané počas dvojročnej práce pre Twitter.
Počas zvyšných dvoch dní účastníci rozdelení do skupín pracovali na riešení konkrétnych úloh ako napríklad určovanie jazyka dokumentu, určovanie typu súboru alebo zisťovanie kvality OCR s využitím Hadoop. Výsledky práce jednotlivých skupín sú dostupné na stránke http://wiki.opflabs.org/display/SP/Working+Groups.
Za zmienku stojí ešte Tool-to-MapReduce Wrapper ktorý prezentoval Matthias Rella z Austrian Institute of Technology. Umožňuje paralelne vykonávať príkazy z príkazového riadku v map-reduce úlohe. Nástroj je voľne dostupný na githube.
Duha vychází 4× ročně v elektronické i tištěné podobě. Tištěná čísla ve formátu PDF naleznete zde.
|
|