IT Business | Mártonffy Attila | 2009. 08. 13. csütörtök
http://www.itbusiness.hu/felso_menu/hirek/ict/Archivalni_az_internetet.html


Archiválni az internetet

Nem kis fába vágja a fejszéjét az, aki az internetes értékek eltűnésétől félve a világháló archiválását tűzi ki célul - még ha csak válogatva is a digitális tartalmak között. Különösen nehéz a helyzete, ha ehhez az értékmentő törekvéshez semmiféle támogatást nem kap.

A mai modern társadalmak életében az internet legalább annyira kultúrahordozó tényező, mint ötszáz éve a könyv, kétszáz éve a folyóirat vagy az ötvenes évektől a televízió. Az írott kultúrát a közgyűjtemények igyekeznek megőrizni az utókor számára, de mi legyen azokkal a digitális értékekkel, amelyek csak az interneten hozzáférhetők?

Egész oldalak ezrei tűnnek el nyomtalanul egyik napról a másikra, vagy válnak fokozatosan a digitális entrópia áldozatává. Továbbá ellentétben a sokszor még ma is jól forgatható évszázados könyvekkel, egy tízéves, dos-os Word-fájl nem biztos, hogy ma zökkenőmentesen olvasható. Mindez indokolja az internet archiválásának igényét - mutat rá Moldován István, az Országos Széchényi Könyvtár digitális gyűjteményekkel foglalkozó osztályának vezetője.


Monográfiáktól a weboldalakig

A nemzeti könyvtáraknak ebben kiemelt felelősségük van, bár kérdés, hogy a neten fellehető sokféle digitális objektumból mi tekinthető a gyűjtőkörük részének. Magyarországon 1994-ben egy-két felsőoktatási könyvtárban kezdődött meg a digitális dokumentumok gyűjtése és archiválása a Magyar Elektronikus Könyvtár nevű kezdeményezéssel. A projektet 1999-ben az Országos Széchényi Könyvtár vette át.

A Magyar Elektronikus Könyvtár a monografikus jellegű, lehetőleg terjedelmesebb, online vagy offline publikált, nyilvánosan szolgáltatható, alapvetően szöveges digitális hungarikumok gyűjtésére vállalkozott erős szelektálással. Sőt már arra is akad néhány példa, hogy teljes site-okat, honlapokat archiváltak. 2003-ban a programot kiterjesztették a magyar online folyóiratokra is, legutóbb pedig képanyag archiválásába fogtak. Innen pedig egyenes út vezet komplett weboldalak archiválásához.

A tapasztalatok nyomán már látni lehet, hogy milyen nagy és komplex a feladat, mennyi technikai és jogi problémát vet fel - például a könnyen archiválható statikus weboldalakat egyre jobban kiszorítják a nehezen feldolgozható dinamikus oldalak -, és hogy egyetlen intézmény vagy intézménytípus önmagában nem tudja megoldani a Magyar Internetarchívum létrehozását és fenntartását.


Két stratégia

Fájl- és adatstruktúra

A mentés kétfajta archívumot eredményez.

1. Fájlrendszerbe mentéskor valamilyen letöltőprogram segítségével (http vagy ftp protokollon át) másolat készül egy adott webhelyről, amennyire csak lehet megőrizve annak eredeti arculatát és struktúráját. A mentés során a belső linkeket relatív útvonalra kell konvertálni, így a másolat ugyanúgy navigálható maradhat, mint az eredeti.

2. Adatstruktúrába mentéskor egy harvester vagy crawler robotot alkalmaznak, amely akár egy teljes top-level domén tartalmát is le tudja szüretelni. A begyűjtött anyagot egységes szerkezetű archív állományokba teszik, majd adatbázist és indexeket készítenek hozzájuk.

A webarchiválásra kétféle stratégia létezik: az egyik szelekció nélkül archivál, a másik viszont válogat. Az előbbi a nemzeti doménregisztráló szervezetek nyilvántartásai alapján készít listát, majd egy speciális, erre a célra írt program végigpásztázza a webet, s képes akár egy teljes webteret archiválni. Ezzel a módszerrel - az anyag, mondhatni, végtelensége miatt - legfeljebb pillanatfelvételt lehet készíteni bizonyos időközönként (például 2-6 havonta).

A szelekciós eljárásban a válogatás szempontjait a kezdeményező szervezet határozza meg, s ez általában mindenütt a nemzeti könyvtár. Ennek értelmében a könyvtárosok a kultúra, az oktatás, a tudomány témakörét részesítik előnyben.

Magyarországon még egyik módszer szerint sem folyik archiválás, pilotprogramok sem futnak, legfeljebb erre irányuló törekvések fogalmazódtak meg - sajnálkozik Moldován István. A tevékenység beindítására 2006-ban hangzott el javaslat; ez mindenkinek tetszett a Kulturális Minisztériumtól a Nemzeti Információs Infrastruktúrafejlesztési Intézetig (NIIF).


Nem támogatják

A tetszésen túl azonban sem pénzforrás, sem vezetői akarat nemigen mozdította előre az ügyet, pedig már az elején megfogalmazódott piaci szereplők bevonásának az igénye is a webarchívum üzleti hasznosításának reményében.

Az NIIF még 2007-ben beadott egy tartalomfejlesztési pályázatot az Új Magyarország Fejlesztési Terv keretében futó Támop támogatásáért, s ebben a pályázati csomagban szerepelt a webarchiválás pilotprogramja is. A Nemzeti Fejlesztési Ügynökség azonban nem tartotta támogatásra érdemesnek a projektet - igaz, a nagy közgyűjteményi digitalizálási programot is leállították. Ezek után tavaly a Szegedi Egyetemi Könyvtár vállalta fel a Magyar Internetarchívum javaslatát egy hasonló Támop-pályázatában, amelyben az Országos Széchényi Könyvtár együttműködő, szakértő partner lenne.