Az egyes országok digitális könyvtári projektjei


Amerikai Egyesült Államok

Az Egyesült Államokban 1996. óta a Kongresszus támogatásával folyik a Nemzeti Digitális Könyvtár projekt a Kongresszusi Könyvtár, több egyetemi könyvtár és a magánszféra részvételével. Tekintettel a fejlesztés méreteire és irányultságaira a folyamatban lévő munkát három csoportban tárgyaljuk:


A Kongresszusi Könyvtár Nemzeti Digitális Könyvtár Történeti Gyűjteménye programja

A Kongresszusi Könyvtár öt éves programja azt célozza, hogy saját nyomtatott és nem-nyomtatott anyagából elkészítse az amerikai történelmi és kulturális forrásanyag kezdeti magját digitális formában, amelyet bárki elérhet hálózaton keresztül.

A munka egyik tényezője a heterogén anyag kiválasztása és digitalizálása. A másik tényező a kényelmes és hatékony hozzáférés kialakítása széles használói kör számára az iskolás gyerekektől a kutatókig.

További szempont az, hogy bár a könyvtár nem kutatási és fejlesztési intézmény, mégis az ilyen munkák elkerülhetetlenek, ezért a legújabb technikát kell alkalmazni, tekintettel kell lenni a szellemi tulajdonra vonatkozó jogokra, végül a LC speciális feladataira.

A munka során támaszkodhattak a korábbi szellemi eredményeikre, így MARC és a Z39.50 szabvány kidolgozására.

A program 1994. évi indulásakor 200 americana gyűjteményt vettek számba, mint lehetséges elemet, és figyelembe vették az elosztott gyűjtemények lehetőségét is, együttműködve más könyvtárakkal.

A projekt előzményei közé számítják az 1982-87 közötti Optikai Lemez pilot programot és az 1989-94 között futott Amerikai Emlékezet pilot programot, ez utóbbi CD-ROM-on és analóg videolemezen rögzített americanakat.

Egy 1996. áprilisából származó beszámoló 12 történelmi gyűjteményt jelez elérhetőnek az Amerikai Emlékezet hálóoldalakon), az 1920-as évekből származó hanganyagokkal és mozifilm-részletekkel, több, mint 30.000 képpel és természetesen szöveges dokumentumokkal. (http://www.dlib.org/dlib/april96/loc/04c-arms.html )
A gyűjtemények egységesek, de integritásuk változó. Egy részük koherens archív anyag egy-egy személyről vagy intézményről; második csoportra a speciális eredeti forma jellemző, pl. eredeti dagerrotípiák gyűjteménye; a harmadik csoportot a tematikus antológiák jelentik. A gyűjtemények mérete is változó, vannak fotógyűjtemények 600 és 25.000 képpel. Új irányként jelentkezik az oktatási gyűjtemények képzése.

Tanulságok és problémák a fejlesztési program során:

1. A történeti gyűjtemények digitalizálása nem szokványos feladat.
A szabványos letapogatók (szkennerek) papírlap és diafilm digitalizálására készültek. Az ilyen munkára vállalkozó cégeknek sincs gyakorlatuk nagyformátumú negatívok vagy mikrofilm digitalizálásában, ugyanakkor a sérülékeny eredetiek helyett általában ezeket kapják meg.
A kötött művek letapogatására csak mostanában jelentek meg készülékek, ezek lassúak és drágák. (Már az eddigiekből is látható, hogy a LC külső cégekkel digitalizáltatta a gyűjteményt vagy annak egy részét, bár a felvételek a helyszínen készültek.)

2. A tervezés, a projekt menedzsment és a minőségbiztosítás időt vesz igénybe. A szkennelés csak a projekt egy része. Igen munkaidőfaló és szaktudásigényes a munkafolyamatok tervezése, a szerződések specifikálása, az anyagok előkészítése digitalizálásra, az előrehaladás figyelése, és a minőségellenőrzés. A külső szerződőknek részletes utasításokat kell elkészíteni és ezek végrehajtását kisebb mintákon ellenőrizni kell a kellemetlen meglepetések elkerülésére.

3. Az elnevezési sémákat korán kell megalkotni
A hálózati erőforrások konzisztens, szervezett eléréséhez robusztus, általános elnevezési sémák szükségeltetnek. Egyedi és állandó azonosítókat kell használni a katalógustételeket és más leíró elemeket a tárolt dokumentummal való összekapcsoláshoz. A korai elnevezési rendszer lehetővé teszi a digitalizálás és a leíró anyagok párhuzamos elvégzését, megkönnyíti a projekt- és minőség-ellenőrzést minden szinten.
Az LC által kifejlesztett általános megközelítésben, minden tétel két részből álló logikai nevet kapott, egy a gyűjteményt, a másik azon belül a tételt azonosítja. A digitális archívum hierarchikus rendbe szervezett állományok halmaza, és a logikai nevek egy táblázatban kereshetők. A tervek szerint a jövőben a logikai nevek lesznek az un. Uniform Resource Name azonosítók, amelyek globálisan egyediek, állandóak és helyfüggetlenek. A Corporation for National Research Initiatives (CNRI) a LC-vel együttműködve kialakított egy olyan rendszert, amelyben a logikai nevekhez un. handle (megfogó, kapaszkodó) adódik. A CNRI handle-szerver fogja feloldani az URN-eket és leképezi azokat a világhálón is értelmezett speciális helyfüggő azonosítókká, mint amilyenek az URL-ek.

4. A leírások egyneműsége nem praktikus.
A digitális másolatok igénylik a keresés és a tallózás támogatását az azonosítást megkönnyítő leírásokkal. Ez időigényes feladat és jelentős kutatómunkát is igényelhet megalkotásuk. Még az LC-re is igaz, hogy a legtöbb archív anyag nincs tétel szinten katalogizálva.
Sok gyűjteménynek van egyfajta (gyakran nem is publikált) leírása (angol: finding aid), amely tartalmazza a gyűjtemény célját, tartalmát, szellemi kontextusát stb., és egy strukturált listát az elemekről.
(Létezik egy, a Berkeley Finding Aid Project-ből származó szabványtervezet is, a Encoded Archival Description, amely egy SGML DTD az ilyen finding aid típusú leírások számára.)
Egy másik megközelítés a ún. csoportszintű katalogizálás, amely a tételek logikai csoportjaira vonatkozik. Ez gyakran elegendő a felhasználó számára, míg a tételes katalogizálás keresztülvihetetlen. (Néha gyakorlati okokból: A Berkeley egyetem számításai szerint 3,5 milliós képanyaguk katalogizálása jelenlegi munkaerő-kapacitásukkal 400 évig tartana.) Így tehát az archiválási gyakorlatot kell integrálni az automatikus rendszerekbe. A probléma az, hogy ez a gyakorlat nem egyforma, és gyakran jó indokokkal. A következtetés egyértelmű: azt felismerve kell a digitális archívumot építeni, hogy a leírások szintje és szerkezete (a meta-adatok forrásai) igen változatosak.

5. Hol kell tárolni a leíró információkat?
Az LC modell szétválasztotta a hozzáférés eszközeit (indexek, katalógusok, leírások) a forrásanyagot tartalmazó digitális archívumtól. (Lásd: ábra a függelékben.) Így az utóbbira közvetlenül rámutathatnak az előbbiek. A modell azt is tartalmazza, hogy a digitális tétel mellett más változatok (film, papír stb.) is létezhet, és természetesen az eredeti is. (A modellalkotás számos egyéb kérdést is felvet, amelyekre nem térünk ki.)
Az LC dokumentációban található néhány technikai jellegű tanulmány is. Ezek közül jelentősnek érezzük Carl Fleischhauer anyagát, amely a digitális formátumok összefoglalója a projekt részére (Digital Formats for Content Reproductions, http://lcweb2.loc.gov/ammem/formats.html)
A bevezető fejezet után a közlemény sorra veszi a különböző dokumentum-típusokat és kijelöli az alkalmazásra javallott formátumokat: képanyagok, szöveges állományok, amelyeket mint kereshető szövegeket és képeket reprodukálnak, csak képként reprodukált szöveges állományok, böngésző típusú lapozókban használt képek, térképek, hanganyagok, mozgókép-anyagok, állományfejlécek.
A kiválasztott formátumok legtöbbje a Hálón használatos. Az, hogy reájuk esett a választás, egy kísérlet arra, hogy egyensúlyba hozzanak néhány szempontot:

Csupán illusztrációként másoljuk ide a képanyagokra vonatkozó részt.

II. Pictorial Materials
For pictorial collections, the Library produces three image types:

Thumbnail
A small image presented with the bibliographic record, to allow users to judge whether they wish to take the time to retrieve a higher quality image.

    Tonal depth: 8 bits per pixel
    Format: GIF
    Compression: Native to GIF

Reference
The "fetchable" higher quality image. In current projects, only one reference image is provided; future collections may offer two (or more) at varying levels of resolution.

    Tonal depth: Grayscale: 8 bits per pixel; color: 24 bits per pixel
    Format: JFIF (JPEG File Interchange Format)
    Compression: JPEG (generally about 10:1 compression)
    Spatial resolution: Moderate class ranges from about 500x400 to about 1000x700 pixels; higher resolution class (future) will range from 2000x1400 to 4000x3000; both moderate and higher resolution will be offered to users

Archive
An uncompressed (or, in the future, lossless-compressed) image free of the artifacts resulting from lossy compression, provided to users for reproduction or held for future reprocessing as compression standards change. Not provided at this time; may be provided to users as a downloadable file in the future.

    Tonal depth: Grayscale: 8 bits per pixel; color: 24 bits per pixel
    Format: TIFF (Tagged Image File Format)
    Compression: Uncompressed
    Spatial resolution: Moderate class ranges from about 500x400 to about 1000x700 pixels; higher resolution class (LC examples coming in future) will range from 2000x1400 to 4000x3000; only the highest resolution will be archived

Alternative format
Several organizations have used the Kodak PhotoCD (Image Pac) format in their imaging projects. Originally associated only with CD-ROM disks, this multi-resolution format may now be written to other storage media. The Library has not had extensive experience with PhotoCD/Image Pac. Archives wishing to produce collections that are interoperable with those at the Library of Congress and who plan to use PhotoCD technology should either determine how direct access to those images may be provided to WWW clients or plan to reprocess the Image Pac images to produce GIF and JFIF/JPEG images for WWW access in association with the American Memory site.

Néhány további megjegyzés

A Kongresszusi Könyvtár NDL programjában található egy folyamatlista "STEPS IN THE DIGITIZATION PROCESS" címen, (http://lcweb2.loc.gov/ammem/award/docs/stepsdig.html), amely jól hasznosíthatónak tűnik a digitalizálási folyamat tervezése és ellenőrzése során. (1. sz. melléklet)

A Kongresszusi Könyvtár NDL programjában található egy projekttervezési ellenőrző lista (http://lcweb2.loc.gov/ammem/prjplan.html), amely igen alaposan átgondolt anyag és adaptálása kívánatosnak tűnik. (2. sz. melléklet)


A Digitális Könyvtári Kezdeményezés (Digital Library Initiative) projektjei

Az NSF, az ARPA és a NASA által támogatott és hat egyetemi kutatási-fejlesztési projektet felölelő kezdeményezés célja létrehozni digitális gyűjteményeket, az ezekhez szükséges technológiát és az egészet beilleszteni a globális információs infrastruktúrába. A projekt 1994 őszén kezdődött és négy év alatt kell végrehajtani. A támogatás egyenként és évente 1 MUSD. Miközben mindegyik fejlesztő csoport elvégez egyfajta 'prototípus- vagy tesztrendszer- (testbed) vizsgálatot, kutatási terveik, módszereik, gyűjteményeik és megcélzott használói körük lényegesen különbözik.

A projekttámogatók kívánságára az összes program közös tevékenységei közé tartozik a felhasználókra vonatkozó kutatás. A digitális könyvtár és a multimédia-dokumentumok használata új helyzetbe állítja a felhasználót is, így a programok azt is vizsgálták, hogy miként reagálnak a felhasználók az új technikára, illetve miként lehet az információkeresést kényelmesebbé és hatékonnyá tenni.

Carnegie Mellon Egyetem 'Informedia' Digital Video Library projekt

A projekt célja létrehozni egy interaktív, online digitális videokönyvtárat, amelyben a felhasználók archivált tudományos és matematikai videoanyagokhoz tudnak hozzáférni. Hanganyagot, képeket, természetesnyelv-megértő technológiát integrálva, különböző helyekről származó, különböző tartalmú 1000 órányi videoanyagot dolgoznak fel.

A kutatás kiterjed az ember-gép kapcsolatra, a digitális video használatának árképzésére, a személyiségi jogokra és a biztonságra. (http://informedia.cs.cmu.edu)

Berkeley Egyetem Electronic Environmental Library projekt

Nagyméretű, osztott könyvtárat kíván létrehozni a projekt, amely egyaránt tartalmaz képeket, szöveget, térképeket, hangot, videofilmeket, numerikus adatbázisokat, hipertextesített kompozitd-okumentumokat a környezetgazdálkodás témakörében, kifejezetten olyan hozzáférési technikákkal, amelyet a képzetlen olvasó is használni tud.

A kutatási témák közé tartozik az automatizált indexelés és intelligens visszakeresés, a videoalkalmazásokat támogató adatbázis-technika, kliens-szerver protokolok, osztott erőforráskeresés, a felhasználó-rendszer közti párbeszéd új paradigmái.

A felhasználókkal kapcsolatos vizsgálatok elsősorban a szakemberek felé, és nem a nagyközönség felé irányulnak.

A végsősoron a HTTP protokolra illetve a hálóra alapozott program korszerű feldolgozási és keresési technikákat épített a tesztrendszerbe. Az igen vegyes állomány egy része csak a kutatás-fejlesztést szolgálja, de nagy része szabadon elérhető. (http://elib.cs.berkeley.edu)

Az archívum méreteire nézve érdemes néhány adatot megadni (http://elib.cs.berkeley.edu/arch/testbed.html) az 1996. július 3-i állapot szerint:

Dok.típus Adatcsoport Darabszám Méret Tervezett darabszám/méret
Dokumentumok közlemények, riportok 41,3 ezer oldal 20,6 GB
0,5 MB/oldal
300.000 oldal /150 GB
Képek fotók, vadvirágok stb. 79,5 ezer db. 238 GB
6 MB/kép
560.000 kép /3,4 TB
Légifelvételek   500 db 3,4 GB 10.000 kép/68 GB
Mérési adatok halvándorlás 30 nap 20 kB 3 év/1 MB
Származtatott és egyéb adat gátak, halak, html oldalak változó 50 MB 1 GB
Ortofotók San Francisco öböl 102 kép 5 GB 102/5 GB
Összesen:     268 GB 3,5 TB

A szöveges keresést a ChesireII-re alapozták (http://chesire.lib.berekeley.edu), amely egy újgenerációs rendszer, a Z39.50-nel és az Infobus-szal is együttműködik.

Santa Barbara Egyetem Alexandria projekt

A projekt célja felhasználóbarát digitális könyvtár létrehozása térképek, képek és térinformatikai adatok archívumaiból. Az adatok és dokumentumok kezdetben az egyetem környezetére vonatkoztak és ezt szélesítik a program során, bevonva más könyvtárakat is. A rendszerben szükség szerint helyeznek el térinformatikai interfészeket, elektronikus katalógusokat és az adatkeresés eszközeit. Kutatási területeik: térinformatikai adatok indexelése, amely széleskörű keresést tesznek lehetővé, a nagy adattömeg miatti teljesítményproblémák, térinformatikai metaadat-modellek, a térinformatikai rendszerek követelményei a felhasználó szemszögéből.

A Stanford Egyetem 'Infobus' elnevezésű digitális könyvtár projektje

A résztvevők között a Stanford egyetem figyelmét a rendszerek együttműködő-képességére fordítja. Olyan technikákat dolgoznak ki, amely egyformán hozzáférést nyújtanak mindenféle információs forráshoz, legyen az személyes, hagyományos könyvtári gyűjtemény vagy kutatók nagyméretű adathalmaza. Gyűjteményük elsősorban a számítástechnikai irodalom, de a világhálót mint egészet tekintik. A projekt magja az Infobus-protokolt futtató próbarendszer. Ez biztosítja a különböző szolgáltatásokhoz és információs forrásokhoz az egységes hozzáférést ún. 'proxi'-kon keresztül, amelyek fordítóként működnek az Infobus-protokol és az eredeti protokolok között. Kutatási témáik felölelik az információelosztó és kommunikációs modelleket, az információs kliensinterfészeket, információkereső rendszereket és kereskedelmi tranzakciós modelleket, ezek jogi és közgazdasági vonatkozásait.

Michigan Egyetem Digital Library projekt

A projekt tartalmilag a föld- és űrtudományokra irányul. Többezer felhasználót és információ forrást kíván összekötni (felsőoktatási campusokat, főiskolákat, közkönyvtárakat. Rendszerbe kívánja foglalni azt a hatalmas tömegű információt, amely a hálózaton található és a legkülönbözőbb formátumú, a könyvtári katalógusoktól az enciklopédiákon, szótárakon, folyóirat-cikkeken és adatbázisokon át a levelezőcsoportokig. (http://www.si.umich.edu/UMDL/) A Hálón már Java alapú oldalakkal jelennek meg, az Artemis-interfészt ajánlják, amelyet engedély hiányában nem nézhettünk meg.

Egyik mellékprogramjuk az ún. Journal Storage Project, amely 10 közgazdasági folyóirat összes számának digitalizálását tűzte ki célul. (http://index.umdl.umich.edu/jestor) Tesztrendszerük a TULIP interfészen alapszik, amely az Elsevier Science anyagtudományi lapjainak kereső és böngésző felülete.

Kutatási területük többek közt az intelligens ágensek és a rendszerintegráció. A tesztrendszerben háromféle egymással együttműködő intelligens ágenst dolgoztak ki, az első a felhasználóval párbeszédet folytat annak információigényéről, a közvetítőágens koordinálja a kereséseket a távoli hálózati forrásokban, a gyűjteményágensek a különböző gyűjteményekre jellemző specifikus kereséseket végzik.

Illinois Egyetem 'Interspace' Digital Library projekt

A projekt az egyetem műszaki közössége számára fejleszt digitális könyvtárat. A gyűjtemény magját a SGML formátumú folyóiratok képezik. Kialakítanak egy 'könyvtártól a közönség felé' modellt: egy olyan gyűjteményt, amelyben a dokumentumoknak egyedi nevük van (handle), a szerzők által generált indexelés (metaadat), egyenrangú állomások közötti architektúra, amely támogatja a többszörös forrásból származó hálózati objektumok kölcsönhatását és analízisét.

A kutatási témák közé tartozik még a tesztrendszer szociológiai értékelése, a szemantikus dokumentum-visszakeresés műszaki fejlesztése, a jövő skálázható információs rendszereinek prototípus-fejlesztése, az 'Interspace'.

A DLI jól szervezett alkalmazott kutatási program. A jelentős központi támogatás miatt pénzügyi és szakmai elszámolási rendszere alaposnak tűnik. Ez utóbbi a kívülállónak is észlelhetően megnyilvánul a résztvevők rendszeres munkaüléseiről, konferenciáiról és időszaki jelentéseiről készült Hálóoldalakon. Egy friss anyagot 1998. elejéről csatoltunk a függelékben. (3. sz. melléklet) Ennek tematikája jelzi azt is, hogy mi foglalkoztatja az élenjáró kutatást. (http://elib.cs.berkeley.edu/dli98-talks.html)

Megjegyzés: A tanulmány írásának ideje alatt jelent meg a fenti program második szakaszára vonatkozó felhívás. (http://www.nsf.gov/pubs/1998/nsf9863/nsf9863.htm) Legfontosabb tartalmi részét a függelékben csatoltuk. (4. sz. melléklet)


Néhány egyéb kezdeményezés az Egyesült Államokban

1. Az Amerikai Egyesült Államok Oktatási Minisztériuma (Department of Education) finanszírozásában 1996. szeptemberében kezdődött meg a három évesre tervezett National Digital Library of Theses and Dissertations, amely később a Networked Digital Library of Theses and Dissertations (Szakdolgozatok és Disszertációk Hálózati Digitális Könyvtára, NDLTD, http://www.ntltd.org). A kezdeményezés a SURA (Southeastern Universities Research Association, a Délkeleti Egyetemek Kutatási Szövetsége) sikeres programjára épül.

Az NDLTD elsősorban oktatási célú projekt: egyetemi hallgatónak kívánja megtanítani hogyan legyenek elektronikus kiadók és hogyan használhatják a kutatásban a digitális könyvtárakat, azaz végső soron hogyan válhatnak az "information literate" fogalmának megfelelő értelmiségekké. Az NDLTD-hez való hozzáférés lehetővé fogja tenni, hogy a hallgatók könnyen megtalálják az őket érdeklő szövegeket, elolvashassák társaik szakdolgozataiból a szakirodalmi szemléket és hipertext-linkeket kövessenek a releváns adatok és eredmények megtalálása végett. Az oktatók rámutathatnak a szakterületükön folyó kutatás legjobb példáira egészen a konkrét táblázatok, illusztrációk stb. szintjéig. (Fox et al. 1996)

Az első évben húszra nőtt a résztvevők száma. A projekt vezető intézménye a Virginia Tech Egyetem úgy döntött, hogy a Cornell Egyetemen a Networked Computer Science Technical Report Library (Számítástechnikai Műszaki Jelentések Hálózati Könyvtára, http://www.ncstrl.org/) projekt számára kifejlesztett Dienst rendszert adaptálják. (A Dienst-ről ld. részletesebben Kovács és Micsik, 1996)

Az IBM cég több számítógép adományozásával járult hozzá az NDLTD megvalósításához. Az IBM Digital Library szoftverrel futó egyik gép 4 terabájt, azaz durván 40.000 Gbyte hierarchikus tárkapacitással rendelkezik, ami 40 millió átlagos terjedelmű elektronikus disszertáció tárolására elegendő. Egy másik IBM gépen az OCLC SiteSearch fut. Az OCLC ingyenesen bocsátotta rendelkezésre a WorldCat adatbázis szakdolgozatokra és disszertációkra vonatkozó több mint egymillió MARC rekordját. Ez jól kiegészíti a projektben szintén résztvevő UMI anyagait.

A Virginia Tech hallgatóinak egy sor eszköz áll rendelkezésére:

2. A Cornell Egyetem Számítástudományi Tanszéke neve alatt fut a Networked Computer Science Technical Reports Library, amelyet az ARPA szponzorált és elosztott könyvtár. A számítástudományi műszaki jelentések gyűjteménye a résztvevő intézmények, ipari és kormányzati kutatóbázisok anyagait tartalmazza és együttműködő szerverek hálózatán van elhelyezve.

3. A Michael Hart nevével fémjelzett Gutenberg Project a hálózati irodalmi könyvtárak őse. Hart célja 2001-re 10.000 szépirodalmi művet helyezni el a hálózaton. A szövegek ASCII-szövegállományok és valamennyi ingyenesen hozzáférhető, ennek megfelelően többnyire 70 évnél régebbi művekről van szó. E programnak van esélye arra, hogy a legnagyobb hatást gyakorolja a közönségre.

A korlátozott idő miatt nem kerülhetett sor további, különböző amerikai kezdeményezések vizsgálatára. Igen gazdag forrásanyag található a http://lcweb.loc.gov/ndlf/digital.html címen.




Hátra Kezdőlap Előre