A MEK 2.0 verziójára vonatkozó fejlesztések összefoglalása

Drótos László
mekdl@helka.iif.hu
OSZK MEK Osztály


Történet:

A Magyar Elektronikus Könyvtár 1994-ben jelent meg az Interneten, először egyetemi gopher szervereken elosztott információforrásként, majd 1995-ben egy központi szolgáltatásként - mint az NIIF egyik alprojektje - a helka.iif.hu nevű gépen. Egy évvel később készült el a Web-felület a http://mek.iif.hu címen és mind a mai napig lényegében ez a MEK központi szolgáltatása (a "hátrányos helyzetű" felhasználók kedvéért a gopher és az anonim FTP elérés is megmaradt). Ez az "1.0-ás MEK" mára már több szempontból is megérett a változtatásra: egyrészt időközben megjelentek és elterjedtek azok a nemzetközileg is szabványos megoldások az elektronikus dokumentumok leírására és tárolására, amelyek a MEK ötletének megszületésekor még nagyon hiányoztak, másrészt a könyvtár gyűjteménye (több mint 4 ezer dokumentum) és forgalma (havi 50-60 ezer látogató) meghaladta azt a mértéket, amihez elegendő volt az egyszerű file-archívum struktúra. 1999 őszén az Országos Széchényi Könyvtár révén komoly szakmai, szervezeti és pénzügyi hátteret kapott az Elektronikus Könyvtár, így 2000 elején elkezdtünk megtervezni a MEK 2.0 verziót, amely lényegében egy több tízezer darabos gyűjteménnyel rendelkező, korszerű és szabványos, a jelenleginél látványosabb és könnyebben használható digitális könyvtár felépítését jelenti. A fejlesztés kezdetben elég lassan haladt, mert egyrészt meg kellett teremteni a technikai feltételeket (saját szerver és szoftver-környezet), másrészt kevés szabad munkaerő és pénz jutott az új rendszer kialakítására, hiszen közben a jelenlegi szolgáltatást is folyamatosan bővíteni, fejleszteni kellett. 2001 végén indult be igazán az érdemi munka, mára már nagyjából elkészült az adatfelviteli rész és az új Web-felület, ezek az alábbi címeken próbálhatók ki: https://mek.oszk.hu:8080/ (ez csak dedikált gépekről!) https://mek.oszk.hu/

Előfeltételek:

Csak nyílt és ingyenes szoftvereket használjunk az alapszolgáltatáshoz, de egyes kiegészítő funkciókhoz (pl. fejlett teljes szövegű keresés) kereskedelmi szoftverek is szóba jöhetnek. A rendszer működtetői és felhasználói oldalról egyaránt könnyen megtanulható legyen, valamennyi fontos menedzselési funkció Web-felületen át történjen. Kompatibilisnek kell lennie a vonatkozó nemzetközi szabványokkal és adatcsere szinten együtt kell működnie más könyvtári adatbázisokkal, internetes szolgáltatásokkal. A rendszer teljes egészében vagy egyszerűsített formában szabadon átvehető lesz olyan non-profit szervezetek számára, amelyek a MEK-et vagy annak részhalmazát saját szerverről szeretnék szolgáltatni (pl. határontúli tükrözések), illetve saját elektronikus könyvtárat építenek.

Technikai környezet:

A MEK 2.0 verzió az OSZK-ban egy saját, Compaq Proliant típusú szerveren épül (600 Mhz-es Pentium III processzor, 256 Mbyte RAM és 36 Gigabyte winchester). A gépen Debian Linux operációs rendszer van, a fejlesztés pedig MySQL adatbáziskezelővel és PHP nyelven folyik. A későbbiekben a Zebra nevű, XML keresést és Z39.50-es elérést is biztosító szoftvert és - valószínűleg - a Search++ nevű teljes szövegű keresőprogramot is integráljuk a rendszerbe. (Mindkettő ingyenes szoftver.) A Web-szolgáltatást egy Apache szerver biztosítja. A csoportmunkához szükséges közös levelezés egy Mailman lista-kezelő segítségével történik.

A MEK 1.0-ás és 2.0-ás szolgáltatása jó pár évig párhuzamosan fog működni - előbbi a helkán, utóbbi a mekmesteren - és a két gép egymás tükörszervereként szolgál majd. (Ez az egyik irányban már most is így van.) A gopher szolgáltatást megszüntetjük, a legfontosabb felhasználói körnek - a vakoknak - egy egyszerűsített Web-felület készül. Az anonim FTP hozzáférést a 2.0-ás verzióban is biztosítjuk majd, elsősorban a részleges vagy teljes tükrözések és az FTPMail szolgáltatást használók érdekében.

Gyűjtőkör, minőség, copyright:

A MEK megcélzott felhasználói köre továbbra is az oktatási és tudományos szféra, valamint az otthoni Internet használók és a magyar kultúra iránt érdeklődő külföldiek. Ennek megfelelően meg kell próbálni minél teljesebben szolgáltatni a kötelező és ajánlott irodalmat, tankönyveket és jegyzeteket, az elektronikusan publikált szakirodalmat, valamint a nemzeti kulturális örökségnek azokat a darabjait, melyeknek megléte jogosan elvárható egy, az OSZK neve alatt működő digitális archívumtól. Ugyancsak jó volna elérni a hazai és a határontúli kortárs irodalom csaknem teljeskörű bemutatását, legalább egy-két művel minden író és költő esetében. Külön hangsúlyt kell fektetni a magyar irodalom idegennyelvű fordításainak közzétételére. Ki lehetne bővíteni a gyűjtött dokumentumok körét is: a kották és térképek mellett szóba jöhetnek majd muzeális könyvek fakszimile másolatai, képzőművészeti alkotások, régi fotók, hangfelvételek és zenék (komoly- és népzenei művek) is.

Az alapvetően szöveges művek közül a MEK 2.0-be csak olyan dokumentumtípusokat veszünk fel, amelyek egy hagyományos könyvtár polcaira is felkerülhetnének: vagyis nem gyűjtünk már rövid önálló verseket, novellákat, cikkeket stb., csak verses- és novellásköteteket, valamint hosszabb tanulmányokat. A rövidebb, kevésbé értékes vagy gyorsan elavuló tartalmú írások részben a továbbra is üzemelő 1.0-ás MEK-ben maradnak, részben a kifejlesztés alatt levő EPA-ba (Elektronikus Periodika Archívum) kerülnek majd.

A dokumentumok (szöveg)minőségének javítása is fontos szempont. A MEK továbbra sem működhet kiadóként, de mivel az elektronikus publikálásnál gyakran nincs szerkesztőségi vagy kiadói kontrol, ezért legalább a szépirodalmi műveknél meg kell oldani a korrektúrát minden esetben, mielőtt felvennénk a gyűjteménybe. A többi szöveges anyagnál legfeljebb a helyesírás ellenőrzése lehet reális cél. Lehetőség szerint mindenhol az ISO 8859-2 kódtáblát használjuk a magyar ékezetekhez, egyéb nyelvek speciális karaktereinek kódolása az Unicode szabvány szerint történik. A fontosabb formátumokhoz ajánlások készülnek: https://mek.oszk.hu/html/irattar.html A nem-szöveges dokumentumoknál a számítógépen való elfogadható minőségű megjelenítés illetve lejátszás a fő szempont, nem szükséges olyan nagy méretű és magas minőségű digitális másolatok szolgáltatása, melyek az eredeti művek helyettesítésére is alkalmasak. A gyűjtemény gyarapításában egyre nagyobb arányban kell a megbízhatóbb kiadói forrásokat igénybe venni.

A 2.0-ás verzióba már csak olyan művek kerülhetnek be, amelyeknek a copyright helyzete tisztázott. Vagy van írásos (e-mail is elegendő) engedély a MEK-ben való archiválásra, vagy az Artisjus-on keresztül jogosítjuk a műveket (jelenleg a szépirodalmat).

A saját gyűjtemény mellett továbbra is gyűjtjük az elektronikus folyóiratok, újságok és magazinok URL címeit (ez az adatbázis majd beépül az EPA-ba), valamint az Interneten található hazai és fontosabb külföldi könyvtári és könyves információforrások URL-jeit. Nem foglalkozunk viszont már egyéb szervereken levő elektronikus dokumentumok linkelésével, ezt a feladatot más szolgáltatók (pl. a Neumann-ház) időközben átvették.

A dokumentumok tárolása:

A MEK-be kerülő dokumentumok változatossága (tudományos és szépirodalom, lexikonok, bibliográfiák stb.), különböző eredete (szerzőktől/kiadóktól, más Web-szerverekről, CD-ROM kiadványokról, szkennelt könyvekből stb.) és a felhasználás eltérő módjai (keresés, kinyomtatás, felolvastatás stb.) miatt nincs olyan egységes és optimális formátum, amibe minden egyes dokumentumot - reális költségekkel - konvertálni lehetne. Ezért a dokumentumot eredeti formátumának és feltételezett felhasználási módjának függvényében általában többféle, lehetőleg nyílt formátumban tároljuk. Ajánlatos egy alapvetően online böngészésre és egy alapvetően letöltésre/nyomtatásra szánt formátumot is feltenni. A támogatott formátumok: HTML, XML, PDF, RTF, PostScript, TeX DVI, JPEG, PNG. Megtűrt típusok: Microsoft Word 6.0, Word 97 és Word 2000, valamint a különböző e-book formátumok és a GIF képformátum. Egyszerű ASCII text állományokat már nem szolgáltatunk, kivéve az online felolvasásra szánt könyveknél, de valószínűleg azoknál is inkább speciális tag-ekkel ellátott XML formátumot használunk majd. A letöltésre szánt állományokat (amennyiben érdemes) ZIP tömörítéssel csomagoljuk.

Az elektronikus dokumentumokat tartalmazó file-ok tárolása egy kétszintes, sorszámozott directory-struktúrában történik. Az első szint max. 1,000 db. directory-t tartalmaz, melyek mindegyike további 100 db. alkönyvtárra oszlik. Így maximum 100,000 db. dokumentum helyezhető el az új MEK-ben. Minden dokumentumhoz tartozik egy index.html nevű file, amely egyfajta "borítólap"-ként szolgál és számos funkciója van (többek között tartalmazza a metaadatokat). Lásd például: https://mek.oszk.hu/00400/00432/index.phtml A dokumentum különböző formátumokban, szabványos file-nevekkel (pl. 00432.rtf, 00432.pdf stb. illetve 00432rtf.zip, 00432html.zip stb.) szintén ide kerül feltöltésre. (Ha egy formátumhoz több file is tartozik, akkor ezeket egy-egy, harmadik szintű alkönyvtárba kell elhelyezni: pl. 00400/00432/html/ vagy 00400/00432/doc/ ) További kiegészítő állományok is kerülhetnek ezekbe a számozott directory-kba, például a könyv szkennelt címlapja vagy a szerző arcképe, egy rövid fülszöveg, a megjelenítéshez szükséges speciális font-készletek, az online felolvastatható text vagy XML verzió stb. Ugyancsak ide kerül egy index.xml nevű file, amely az adatcserére és a Zebrával való visszakeresésre alkalmas XML formátumban tartalmazza a dokumentum bibliográfiai adatait. Ezeket a metaadatokat - kiegészítve a MEK rövid ismertetésével és a felhasználásra vonatkozó szabályokkal - a letölthető ZIP file-okba is belecsomagoljuk (mek.html néven), hogy azok együtt "utazzanak" a dokumentummal.

Katalogizálás:

A dokumentumokról a jelenleginél részletesebb, de alapvetően egy egyszerűsített könyvtári címleírás készül, és ezeket az adatokat egy adatbázisban tároljuk. Max. 18 féle adatcsoport kerül rögzítésre (pl. Cím, Szerző, Dátum, Kiadó, Tárgyszó stb.), ezek többsége további adatelemekre bomlik (pl. Főcím, Alcím, Sorozati cím stb.). Valamennyi adatcsoport ismételhető szükség esetén. Egyes adatelemek értéke (pl. Nyelv, Típus) egy kötött listából választható ki, mások (pl. Szerző, Tárgyszó) szabadon kitölthetők, de ajánlott megnézni a már felvitt adatokat tartalmazó indexet és az egységesítés érdekében lehetőség szerint onnan átemelni az adatot. Nem építünk kötött, authority állományokat sem a név-, sem a tágyszó-elemeknél. A dokumentumok téma szerinti besorolása kétféle módon történik: egyrészt mindegyiket besoroljuk legalább egy főtémakörbe, témakörbe és altémakörbe (ezek listája kötött), másrészt mindegyik kap legalább egy tematikus tárgyszót, és esetleg egy földrajzi és idő tárgyszót is. A tárgyszavakat lehetőség szerint az OSZK Tezauruszából választjuk (ha abban nincs megfelelő, akkor pedig a Mátriksz-ból http://www.matriksz.hu vagy a MEK régi tárgyszó-listájából). A bibliográfiai adatok részben megfeleltethetők a Dublin Core ajánlásnak és ezek a metaadatok bekerülnek a dokumentumhoz tartozó index.html és index.xml file-okba is a keresőrendszerek számára. Továbbá exportálhatók illetve megjeleníthető lesznek majd ISBD, USMARC, HUNMARC, XML, valamint a magyar mezőneveket mutató "címkés" formátumokban. A tervek szerint a MEK gyűjteményének "legjavát" - kibővített leírással - az OSZK saját, Amicus rendszerében is katalogizálják majd, az egyszerűsített bibliográfiai rekordok pedig bekerülhetnek az ODR, a Közelkat, a MOKKA, a WebKat.hu és más hasonló adatbázisokba is.

Szolgáltatások:

Az új MEK felhasználói felületét az olvasóktól kapott visszajelzések és az eddigi tapasztalatok alapján alakítjuk ki. A középpontba a böngészhető és kereshető katalógus kerül, a kezdőlapról egyetlen kattintással a MEK minden része elérhetővé válik (erősen lecsökkentjük a menük "mélységét"). Egy egyszerű keresés már a nyitóoldalról is kérhető és az egyes dokumentumok "borítólapjáról" is indíthatók majd katalógus-keresések, az összetett, minden szempontra kiterjedő kereséshez külön oldal készül (itt repülő ékezetek, Boole-operátorok, böngészhető indexek is használhatók majd). A találati listák ékezet-helyesen rendezhetők lesznek cím, szerző és dátum alapján. A HTML (és ha megoldható, akkor az RTF és PDF) formátumú dokumentumok teljes szöveggel is kereshetők lesznek majd, a találati listákban szövegkörnyezetben jelennek meg a keresett szavak. A dokumentumok "borítólapjáról" keresések indíthatók majd hagyományos könyvtári és könyvkereskedői adatbázisokban.

A Web-felület minden eleme kétnyelvű lesz, általában a magyar feliratok felett jelenik majd meg az angol fordítás. Külön hangsúlyt kell fektetni arra, hogy a vak felhasználók is könnyen tudjanak navigálni a rendszerben. Fontos a gyors letöltődés is, a felhasználó felületet alkotó Web-lapok egyike sem lehet nagyobb 100 kbyte-nál (képekkel együtt).

Néhány további szolgáltatás: vendégkönyv, olvasói vélemények az egyes művekhez, részletes letöltési statisztikák, sikerlisták, hírlevél, irattár, 3 dimenziós VRML-modell, virtuális kiállítások, ajánlott információforrások minden témakörben, LibInfo (korábban: MIT-HOL) online tájékoztató szolgálat.

Lehetséges egyéb fejlesztések: online felolvasó szoftver, a dokumentumok hitelesítése digitális aláírással, stabil DOI/URN címek használata (az OSZK tervezett URN-szervere segítségével), a MEK böngésző és kereső-funkcióinak integrálása az EPA-val (egyidejű keresés a könyvek és a folyóiratok között), közös keresőfelület más elektronikus könyvtárakkal, linkek és egyéb funkciók működésének automatikus ellenőrzése (minőségbiztosítás), nyilvántartó rendszer az országban folyó digitalizálási munkákról, olvasói fórumok, automatikus konvertálók formátumok között (főleg az e-book olvasókhoz), a Web-szerver forgalmának auditálása...

 


Vissza a rendezvény címlapjára