Nézzünk bele a PAD-ba is avagy Egy új adatbázis a hálózaton

Varga Katalin (H8921Var@ella.hu)
Borostyáni Gézáné (H7928Sza@ella.hu)
Csík Tibor (H10259Csi@ella.hu)

Országos Pedagógiai Könyvtár és Múzeum

Abstract

There are more and more online available OPACs in Hungary. It is pitty that the number of the professional bibliographic databases is not increasing, and the only host providing databases centrally (this is the NIIF host) does not contain very much current bibliographic databases. The lecture demonstrates the project of the creation of the Hungarian ERIC, the Pedagogical Database (PAD) created by the National Educational Library and Museum. The database is in HUNMARC format extended in some places with datafields from USMARC. Besides books it also contains book-chapters and journal articles. The database is now available on the NIIF host, updated four times a year.

1. Bevezetés

Örömteli látni, hogy a hálózaton elérhető katalógusaink és adatbázisaink száma milyen rohamosan növekszik. Mindazonáltal úgy tűnik, hogy a bibliográfiai szakadatbázisok mintha alul maradnának a gyűjteményeket reprezentáló katalógusokkal szemben. Vajon miért? Magyarországnak miért nincs szüksége színvonalas szakirodalom-feltáró eszközökre, amelyeket az Internet segítségével bárki bárhonnan bármikor elérhet? Nem témája az előadásnak, mégis hadd tegyük fel a költőinek szánt kérdést: nem lenne nagyobb igény Magyarországon a szakirodalmi adatbázisok iránt?

Mindenekelőtt persze azt kell tisztázni, mit várunk egy szakirodalmi adatbázistól. Röviden:

Ezzel szemben mi a feladata egy adott gyűjteményt reprezentáló katalógusnak:

Magyarországon mind a mai napig nem alakult ki az a kettős rendszer, amely a tőlünk nyugatra található információs világot jellemzi: a témádba vágó szakirodalmat gyűjtsd össze a megfelelő szakirodalmi adatbázisokból, a dokumentumokat pedig keresd meg a számodra leginkább megfelelő gyűjtemény katalógusában. Mivel kis országunkban a gyűjtemények gyakran egybeesnek egy-egy szakterület gyűjtőhelyeivel, így a katalógusok megkísérlik ellátni mindkét funkciót. Valljuk be azonban őszintén, hogy az OPAC-okat vezérlő integrált könyvtári rendszerek nem alkalmasak arra, hogy szakirodalmi adatbázisok követelményeit kielégítsék, ez nem is feladatuk. Nem nélkülözhetjük továbbra sem a szöveges adatbáziskezelő szoftvereket, és egyre inkább szükség van központi adatbázis-szolgáltatókra is.

Ma Magyarországon a NIIF program vállalja fel egyedül ezt a feladatot. Arra lenne hivatott, hogy a nagy nyugati adatbázis-szolgáltatókhoz (DIALOG, DATASTAR, European Space Agency stb.) hasonlóan tájékoztasson a magyar szakirodalmi forrásokról - ezt helyettünk soha senki nem fogja megtenni. Köszönet illeti a NIIF programot a lehetőségért, a szolgáltatás színvonaláért, a HUNGARNET-en keresztüli ingyenes hozzáférésért. Szakmánknak azonban illene elgondolkodni azon, miért nem élünk jobban ezekkel a lehetőségekkel.

A NIIF hostján jelenleg hozzáférhető adatbázisok nagy része 1994-1995-ben készült. A 60 adatbázisból alig 10 a szakirodalmi, és szinte egy sem naprakész. Jelenleg a két legfrissebb (1997-ben frissített) a Nemzeti Periodika Adatbázis (NPA) és a Pedagógiai Adatbázis (PAD).

2. A pedagógia szakirodalmi adatbázisa - a PAD

2.1 Keletkezés, rövid történet

Az Országos Pedagógiai Könyvtár és Múzeum (OPKM) a neveléstudomány országos szakkönyvtáraként mintegy 40 éve állítja elő és gondozza a pedagógia nemzeti szakbibliográfiáit, a Magyar Pedagógiai Irodalmat és a Külföldi Pedagógiai Információt. 1989-től a bibliográfiák anyaga számítógépes adatbázis formájában is hozzáférhető az OPKM OPAC-ján belül.

Az 1996-os év két országos pályázata (NIIF és NKA) lehetővé tették, hogy az OPAC-ból előállítsuk a PAD adatbázist, amely immár megfelel a szakirodalmi adatbázisok követelményeinek. A NIIF pályázata révén átálltunk a HUNMARC formátumra, az adatbázis struktúráját átalakítottuk, korszerűsítettük. Jelenleg az adatbázis a BRS/Search szoftver segítségével kereshető a NIIF helka gépén, és remélhetőleg hamarosan web-es felületen is hozzáférhető lesz. A kialakított struktúra és az adatelemek köre immáron lehetővé teszik, hogy bármely felületen kihasználhatóak legyenek az adatbázis pozitív adottságai.

Az NKA pályázata révén 20 évre visszamenőleg elvégeztük az idegen nyelvű könyvállomány retrospektív konverzióját. A dokumentumok egy részének leírásait az OCLC Microcon szolgáltatása segítségével szereztük meg, a többit házi úton vittük gépre. Így hát tapasztalataink vannak a retrospektív konverzió mindkét megoldási formájáról. Egy év alatt mintegy 8000 rekordot sikerült így előállítanunk. Jelenleg ez a legteljesebb idegen nyelvű szakkönyv-állomány ma Magyarországon a neveléstudomány területén, amely immár országosan elérhető adatbázisban került feltárásra, magyar nyelvű hozzáféréssel.

A PAD adatbázis jelenleg mintegy 40 000 rekordot tartalmaz, magyar és idegen nyelvű könyveket, gyűjteményes kötetek tanulmányait és folyóiratcikkeket. A magyar ERIC kíván lenni (ERIC = az Egyesült Államok művelődésügyi minisztériuma által előállított központi pedagógiai adatbázis). Feladatának tekinti, hogy minél teljesebben informáljon a Magyarországon elérhető hazai és külföldi oktatással, neveléssel kapcsolatos publikációkról. Témáját tekintve az adatabázis igen nagy érdeklődésre, széles felhasználói körre számíthat, hiszen a pedagógia nemcsak a pedagógusok életének a szerves része.

Az adatbázis tartalmazza 1989-től a Magyarországon megjelent teljes pedagógiai szakirodalmat, ezen kívül egy reprezentatív válogatást a Magyarországon hozzáférhető jelentősebb idegen nyelvű folyóiratcikkekről ill. az Országos Pedagógiai Könyvtár állományában lévő idegen nyelvű könyvekről (1975-ig visszamenőleg). Pedagógiai szakirodalom alatt értünk minden oktatással, neveléssel, ezek elméleti, politikai, módszertani, történeti, szociológiai, pszichológiai aspektusaival, a pedagógusképzéssel és a felsőoktatás pedagógiájával foglalkozó, terjedelmében, témájában és minőségében a szakirodalom mércéjét megütő publikációt. A tankönyvek maguk nem részei az adatbázisnak, ezek továbbra is csak a könyvtár helyben használható számítógépes nyilvános katalógusában találhatók meg. A tankönyvekkel foglalkozó munkák és a tanári kézikönyvek azonban benne vannak a PAD-ban. Ugyanazon mű többedik változatlan kiadásait csak egyszer tünteti fel az adatbázis, a többes kiadásokat az online katalógusban lehet megtaláni. Az adatok forrása a megjelent könyvek mellett mintegy 300 magyar és közel 150 külföldi, elsősorban angol, német és francia nyelvű szakfolyóirat.

2.2 Adatszerkezet - HUNMARC-tapasztalatok

Adatformátumként természetesen adódott a HUNMARC. Nemcsak azért, mert a fenti pályázatoknak ez volt a feltétele, hanem azért is, mivel kiderült, hogy némi módosítással kiválóan alkalmazható adatbázis-igényekhez is. Az adatszerkezet kialakításánál törekedtünk a HUNMARC adottságainak maximális kihasználására. A hagyományos bibliográfiai adatmezők mellett sok lehetőséget ad egyéb információs adatok tárolására is. Bár a HUNMARC erőteljesen kötődik az MNB szükségleteihez, amennyiben kibővítjük a hiányzó adatelemek számára USMARC mezőkkel - a USMARC-kal a HUNMARC kiválóan illeszkedik -, szakirodalmi adatbázisokhoz is jól alkalmazkodó formátumot nyerünk.

Adatbázis-igényeinknek pl. sok jó lehetőséget ad a MARC formátum 008-as mezője, amelyet információs adatok tárolására alkalmazunk. Itt tudjuk feltüntetni és visszakereshetővé tenni a dokumentumok műfaját, intellektuális szintjét, illusztráltságát, speciális tartalmi jellemzőit (bibliográfia, statisztika, életrajz stb.). Alapjában véve ezek az információs adatok elsősorban nem a visszakeresést szolgálják a MARC formátumban, sok helyen nem is nagyon alkalmazzák őket. Szakirodalmi adatbázisokban azonban rendkívül jó szolgálatot tehetnek, elsősorban a találati halmazainkat szűkítő szempontként. Ezeket az adatokat jelenleg a PAD adatbázisnak csak az OPKM-ben elérhető változata tartalmazza, a BRS/Search alatt kereshető verzió ennél szűkítettebb.

Nagyon hasznos szolgáltatása a MARC formátumnak, hogy lehetőséget ad a személynevek, testületek és rendezvénynevek elkülönítésére, így a visszakeresésnél az eltérő típusú adatokhoz a megfelelő invertálási és keresési módok alkalmazhatók. Személyneveknél nem célszerű a szavankénti keresés, testületeknél ill. rendezvényeknél azonban kívánatos lehet.

A PAD adatbázis-jellegéből következően a feltárt dokumentumtípusok tekintetében is eltér a katalógusoktól. A szakirodalmi igények a monografikus dokumentumok mellett kiterjednek ezen dokumentumok analitikus feltárására is. Egy igényes adatbázisnak tájékoztatni kell a témájában megjelenő valamennyi publikációról, jelenjék az meg gyűjteményes kötet elemeként vagy akár folyóiratcikk formájában. A HUNMARC csak a monografikus ill. időszaki kiadványok formátumát tartalmazza egyelőre. Mivel azonban az alapvető adattípusok megegyeznek, nem jelentett különösebb nehézséget, hogy a hiányzó adatmezőket a USMARC-ból átvéve kialakítsuk a PAD számára az analitikus HUNMARC formátumot is. Átemeltük a 773-as (a forrásdokumentum adatai) mező megfelelő almezőit, így jól elkülönítetten, de egységesen tudunk dolgozni folyóiratcikkekkel és egyéb könyvrészletekkel is.

2.3 Tartalmi feltárás

A bevezetésben már említett mély tartalmi feltáráshoz sajnos a HUNMARC nem ad meg minden lehetőséget. Nagyon hiányzik például az egyéb MARC-okban megtalálható 650-es tárgyszó mező (topical subject headings). Mivel Magyarországon nincs egységes tárgyszavazási gyakorlat - mint az Egyesült Államokban a Library of Congress tárgyszórendszerének egységes használata -, ebben a mezőben minden adatbázis a saját tárgyszavas osztályozását alkalmazhatja. A PAD esetében ez az OPKM-ben kifejlesztett és karbantartott pedagógiai tárgyszójegyzék elemeit jelenti.

A HUNMARC a tartalmi feltáráshoz csak az ETO és a tárgyi melléktételek alkalmazására ad lehetőséget, ez a hazai sokszínűséget ismerve az MNB-n kívül aligha elegendő másnak. További ilyen szempontjainkat így nekünk is a helyi adatok számára fenntartott 9xx-as mezőkben kellett elhelyeznünk. Szakirodalmi adatbázisunk pl. nem nélkülözheti a címfordítást és a referátumot. Nem igazán megmagyarázható, hogy a HUNMARC miért nem tartalmaz ilyen adatmezőket, hiszen a referátum vagy az annotáció nem tekinthető speciálisan helyi adattípusnak. Tény, hogy könyvtári katalógusok és nemzeti bibliográfiák nem szoktak ilyen adatokat felvenni, ebből is látszik, hogy az egységes nemzeti adatformátum kialakításakor nem ártana gondolni a szakirodalmi adatbázisok igényeire is.

A PAD adatbázis sokoldalú tartalmi feltárásával igyekszik minél inkább elébe menni a felhasználói igényeknek. A tárgyszavak alkalmazási rendjeként az Angliából átvett és Magyarországon egyedül itt alkalmazott PRECIS (Preserved Context Indexing System) indexelési eljárást, szintaxist alkalmazzuk. Lényege, hogy szerepoperátorai és rotációs technikája segítségével a tárgyszavak közti szövegösszefüggést megőrizve mintegy a természetes nyelv mondataihoz hasonlóan informál a tartalomról. Többéves tapasztalataink alapján mára jól látszanak ennek előnyei és hátrányai egyaránt. A magas intellektuális szint nehézségeket okoz a visszakeresésben. A PAD jelenlegi állapotában ketté kellett választani a visszakeresés szempontjait szolgáló mellérendelő tárgyszavazást és a tartalmi feltárás válogatást segítő eszközeként alkalmazott PRECIS indexelést. Az OPKM OPAC-jában a kettő jól megfér egymással: a felhasználó a mellérendelt tárgyszavak között keres, a megjelenítési formátumban azonban ezen tárgyszavak kontextust tükröző láncaival találkozik, amelyek mintegy annotációként informálják a dokumentum tartalmáról. A BRS/Search alatt a hálózaton át kereshető változata az adatbázisnak csak a tárgyszavakat tartalmazza. A tárgyszavazásban azonban érvényesülnek valamelyest az indexelési szempontok is, hiszen a dokumentum tartalmát kifejező tárgyszavak sorrendje ugyanazt az elvet követi, mint a PRECIS. Így az esetek többségében a tárgyszavak egymásutánisága mondatszerűen kifejezi egyszersmind a közöttük fennálló kontextust is. Ennek érdekében helyenként olyan elemek is előfordulnak a tárgyszavak között, melyek önmagukban nem tartalomhordozók, ellent mondanak a tárgyszavazás szabályainak, de szükség van rájuk a kontextus egyértelműsítéséhez (pl. szerepe, hatása, szempontjából stb.). Az adatbázist igazán professzionális módon kezelni tudó felhasználó ezek segítségével akár egészen kifinomult keresőkérdések megfogalmazására is képes.

A tartalom szerinti visszakeresés differenciálását, finomítását szolgálja továbbá a tárgyszójegyzék generalizáló osztályozásként alkalmazott szakcsoportrendszere. Segítségével egyrészt könnyebb az átfogó témák keresése, nagy szerepe azonban a tematikus keresés finomításánál van. Eredeti funkciója a nyomtatott bibliográfiákban a tételek elrendezése volt. Az adatbázisban a szakcsoportszámok megmutatják, hogy globálisan a dokumentum mely témakör ill. témakörök alá sorolható. Tárgyszavas keresés szakcsoportszámmal kombinálva lehetővé teszi, hogy az adott témakör irodalmát a megfelelő szempontból tárgyaló műveket összegyűjthessük. Ennek hasznát igazán az érzi, aki megpróbált már társadalomtudományi adatbázisokban keresni olyan fogalmakat, amelyek jelentése nagyon tág ill. sokféle szempontból tárgyalhatók. A PAD-ban például nem célszerű általános iskola tárgyszóra keresni, mert a találati halmaz áttekinthetetlen. Minden olyan dokumentum megkapja ugyanis ezt a tárgyszót, amely akár az általános iskolával mint iskolatípussal, az ott folyó bármely tantárgy oktatásával, neveléssel stb. foglalkozik, vagy akár egy konkrét iskolát, az ott folyó gyakorlatot mutatja be. Ez kb. egyharmada a teljes adatbázisnak. A használó azonban feltehetőleg vagy módszertani irodalmat keres, vagy oktatáspolitikai jellegűt, vagy konkrét iskolákat stb. Az ilyen jellegű szűkítéshez ad segítséget a szakcsoportos osztályozás, amely a dokumentum alaptémájának megadásával orientál. Ha pl. az általános iskola mint iskolatípus a keresés tárgya, a dokumentum a 222-es (iskolatípusok) szakcsoportba lesz sorolva, ha iskolatörténeti a tárgyalásmód, akkor pedig megtalálható a 64-es (neveléstörténet) szakcsoportszám alatt.

A PAD csak szabályozott nyelvű osztályozást alkalmaz, a kulcsszavakat a címmezők szavas invertálása helyettesíti, ami azt jelenti, hogy ilyen mezők minden szava - kivéve a stoplistában letiltottakat - kereshető, eredeti formájában. Mivel a BRS/Serach kiváló keresőnyelvet kínál - (csonkolás, keresőelemek közelségének meghatározása stb.) átgondolt keresőprofillal igen jó pontosság/teljesség arányt érhetünk el.

A tartalmi feltárásnak ez a sokszínűsége az esetek egy részében talán feleslegesnek, erőt, energiát pocsékolónak tűnhet. A célunk azonban az, hogy szakirodalmi adatbázisként minden kérdésre a lehető legteljesebb és legpontosabb választ adja meg az adatbázis, inkább legyen átfedéses, minthogy elvesszen az információ.

3. Retrospektív konverziós tapasztalatok

Fentebb már említettük, hogy az adatbázis tekintélyes részét képezik azok a tételek, amelyeket a Nemzeti Kulturális Alap támogatásának köszönhetően retrospektív konverzióval építettünk be. Ennek során rendkívül jó tapasztalataink vannak az OCLC Europe szolgáltatásaival. A Microcon szoftver segítségével 4000 tétel leírását kértük az OCLC központi adatbázisától, és 3244-et ténylegesen meg is kaptunk. Úgy hisszük, ez kiváló találati aránynak mondható. Igaz, hogy eleve célirányosan csak angol, német és francia nyelvű dokumentumokkal próbálkoztunk, ezek közül is azokkal, amelyeknek ismert volt az ISBN száma. Kisebb adatrögzítő munkával így ilyen jó eredményt tudtunk elérni. Az OCLC központ szolgáltatásai pontosak, kiszámíthatóak és megbízhatóak.

Némi gondot az OCLC USMARC tételeinek átvétele, konvertálása okozott. A MARC formátumok kompatibilitása természetesen szabványszerű, az alkalmazásbeli különbségek azonban okozhatnak meglepetéseket. A HUNMARC például az adatmezőkön kívül, programozással oldja meg a központozást, az OCLC tételeiben azonban benne vannak a központozási jelek is. A duplázódás kiköszöbölése érdekében ezeket átvétel előtt ki kell szedni. A személynevek leírásában a HUNMARC külön almezőkben helyezi el a név egyes elemeit, az OCLC nem teszi ugyanezt, ott a teljes név egy almezőben van. Ennek utólagos szétszedése automatikusan igen nehéz, szinte lehetetlen. (Csak zárójelben: gondolkodjunk el rajta, tulajdonképpen mi a funkciója annak, hogy elkülönítsük a vezetéknevet a keresztnévtől? Sok problémát megoldana, ha ez egyszerűbb lenne a HUNMARC-ban is).

4. Befejezés

Őszintén reméljük, hogy a PAD adatbázis kedvelt és sokat használt eszköze lesz információs életünknek. Az Internet természetesen újabb lehetőségeket és kihívásokat jelent majd, de elveinkből nem szeretnénk alább adni, és az igényességet mindennél fontosabbnak tartjuk. A puding igazi próbája azonban az, hogy megeszik, az adatbázisé pedig az, hányan és milyen hatékonyan, mennyire elégedetten használják. Az erre vonatkozó visszajelzéseket nagyon várjuk, enélkül nem tudunk munkánkon javítani. Szeretettel ajánljuk tehát a HUNGARNET közösségnek, hogy minél többször üljön be a PAD-ba.