Elektronikus könyvtár - számítógépes szövegelemzés

Bakonyi Géza, bakonyi@bibl.u-szeged.hu

Egyetemi Könyvtár, Szeged

Lassan már közhely: az Interneten több olyan könyvtár is elérhető, amelynek virtuális környezetében jelentős elektronikus könyvtár található. Ezeket a gyűjteményeket (túlzás nélkül) milliók ismerik és használják. Azt azonban kevesebben tudják, hogy ezekben az intézményekben az elektronikus szövegek gyűjtése, feldolgozása mögött jelentős szakmai, tudományos programok is találhatók, amelyek a szövegek digitalizálásával, a digitalizált szövegek számítógép-segítette elemzésével, szövegértelmezéssel foglalkoznak. Ahogyan a Magyar Elektronikus Könyvtár (a MEK - ahogy sokan pertu ismerik) egyre nagyobb jelentőségre tesz szert, ezeknek a programoknak a megismerése illetve e programokhoz való csatlakozás, hasonló programok indításának a lehetősége ugyancsak fontossá válhat. Különösen fontos lehet tudományos-szakmai programok kidolgozása akkor, amikor az elektronikus könyvtárak létrehozását egyre több jogi (lásd copyright) illetve támogatási-pénzügyi vita veszi körül. Ebben az előadásban, a magam szerény eszközeivel, éppen egy ilyen program körvonalazásával szeretném segíteni a HUNGARNET Kokas Károly vezette könyvtári részlege által létrehozott és a MKE újonnan megalakult szakosztálya által támogatott Magyar Elektronikus Könyvtár programját. A programmal kapcsolatos elképzeléseimet és ezek eredményeit folyamatosan közzéteszem (~tettem) a saját ottlapomon alapított Magán Elektronikus Könyvtáramban.

Mindenek előtt utalni szeretnék néhány jelentősebb külföldi projektre és azok eredményeire. Első helyen említeném meg az Oxford Text Arch`vumhoz csatlakozó szövegelmezési prgramot (CTI), amelyhez az angol költészet és irodalom jelentős szövegeinek feldolgozása kapcsolódik. A program egyrészt az elektronikus szövegfeldolgozással foglalkozik, másrészt az elektronikus szövegek által segített oktatás új eszközeinek a kutatását állította a középpontba. Az új eszköz nem egyszerűen a klasszikus és modern szövegek hypertext feldolgozását jelenti, hanem általában a számítógépnek a humán tudományok oktatásában betöltött illetve betölthető szerepének a kutatását, kidolgozását. Az oxfordi program nem csak az oktatást segítő szoftverek kidolgozásában jár élen, hanem a virtuális osztályterem (Electronic Classroom) elvének kidolgozásában is.

Ugyancsak jelentős kutatások folynak az USA különböző egyetemein. Példaként az egyik legrégebit, a dartmouthi egyetemen folyó Dante programot hoznám fel: az Isteni Színjáték és a kommentárok teljes szövegű feldolgozása, visszakeresési lehetőség a BRS/Search adatbázisban és a megfelelő kulcsszavak kontextusban való letöltése, akár e-mailben való elküldése a fontosabb kulcsszavak ennél a programnál. Hasonlóan érdekes (ismét az Egyesült Királyság egyetemén, Edinburghban futtatott) Machiavelli Fejedelmének számítógép támogatta elemzésével foglalkozó digitális szövegelemző program, ahol a hallgatók maguk dolgozhatják ki a számítógép segítségével Macchiavelli új politikai terminológiájának elveit, mondhatnak véleményt e sajátos nyelvi-politikai szövegalkotásról. Sajátos lehetőségeket tárnak fel e területen az Olaszországban elindított programok is: az olasz irodalom kezdeteivel, a Duecento költészetével foglalkozó Web oldalak pl. lehetőséget adnak a rímpárok keresésére is; Dante Commedia-ja és a modernolasz irodalom jelentős szövegeinek digitális feldolgozása ugyancsak tanulságos. A szövegek digitális feldolgozásának általános célja kettős: egyrészt a szöveg objektumként való feldolgozásáról van szó (az úgynevezett szó- és szókapcsolat-mintázatok kutatása, amely lényegében egyik elvi alapja a szótárak kiadásának és a teljes szövegű adatbázisok visszakeresési nyelve megújításának); másrészt a szövegnek mint a kommunikáció tárgyiasult formájának a kutatása. Ez utóbbi messzire vezet: az interaktív szövegfeldolgozásoktól egészen az "értelmes algoritmus" alapján való szövegfeldolgozás (a fordításoktól az abstract)-készítésig.

Ezeknek a programoknak a hátterében olyan szövegfeldolgozási szabványok és az ezekhez kapcsolódó elképzelések állnak, amelyek ma már általánosságban is meghatározzák a digitális szövegfeldolgozást - gondoljunk csak a legnyilvánvalóbbra, a WWW HTML technológiájára. A hypertext feldolgozások természetesen nem csak a web oldalak készítésére szűkülnek le: a modern szövegelmezések alapjává és váltak, gondoljuk csak Genette, Connor és mások kutatásaira "az új oralitás kultúrájától" egészen Rolan Barthes "olvasásra" illetve "írásra" szánt szövegek megkülönböztetéséig tartó elméleti tevékenységére (amely lényegében a posztmodern filozófia egyik alapjává lett).

Ezeknek az elméleti kutatásoknak azonban gyakorlati következménye is lehet. A szöveg, amely megszabadul a nyomtatott könyv fizikai létének rabságából olyan új jellemzőket mutathat fel, amelynek alapján a hagyományos copyright jogi megfontolásai feltétlenül felülvizsgálandók, s nem feltétlenül a hagyományos kiadók nagyobb hasznára. A hypertext szövegfeldolgozások a szövegnek egy különben is meglévő sajátosságát, az intertextualitást rendkívüli mértékben felerősítik. Az intertextualitást azonban nem szabad túlértékelni: könnyen a szöveg "túl"-értelmezéséhez vezethet. Azonban a szövegek jól körülhatárolt halmazának (mint egy adott kultúrkör vagy kulturális időszak szövegeinek összessége) vizsgálatában, az oktatásban való megjelenítésében a hypertext szövegfeldolgozásnak nagyon nagy jelentősége lehet. Ilyen program a már említett oxfordi program mellett a Perseus, amely a görög kultúra szövegeinek és szövegkörnyezetének a feldolgozásával foglalkozik, vagy az Intermedia, amelynek középpontjában az angol szövegek tanulmányozása áll.

Az intertextualitás elvét kapcsolja össze az elektronikus szótárkészítésben egyre nagyobb szerepet betöltő SGML technikával az az Interneten is elérhető szótárprogram, amelynek a segítségével a fontosabb nyelvek szótárainak a használatát a hálózaton keresztül összekapcsolhatjuk tetszőleges szöveg beolvasásával és fordításával.

A szövegek hypertext feldolgozása azonban még eléggé messze van attól a tényleges folyamattól, amellyel az olvasók szövegértelmezési tevékenysége leírható. Éppen ezért rendkívül érdekesek azok az eredmények, amelyeket a szöveg konkordanciák felállításával kapcsolatban, a szövegek indexelésével (KWIC és vizuális indexek), statisztikai-nyelvi jellemzőivel foglalkozó kutatások során a különböző kutatóhelyeken elértek.

Ezek egyike a már említett Macchiavelli A fejedelem c. művével kapcsolatos program, amelynek során egy sajátos oktatói és kutatási célokat szolgáló szoftvert fejlesztettek ki, a TACT szövegfeldolgozó és -elemző programot. A TACT középpontjában egy KWIC (keyword-in-text) index áll, amelynek segítségével egy adott kulcsszó kontextuális kapcsolatai a legkülönfélébb szinteken jeleníthetők meg (http://info.ox.ac.uk/ctitext/publish/comtxt/ct11/armstron.html). Természetesen más hasonló programokat is készítettek. Ilyen pl. az MTAS (Micro Text-Analysis System), a Pat (SGML dokumentumok feldolgozására alkalmas), az OCP (Oxford Concordance Program), a WordCruncher (különböző indexeket készít konvertált ASCII-szövegekből). Igen jelentős, az előző kutatások eredeményeit is felhasználó kisérlet a Multiconcord. A Multiconcord egy Windows felületre kidolgozott (az elv természetesen más felületen is alkalmahazható), többnyelvű szövegek összehasonlítására is képes szoftver, amelynek használatával a fordítások nyelvészeti, szemiotikai elemzése is lehetséges. A szoftver a szövegfeldolgozás egyik központi problémáját, a szöveg szegmentálásának a kérdését az SGML felhasználásval oldja meg: egyes paragrafusokat, mondatokat jelöli ki és ezek különböző nyelven való megjelenését igyekszik összehasonlítani. (Egyben ez a program gyengéje is: amennyiben a paragrafusok, mondatok szegmentálása nem egyezik, a konkordancia megállapítása problémássá válik.)

E kísérletek mellett gyakran találkozhatunk statisztikai jellegű szövegelemzést végző programokkal. ezeket sem szabad lebecsülnünk, hiszen értékes adalékokat szolgáltatnak a szövegelemzések hátteréhez. Különösen érdekesek a statisztikai alapú szövegelemzések közül azok, amelyek a megjelenítés vizualitásának megújítását tűzték ki célul (lényegében hasonló megoldással kisérletezik Darányi Sándor is).

Úgy tűnik, csak az összetett megoldások vezethetnek sikerre: önmagában egyik módszer sem jelent kielégítő megoldást. Szegeden, az Egyetemi Könyvtárban több úton is elindultunk, s bár meglehetősen messze vagyunk attól, hogy sikerekről vagy végeredményről számolhassunk be, talán nem minden tanulság nékül való, ha ezekről a kísérletekről röviden számot adunk.

Az egyik ilyen kísérlet a MEK szépirodalmi anyagának a tükrözéséhez kapcsolódik. A MEK teljes anyaga ugyan visszakereshető a KLTE által készített Voyager adatbázisban és a MARC megfelelő mezőjének a felhasználásával a kiválasztott szövegek azonnal le is tölthetők, mi mégis tovább kísérleteztünk ezzel az anyaggal. Erre azt az okot találtuk, hogy a MARC felhasználása mintha azt sugallná, hogy a szövegek a katalóguson belül érhetők el, mi pedig nem szeretnénk a katalógusnak ennyire központi szerepet szánni. Úgy gondoljuk, hogy a szövegek, a szövegekhez kapcsolódó egyéb információk halmaza (életrajzi adatok, fényképek, szkennelt címlapok és egyéb oldalak, stb.) elég nagy jelentőséggel bírnak ahhoz, hogy ne csak a katalóguson belül jelenjenek meg, hanem azzal egyenértékű pozícióban. Zawiasa Róbert egy már nem fejlesztett WWW browser forráskódjának felhasználásval (Chimera) elkészített egy olyan visszakereső felületet, amelynek segítségével a keresések nem csak a katalógusban történnek, hanem az egyes tételekhez kapcsolt egyéb képi, szöveges információkat is megjeleníthetők. Így egyben lehetségessé válik, hogy az egyes írók arcképe mellett életrajzi adatokat, lexikon-cikkeket és teljes szövegeket is megjelenítsünk. Ez azért több, mint a USMARC szabvány által kínált megoldás, mert így azok a szövegek is felhasználhatók, amelyek nem kötődnek egy nyomtatott példányhoz. Például a Házsongárdra való keresésnél a rendszer utalást ad Áprily versére, vagy Sarkadinak egy-egy novellája, másoknak különböző kötetekben megjelent versei egyenként is megjeleníthetők. Kétségtelen, hogy ebben a megoldásban nagyon sok az esetleg vitatható, szubjektív elem, de mi valójában úgy gondoljuk, egy visszakeresés nem egyszerűen puszta könyvtári munkafolyamat, hanem - egy Benedetto Croce parafrázíst használva - az emberiséget mozgató kíváncsiság dióhéjban, s mint ilyen eleve szubjektum-orientált.

Egy másik szövegfeldolgozási program a Régi Könyvek Osztályán és a Könyvtártudományi Tanszéken közösen folyó kutatáshoz kapcsolódik, s egyre markánsabban egészíti ki a régi könyvek virtuális katalógusát. A program a régi magyar könyvtárak inventáriumait dolgozza fel, ezek szövegeit összekapcsolva három BRS adatbázissal (a könyvtár tulajdonosának életrajzi, az inventáriumban szereplő eredeti címbejegyzések feloldását tartalmazó bibliográfiai és a tulajdonosra, az egyes könyvtárakra vonatkozó művek adatbázisai). A KözelKAT kidolgozásában is résztvevő és a Somogyi Könyvtárral közös programjainkban is jeleskedő Burgermeister Zsolt segítségével kidolgozott (természetesen WWW felületen keresztül is elérhető) szoftveregyüttes az egyes adatbázisok adatait köti össze a szöveges adatokkal egy oda és vissza is megvalósítható visszakeresési stratégiával. (A program szakmai kidolgozását Monok István és Keveházi Katalin végzi.)

A továbbiakban tervbe vettük a könyvtár másik két jelentős különgyűjteményi anyagának hasonló, digitális feldolgozását is: egyrészt a könyvtárban található két világháború közötti (ügyészségi kötelesből származó) napilapjai cikkszolgáltatásának a megalapozását (a könyvtár ma is sok kérést kap e történeti szempontból rendkívül értékes anyaggal kapcsolatban); másrészt az orientalisztikai gyűjtemény digitális feldolgozását, az anyag egy része CD-ROM kiadásának előkészítését.

Befejezésül néhány gondolat a számítógépes szövegfeldolgozással, szövegelemzéssel kapcsolatban.