Útijelentés

CACAO projekt

Bolzano, 2008. június 12-13.


A CACAO projekt (Cross-language Access to Catalogues And On-line libraries) második, szakaszzáró összejövetelét az olaszországi Bolzano városban tartották az egyik partner - Free University of Bozen-Bolzano - szervezésében. A projekt 2007. decemberében indult, amelyre az OSZK is meghívást kapott az MTA Nyelvtudományi Intézetén keresztül. A projektnek az alábbi intézmények a tagjai:

1. Xerox Research Centre Europe (France)
2. CELI (Italy)
3. Free University of Bozen-Bolzano (Italy)
4. Kórnik Library - Polish Academy of Sciences (Poland)
5. Cité des Sciences et de l'Industrie (France)
6. Gonetwork (Italy)
7. Hungarian Academy of Science - Research Institute for Linguistics (Hungary)
8. Göttingen State and University Library (Germany)
9. National Széchényi Library (Hungary)

A projekt célja : a többnyelvű könyvtári európai környezetben - ahol a könyvtárak állománya és sokszor a felhasználóik is különböző nemzetekhez nyelvekhez tartoznak - egy olyan alkalmazás kifejlesztése, amely egy nyelven megadott kérdésekkel biztosítaná a keresést a másnyelvű adatbázisokban. Az alkalmazás mind az egyes csatlakozott könyvtárakban (helyi), mind egy központi helyen is (federated search) működne. Az alkalmazás a könyvtárak metaadatait Dublin Core formátumban, OAI-PMH protokollon keresztül gyűjti majd be, míg a keresőkérdés fordításáról és a metaadat állományon való lefuttatáson különböző nyelvészeti modulok gondoskodnának. Az egyszerű fordítás elégtelen és nem hatékony, a szavak eltérő jelentése (false friends) és a kifejezések kétértelműsége miatt. Ezért van szükség nyelvi elemző modulokra, amelyek a különböző nyelvi kifejezéseket analizálják, elemzik, igyekeznek majd egyértelműen lefordítani más nyelvekre. Az alkalmazás törekszik majd a személynevek megkülönböztetésére, hiszen ezek sokszor önmagukban jelentést hordozó szavak (pl. Kovács, Fekete, Varga) és ezek lefordítása torzíthatja a keresést (pl. Fekete János = black János?).

A megbeszélés elején Enrico Franconi,[1] a bolzanoi egyetem professzora tartott egy bevezető előadást az információtudomány alapvetéseiről, a szemantikus Web-ről.

Barbara Levergood, a göttingeni egyetemi könyvtár munkatársa a könyvtári adatfeldolgozást, a strukturált adatok jelentőségét mutatta be a nyelvész és informatikus kollégáknak. A kérdező szavak fordítása önmagában nem elég hatékony a keresztnyelvi lekérdezéshez, ehhez biztosítani kell a szavak egyértelmű értelmezését. Ezt a tervek szerint az egyes könyvtári katalógusok, digitális könyvtárak tárgyi feltáró rendszerei biztosíthatják.

Az elmúlt negyedév során, az első periódus végén elkészültek az egyes könyvtárak szolgáltatásának felmérései, az átadható metaadatok, a lekérdező protokollok, a használt tárgyi feltáró rendszerek vonatkozásában.

A könyvt árak többsége a Dewey klasszifikációs rendszert, vagy annak megfeleltethető hierarchikus osztályozási rendszert használ. Az alkalmazott tárgyszavak (Subject Heading) szintjén a megfeleltetés kevésbé lehetséges.

Az előadó elmondta, hogy mit jelentenek és miért fontosak a projekt szempontjából is a besorolási adatok, főként a személynevek vonatkozásában. A későbbi rendszer számára hasznos lesz ezek alkalmazása, hogy a nyelvi fordító modulok meg tudják különböztetni az önálló jelentéssel bíró tulajdonneveket a sima főnevektől.

A projekt egyik célkitűzése, hogy a leendő alkalmazást beépítsék a The European Library könyvtári rendszerébe is (aggregáció). A koordinátor Xerox munkatársak már felvették a kapcsolatot a TEL képviselőivel. A megbeszélésen röviden vázolták a TEL működését és a leendő CACAO alkalmazás beépítési lehetőségét az átfogó európai katalógusba. Ennek kapcsán említődött meg, de még konkrét elképzelések nincsenek az Európai Digitális Könyvtárhoz (EDL) való csatlakozáshoz.

A CACAO projekt keretében e gy általános könyvtári portál létrehozása mellett tematikus portálokat is szeretnének kialakítani. Az eredetileg tervezett témák - középkori irodalom, matematika, földrajz -, mellett az európai történelem tűnt a legtöbb könyvtárban elkülöníthető gyűjteménynek.

Az OSZK részéről csatlakozó MEK adatbázis részéről már működő OAI-PMH szervert, metaadataink lekérdezését fel tudtuk ajánlani. A digitális dokumentumaink adatairól UTF-8 kódolású, Dublin Core formátumokat tudunk szolgáltatni szükség szerint. A későbbiek során dolgozzák azonban ki a projekt számára elfogadható OAI rekordstruktúrát, egyeztetve a TEL-lel. A párhuzamosan folyó Képkönyvtári fejlesztés keretében - ahol éppen alkalmas hierarchikus osztályozási rendszerben gondolkodtunk - a MEK-ben eddig használt háromszintű osztályozási rendszert első menetben sikerült megfeleltetnünk a Dewey klasszifikációs rendszerrel. Ezt a munkacsoport vezetője, Barbara Levergood örömmel fogadta, ellenőrzésre továbbítottam neki az összehasonlító táblázatunk első verzióját. A projekt ugyanakkor visszahat a Képkönyvtári projektre, megerősítve, hogy célszerű a MEK osztályozási rendszerét használni és használtatni a partnerkönyvtáraknál is, így egy széleskörűen használt klasszifikációs rendszerrel, a később beépítendő Dewey kódokkal tudjuk ellátni a metaadatainkat. A projektben részvető könyvtárak egyikénél sem merült fel (se más megközelítésben sem került említésre) az ETO (UDC) használata.

Szóba került egy viszonylag új segédeszköz is, amelyet a Greenstone projekt kapcsán tett ek közzé, egy OAI alapú metaadat elemző alkalmazást.[2]

A következő részben a megfelelő grafikus felületekről (interface) folyt a szó. Fontos, hogy egyszerű, rugalmas legyen a felhasználók számára. Jó példaként a felhasználói értékelések által pozitívnak tartott http://www.vascoda.de rendszert tartották. Ez az adatbázis a keresés után, nemcsak a találatok listáját, de azok különböző szempontok szerinti megoszlását is megmutatta.

A második nap a CACAO leendő, tervezett nyelvészeti feldolgozó alkalmazását - Natural Language Processing (NLP) - ismertette Luca Dini, a fejlesztő CELI cég munkatársa. Részletesen ismertette a nyelvészeti elemző eljárásokat, amelyekkel a szóelőfordulások, relevancia, morfológiai elemzések végezhetőek el. A fejlesztés a tervezés, célkitűzések, alapozás fázisában van, az első tesztelhető eredmények az év végére várhatóak.

Anne Schiller a projekt honlapját, annak értékelését mutatta be. A grafikai megvalósítással kapcsolatban érkezett kritikák nyomán bemutatta a honlap új változatát, amel lyel azóta aktualizálták is a nyilvános honlapot. A honlap az alábbi címen található, a résztvevők nyelvére lefordított oldalakkal: http://www.cacaoproject.eu

Stefan Farrenkopf, ugyancsak a göttingeni egyetemi könyvtár munkatársa a projekt számára kialakított csoportmunka alkalmazást[3] mutatta be. A nyílt forráskódú, ingyenesen telepíthető program segítségével a projekt dokumentációit, az összejövetelekre készített PowerPoint bemutatókat egyéb munkaanyagokat tudunk archiválni, megosztani. Az ingyenes program alkalmazását érdemes lenne megfontolni az OSZK-ban is, ahol régóta hiányzik egy igazán hatékony csoportmunka szoftver.

A megbeszélés végén az előttünk álló feladatok ütemezéséről, a fejlesztésekről, valamint a leadandó munkaanyagokról volt szó. Ezenkívül Frederique Segond, a XEROX részéről vázolta a CACAO projekt üzleti tervének lehetőségét, egy könyvtári rendszerekbe beépíthető, forgalmazható alkalmazásról.

Moldován István


Jegyzetek

1. http://www.inf.unibz.it/~franconi [VISSZA]

2. http://www.greenstone.org/blog/2008-06-05/oai-tool-updated [VISSZA]

3. http://www.egroupware.org
    http://hup.hu/node/27605 [VISSZA]