TELJES SZÖVEGŰ ADATBÁZISOK ÉPÍTÉSE AZ ARCANUM DATABASESNÉL

Biszak Sándor, ardb@odin.net

Arcanum Databases Kft

Abstract

The ARCANUM Databases publishes typical CD-ROMs. We publish the Holy Bible in 8 version, the original hebrew and greek version 3 different Hungarian translations, and the english King James, latin Vulgata and german Luther version. We publish the Magyar Hirlap CD, one of the most important hungarian newspaper and Parliament Speeches (Minutes). The newest project is to publish poems of the greatest Hungarian poets (Petőfi, Ady, etc). It contains 17 poets since XV. century to XX. century. We use FolioViews program, which combine the fulltext and the bibliographics properties. We speak about the problems of the data inputing.

Kivonat

Az ARCANUM Databases Kft kiadásában számos teljes szövegű adatbázis jelent meg. Legelsőként a Biblia jelent meg, melynek legutóbbi 5.0 változata 8 fordításban (3 magyar, héber, görög eredeti, angol, német latin) tartalmazza a teljes szöveget. A Magyar Hírlap CD 2 és fél év cikkeit tartalmazza, az Országgyűlési Napló 4 év plenáris üléseinek jegyzőkönyveit. A legjelentősebb vállalkozásunk a VesrTár CD, amely 17 klasszikus költőnk (pl. Petőfi,.Arany, Ady, József Attila, stb) összes verseit tartalmazza, teljes szövegű, kereshető formában. A kiadásokhoz a FolioViews programot használjuk, amely szerencsésen egyesíti a bibliográfiai és teljes szövegű adatbázisok kedvező tulajdonságait. Az előadás a teljes szövegű adatbázisok adatbeviteli kérdéseit is elemzi.

Egyre szélesebb körben terjednek hazánkban is bibliográfiai adatbázisok mellett a teljes szövegű adatbázisok. Míg a múltban egy-egy műről csak egy rövid bibliográfiai leírás, esetleg rövid ismertetés jelenhetett meg számítógépen, ma mar egyre tipikus, hogy egy-egy mű teljes egészében gépre kerülhet. Ennek megjelenése tipikusan a CD-ROM és az Internet. A robbanásszerű fejlődés azért jöhetett létre, mert egyre inkább elektronikus formában jönnek létre a dokumentumok, és az utólagos rögzítés helyett egyre inkább a keletkezés helyén, általában a nyomdában megfogható a szöveg.

Az adatbázisok

Az ARCANUM Databasesnél 4 nagyobb projekt keretében folyik teljes szövegű adatbáziskiadás. Időben legelőször a Biblia adatbázis készült el 1992-ben. Az akkor még DOS alatt CD-n és floppyn is megjelent kiadvány a Károli féle fordítást tartalmazta. A jelenleg frissen elkészült 5.0 változat már 8 teljes bibliát tartalmaz, a jelenleg használt 3 magyar fordítás mellet héber, görög eredeti szövegeket, latin, német és angol verziókat tartalmaz.

Legnagyobb vállalkozásunk a Magyar Hírlap CD, amely 1994. szeptemberétől 1996. december 31-ig tartalmazza az újságban megjelent összes cikket. Az adat forrása a QuarkXPressben tördelt anyag, a teljes szövegállomány mérete mintegy 200 MByte. 1997 januárjától a cikkek mellett a képeket és a táblázatokat is feldolgozzuk.

Érdekes adatbázis az Országgyűlési Napló 1990-94, amely a teljes parlamenti ciklus plenáris üléseinek hivatalos jegyzőkönyvét tartalmazza. Az anyagot a Parlament titkárságától Word formátumban kaptuk meg, viszonylag struktúrálatlan formában, ebből kellett egy struktúrált, hierarchikus szerkezetű adatbázist előállítani. A teljes szövegű adatbázisok között is viszonylag speciális jellegű eme jegyzőkönyv. Szinte semmihez sem hasonlító szerkezete van, teljesen folytonos, szerkezet nélküli szöveg. Bár a felszólalások bizonyos mértékig strukturálják a szöveget, nagyon nehéz szerkezetbe foglalni az egészet. Az adatbázis mérete mintegy 100 MByte.

Legújabb adatbázisunk a VersTár CD, amely 17 klasszikus költőnk összes versét tartalmazza. A válogatás alapja a középiskolai tananyag volt, így Balassi, Bessenyei, Kazinczy, Batsányi, Csokonai, Berzsenyi, Kölcsey, Vörösmarty, Arany, Petőfi, Vajda, Ady, Juhász Gyula, Babits, Kosztolányi, Tóth Árpád és József Attila verseinek feldolgozása történt meg. A versek mellett az elbeszélő költemények, epikai művek is rögzítésre kerültek, így a Toldi, a János vitéz is megtalálható. A vállalkozás a Magyar Elektronikus Könyvtár közreműködésével jött létre, és célként tűztük ki, hogy az anyag idővel a itt is elérhető legyen. A CD segítségével kutatható a klasszikus magyar költészet nagy része, idézetek, motívumok könnyen gyorsan visszakereshető. Az adatbázis mérete meglepően kicsi, mintegy 15 MByte.

A szoftver

A kidáshoz szükséges szoftvert igen körültekintően igyekeztünk megválasztani. Magunk is szoftverfejlesztők vagyunk, a saját fejlesztésű ARCTIS rendszer segítségével jelenik meg számos könyvtári, bibliogrfáfiai CD (MNB, NPA, PRESSDOK, HUNPATÉKA, stb), sőt az első DOS alatti biblia CD ezen szoftver teljes szövegre specializált változatával jelent meg. Igen nehéz volt dönteni, a saját fejlesztés és a szoftvervásárlás között, végül a FolioViews szoftver megvásárlása mellett döntöttünk. Ez mintegy 10000 USD fejében beszerezhető, és jogdíj fizetése mellett CD kiadásra használható.

A FolioViews legfontosabb tulajdonságai a teljes szövegű keresés, logikai operátorok, szomszédossági keresés, csonkolás jobbról, balról, maszkolás. Fontos tulajdonsága az intelligens tartalomjegyzék kezelés, a hierarchikus megjelenítés, sőt hierarchikus keresés. A Windows alatt szokásos módon alkalmas a szövegek formattált megjelenítésére (betűtípus, méret, igazítás). A szöveg mellett tetszőleges objektumokat, képek, hangok, videók kezelésére alkalmas. Képes igen nagy méretű adatbázisok gyors kezelésére, nálunk jelenleg a legnagyobb méret a 200 MByte-os Magyar Hírlap.

Különleges tulajdonsága a programnak, hogy a felhasználó saját ízlése szerint alakíthatja az adatbázist, saját, akár kereshető megjegyzéseket, kereszthivatozásokat (hipertext link) helyezhet el, programkapcsolatokat hozhat létre. Ezt az ún árnyékfájl (shadow file) technikával éri el, ami egy látszólagos másolata a winchesteren a CD-s adatbázisnak, és azon lehet a módosításokat elvégezni.

Nagyszerűsége a programnak, hogy szerencsésen egyesíti a teljes szövegű és a bibliográfiai adatbázisok előnyeit, igen fejlett a mezőkezelése, tetszőlegesen jelölhetünk ki mezőket, kereshetünk rájuk, formázhatjuk őket, stb.

A program az utóbbi hetekben megjelent 4-es verziója sok új, izgalmas tulajdonsággal rendelkezik, táblázatok kezelése, relevancia szerinti megjelenítés, gyrosabb, pontosabb keresés, stb. A program rendelkezik WEB serverrel, aminek óriási előnye, hogy a CD-n megjelent adatbázis változtatás nélkül használható, a HTML lapok előállítása dinamikusan történik.

Adatbeviteli kérdések

A teljes szövegű adatbázisok előállításának központi kérdése a szöveg előállítása. Ez bizonyos méret fölött utólag előállíthatatlan, gondoljunk csak a minden nap megjelenő Magyar Hírlapra. Kisebb méretnél (Biblia 5 MByte, VersTár CD 15 Mbyte) az adatrögzítéssel bevihetők az adatok. Sokszor felmerülő kérdés a billentyűzés és a szkennelés viszonya. Hosszú évek tapasztalata, hogy nincs lényeges különbség a kettő között. A teljes szövegellőállításnak mintegy felét teszi ki a szövegrögzítés a másik felét a korrektúra és a javítás. A szkennelés során előállt szöveg ugyanakkor rosszabb minőségű, így a korrektúra nehezebb, és a termelékenység is csak mintegy 50%-kal nagyobb. Így a teljes költségre vetítve maximum 20-25%-os megtakarítás érhető el.

A Magyar Hírlap adatbázisépítés azért tipikus, mert szinte az összes újság, folyóirat tördelése QuarkXPress programmal történik. Ennek, mint szinte mindegyik tördelőprogramnak megvan az a hátránya, hogy a szöveg szinte kinyerhetetlen a tördelt anyagból. Bár sokféle módszer létezett, ún. extension-ök, mindegyik alkalmatlannak mutatkozott ilyen nagy tömegű anyag feldolgozására. Ki kellett dolgozni egy nagyon speciális, a Magyar Hírlapra használható programot, amely a szöveget használható módon, a tördelési információkat felhasználva, azokat mezőszerkezetté konvertálva, szolgáltatja. Így programmal támogatva, de igen sok manuális munkával sikerült 6 hónap alatt a 30 hónapos anyagot feldolgozni. A későbbiek során kiderült, hogy a készített program világviszonylatban is újszerűnek számít és kis átalakításokkal sokféle újság feldolgozására alkalmas. Ez a projekt megmutatta, hogy még a meglévő anyagállomány felhasználása is igen nagy munkát, igen sok nehézséget jelent.

Az Országgyűlési Naplót WORD formátumban kaptuk meg, szinte teljesen tiszta szövegként. Itt szinte teljes egészében manuális munkával kellett az anyagot strukturálni.

Terveink

A fenti adatbázisok szinte mindegyike jó alany a folyamatos fejlesztésre. A Magyar Hírlap naponta jelenik meg, úgy tűnik igény van a havi CD kiadásra, illetve a bővített tartalomra (képek, táblázatok, színes mellékletek). A Biblia kiadványt egyéb fordításokkal illetve bibliamagyarázatokkal, bibliai lexikonokkal, héber illetve görög szótárakkal kívánjuk bővíteni. A VersTár CD esetén további áttörést a modern költészet jelentene, itt kizárólag a szerzői jogi akadálya van a kiadásnak, szinte lehetetlen engedélyt szerezni 10-15 költőtől illetve örököstől. Így valószínűleg marad a klasszikus irodalom, a folytatásban további költőket tervezünk, drámákat, illetve a világirodalom magyar fordítása. Sajnos ugyancsak jogi akadályai vannak a Napló folytatásának, egyelőre nem lehetséges az update.