Magyar Elektronikus Könyvtár

CÍMLAP

Horváth Tibor

Automatikus osztályozás

TARTALOM, BEVEZETŐ

Tartalom

Bevezető

I. OSZTÁLYOZÁSI RENDSZEREK

II. AUTOMATIKUS NYELVI ELEMZÉS
1. Szövegminták problémája
2. Kulcsszavak növekedésének kérdései
3. Szavak tőalakjának automatikus felismerése
4. Szókapcsolatok elemzése
5. Gyakorisági vizsgálat

III. SZÓELEMZÉSTŐL A KLASZTERÁLÁSIG

IV. AUTOMATIKUS OSZTÁLYOZÁS
1. A klasszikus logika problémája
2. A távolság meghatározása
3. Hasonlósági függvények
4. Klaszterek kialakítása
5. Klaszterek típusai
6. Az alkalmazás területei

Irodalom

Bevezető

Disszertációm alapja a Könyvtári Figyelő 1978. 5. számában közzétett tanulmányom, amelynek témája az automatikus osztályozás volt. Az osztályozási rendszerek tipológiáját szintén egyik előző publikációmból vettem át (10. és 11. bibliográfiai tétel). Azért tartom kívánatosnak mindezt a bevezetőben megjegyezni, mert a disszertáció szövege helyenként megegyezik az idézett tanulmányokéval.

A disszertációval több célt kívántam elérni.

1. Az informatikai osztályozásnak - a könyvtári osztályozást is ideértve - jelenleg három, egymástól eléggé különböző alapokon felépített elmélete alakult ki. A könyvtári illetve dokumentációs osztályozás lényegében a klasszikus logikára épül, másik ágon a tudományrendszertan kétezer éves diszciplínájába ereszti gyökerét. Az 50-es években a számítástechnika megjelenésével az osztályozás is új alapokat keresett, így született meg a nyelvészeti alapozású elmélet, amely az osztályozási rendszereket formalizált nyelvként kezelte, amelynek meghatározott szókincse (lexikai egységek), szemantikája és szintaxisa van. Az "osztályozási rendszer" műszó helyett információkereső nyelv-ről beszéltek, a terminológiai változtatással is érzékeltetve az új koncepció lényegét. Ez az elmélet eredményezte egyfelől az információs tezauruszokat, másrészt az olyan fejlett szintaxissal rendelkező nyelveket, mint a franciák SYNTOL-ja. Harmadikként született, szintén az 50-es és 60-as években, az osztályozás statisztikai elmélete. Mindhárom elmélet önmagában is igen szerteágazó utakon járt, nagyon különböző osztályozási nomenklatúrákat eredményezett. Gondoljunk arra, hogy Taube UNITERM koncepciója és az információs tezauruszok - bár elméleti alapjaik igen közeliek - nem hasonlítanak jobban egymásra, mint mondjuk egy tárgyszórendszer az ETO-hoz. Az elméleteknek ebben a bábeli tornyában égető szükséggé vált egységesebb alapvetést alkotni. H. Borko, a kaliforniai egyetem könyvtáros professzora (UCLA) kiáltványnak is beillő cikkben követelte az egységes elméletet. Kézenfekvő ugyanakkor, hogy az egységesebb elmélet kidolgozása nem mehet végbe valamilyen összegezéssel, hanem úgy, hogy a problémák mélyebb elemzésre, átgondolásra kerülnek.

Disszertációmban megkíséreltem egy kifejezetten statisztikai elméletnek - a cluster analízisnek, klaszterálásnak - értelmezését megadni a klasszikus logika alapján, rámutatva arra, hogy a két elmélet nemcsak illeszthető, hanem egyik leírható a másik terminusaival. L. von Bertalanffy, a rendszerelmélet "atyja" szavaival élve, talán igazolni lehetett a két elmélet izomorfiáját, egyben azt, hogy mélyebb kapcsolataik vannak a felszíni különbözőségek ellenére. Amennyiben ez sikerült, akkor a disszertáció egyben újszerű vonással is gazdagította a kérdés szakirodalmát. Másfelől, hasonló indítékok alapján a nyelvstatisztikai módszereknek jogosságát igyekeztem bemutatni néhány osztályozási probléma megoldásában. Ezek azonban ma már szakmai közhelyek, a disszertáció célja itt a magyar nyelvészeti kutatások igen nagyvonalú összegzésére törekedett s inkább a figyelmet kívánja felhívni a nyelvészek és informatikusok közös feladataira, mert egyik táborban sem tudatosult eléggé bizonyos problémák fontossága a másik tudomány számára.

A disszertáció ebben a tekintetben úgy fejleszthető tovább, hogy a két, szintézisre hozható elmélet mellé a harmadiknak is kijelöli helyét egy egészségesebb rendszerben.

2. Második cél volt bemutatni egy valódi interdiszciplináris témát. Az informatika valóban új tudomány, s mint ilyen, számos hagyományos diszciplína határán alakult ki. Önállósága azonban ma már aligha vitatható. A disszertáció témája is a logika, nyelvtudomány, matematika, statisztika, számítógéptudomány határán mozog, maga a probléma azonban egyértelműen informatikai-könyvtártudományi kérdés, az említett tudományok egyikének sem tartozik vizsgálódási körébe. Az informatikai problémák megközelítésének aligha tartható módszere az, hogy ezeket a kérdéseket csak valamelyik, már polgárjogot nyert tudomány - a problémákhoz képest mindig egyoldalú módszereivel és elméleteivel igyekeznek megoldani, egyben igazolni ezzel valamiféle tudományosságot is. Természetes azonban, hogy az informatika önálló voltának hangsúlyozása együtt jár azzal, hogy azokat a mély és valódi kapcsolatokat feltárjam, amelyek az informatikát a többi tudományhoz kötik. Ebben a tekintetben a disszertáció egy érv, egy adalék, egy példa kívánt lenni.

3. A harmadik célkitűzés szorosan kapcsolódik az oktatáshoz. Viták vannak arról, hogy az elektronikus számítógépek milyen szerepet töltenek be a társadalomtudományokban, milyen mélyen kívánatos számítástechnikát tanítani a könyvtárosképzésben vagy akár más szakokon. A szembenálló felek érvei szinte párhuzamosan zúgnak el egymás mellett. Abban egyetértés uralkodik, hogy a gép csak technika, a problémák megfogalmazása adja az igazi feladatokat. A számítógépes szakemberek hangoztatják, hogy a valódi feladat a gépi munkálatok előkészítése. De miben áll ez az előkészítés? Hogyan kell a problémákat megfogalmazni? Kell-e új ismeret a nem számítógépes szakember számára ahhoz, hogy számítógéppel dolgozhassék?

Valóban, a gép "csak cifra szolga". Jelentősége azonban abban áll, hogy segítségével olyan feladatok is megoldhatók, amelyek nem voltak lehetségesek ennek a technikának megjelenése előtt. A számítógép lényegesen kiterjeszti bármely tudományban a megoldható problémák körét, mint a távcső - amely szintén csak technika - a csillagászatban. A disszertációban végig számítógépekről van szó, anélkül azonban, hogy magát ezt a technikát szükségképpen idézni kellett volna, mert néhány problémának a megfogalmazását nyújtja a számítógép számára. Azt kívánja megmutatni, hogy egy nagyon régi kérdés, az osztályozás milyen lehetőségekkel bővült, milyen új módszerek váltak alkalmazhatóvá, egyszóval, miben áll egy évezredes szakmának, a könyvtárosságnak kérdéseit újra fogalmazni, miben áll megújhodása. Ebben a kérdésben a disszertáció elkötelezte magát. Aki pedig idegenkedik a "technika" előretörésétől, annak nem szükséges ezt a technikát észre vennie: a problémák új megfogalmazása e technika nélkül is elég intellektuális feladatot, élményt nyújt. Ha a szakmai gondolkodás ennek következtében merészebbé, egyben pontosabbá válik, ha új távlatok nyílnak a gondolkodás számára, akkor ez önmagában is eredmény, hagyhatjuk a kifejezetten technikai jellegű kérdéseket másra.

4. Szintén az oktatással függ össze az is, hogy világosan kell látni, a könyvtáros- és információs képzésben milyen alaptudományi stúdiumok kívánatosak, s miért.

A disszertációban számok hivatkoznak az idézett szakirodalmi tételekre, amelyek a dolgozat végén kerültek felsorolásra. Ha az idézet nem a szűkebb téma szakirodalmából való, akkor a hivatkozás forrása szöveg közben található.

Budapest, 1979. október 31.