
CÍMLAP
Horváth Tibor
Automatikus osztályozás
TARTALOM, BEVEZETŐ
Tartalom
Bevezető
I. OSZTÁLYOZÁSI RENDSZEREK
II. AUTOMATIKUS NYELVI ELEMZÉS
1. Szövegminták problémája
2. Kulcsszavak növekedésének kérdései
3. Szavak tőalakjának automatikus felismerése
4. Szókapcsolatok elemzése
5. Gyakorisági vizsgálat
III. SZÓELEMZÉSTŐL A KLASZTERÁLÁSIG
IV. AUTOMATIKUS OSZTÁLYOZÁS
1. A klasszikus logika problémája
2. A távolság meghatározása
3. Hasonlósági függvények
4. Klaszterek kialakítása
5. Klaszterek típusai
6. Az alkalmazás területei
Irodalom
Bevezető
Disszertációm alapja a Könyvtári Figyelő 1978. 5. számában közzétett
tanulmányom, amelynek témája az automatikus osztályozás volt. Az
osztályozási rendszerek tipológiáját szintén egyik előző publikációmból
vettem át (10. és 11. bibliográfiai tétel). Azért tartom kívánatosnak
mindezt a bevezetőben megjegyezni, mert a disszertáció szövege helyenként
megegyezik az idézett tanulmányokéval.
A disszertációval több célt kívántam elérni.
1. Az informatikai osztályozásnak - a könyvtári osztályozást is ideértve
- jelenleg három, egymástól eléggé különböző alapokon felépített elmélete
alakult ki. A könyvtári illetve dokumentációs osztályozás lényegében a
klasszikus logikára épül, másik ágon a tudományrendszertan kétezer éves
diszciplínájába ereszti gyökerét. Az 50-es években a számítástechnika
megjelenésével az osztályozás is új alapokat keresett, így született meg
a nyelvészeti alapozású elmélet, amely az osztályozási rendszereket
formalizált nyelvként kezelte, amelynek meghatározott szókincse (lexikai
egységek), szemantikája és szintaxisa van. Az "osztályozási rendszer"
műszó helyett információkereső nyelv-ről beszéltek, a terminológiai
változtatással is érzékeltetve az új koncepció lényegét. Ez az elmélet
eredményezte egyfelől az információs tezauruszokat, másrészt az olyan
fejlett szintaxissal rendelkező nyelveket, mint a franciák SYNTOL-ja.
Harmadikként született, szintén az 50-es és 60-as években, az osztályozás
statisztikai elmélete. Mindhárom elmélet önmagában is igen szerteágazó
utakon járt, nagyon különböző osztályozási nomenklatúrákat eredményezett.
Gondoljunk arra, hogy Taube UNITERM koncepciója és az információs
tezauruszok - bár elméleti alapjaik igen közeliek - nem hasonlítanak jobban
egymásra, mint mondjuk egy tárgyszórendszer az ETO-hoz. Az elméleteknek
ebben a bábeli tornyában égető szükséggé vált egységesebb alapvetést
alkotni. H. Borko, a kaliforniai egyetem könyvtáros professzora (UCLA)
kiáltványnak is beillő cikkben követelte az egységes elméletet. Kézenfekvő
ugyanakkor, hogy az egységesebb elmélet kidolgozása nem mehet végbe
valamilyen összegezéssel, hanem úgy, hogy a problémák mélyebb elemzésre,
átgondolásra kerülnek.
Disszertációmban megkíséreltem egy kifejezetten statisztikai elméletnek -
a cluster analízisnek, klaszterálásnak - értelmezését megadni a klasszikus
logika alapján, rámutatva arra, hogy a két elmélet nemcsak illeszthető,
hanem egyik leírható a másik terminusaival. L. von Bertalanffy, a
rendszerelmélet "atyja" szavaival élve, talán igazolni lehetett a két
elmélet izomorfiáját, egyben azt, hogy mélyebb kapcsolataik vannak a
felszíni különbözőségek ellenére. Amennyiben ez sikerült, akkor a
disszertáció egyben újszerű vonással is gazdagította a kérdés
szakirodalmát. Másfelől, hasonló indítékok alapján a nyelvstatisztikai
módszereknek jogosságát igyekeztem bemutatni néhány osztályozási probléma
megoldásában. Ezek azonban ma már szakmai közhelyek, a disszertáció célja
itt a magyar nyelvészeti kutatások igen nagyvonalú összegzésére törekedett
s inkább a figyelmet kívánja felhívni a nyelvészek és informatikusok közös
feladataira, mert egyik táborban sem tudatosult eléggé bizonyos problémák
fontossága a másik tudomány számára.
A disszertáció ebben a tekintetben úgy fejleszthető tovább, hogy a két,
szintézisre hozható elmélet mellé a harmadiknak is kijelöli helyét egy
egészségesebb rendszerben.
2. Második cél volt bemutatni egy valódi interdiszciplináris témát.
Az informatika valóban új tudomány, s mint ilyen, számos hagyományos
diszciplína határán alakult ki. Önállósága azonban ma már aligha vitatható.
A disszertáció témája is a logika, nyelvtudomány, matematika, statisztika,
számítógéptudomány határán mozog, maga a probléma azonban egyértelműen
informatikai-könyvtártudományi kérdés, az említett tudományok egyikének sem
tartozik vizsgálódási körébe. Az informatikai problémák megközelítésének
aligha tartható módszere az, hogy ezeket a kérdéseket csak valamelyik,
már polgárjogot nyert tudomány - a problémákhoz képest mindig egyoldalú
módszereivel és elméleteivel igyekeznek megoldani, egyben igazolni ezzel
valamiféle tudományosságot is. Természetes azonban, hogy az informatika
önálló voltának hangsúlyozása együtt jár azzal, hogy azokat a mély és
valódi kapcsolatokat feltárjam, amelyek az informatikát a többi tudományhoz
kötik. Ebben a tekintetben a disszertáció egy érv, egy adalék, egy példa
kívánt lenni.
3. A harmadik célkitűzés szorosan kapcsolódik az oktatáshoz. Viták vannak
arról, hogy az elektronikus számítógépek milyen szerepet töltenek be a
társadalomtudományokban, milyen mélyen kívánatos számítástechnikát tanítani
a könyvtárosképzésben vagy akár más szakokon. A szembenálló felek érvei
szinte párhuzamosan zúgnak el egymás mellett. Abban egyetértés uralkodik,
hogy a gép csak technika, a problémák megfogalmazása adja az igazi
feladatokat. A számítógépes szakemberek hangoztatják, hogy a valódi feladat
a gépi munkálatok előkészítése. De miben áll ez az előkészítés? Hogyan kell
a problémákat megfogalmazni? Kell-e új ismeret a nem számítógépes szakember
számára ahhoz, hogy számítógéppel dolgozhassék?
Valóban, a gép "csak cifra szolga". Jelentősége azonban abban áll, hogy
segítségével olyan feladatok is megoldhatók, amelyek nem voltak lehetségesek
ennek a technikának megjelenése előtt. A számítógép lényegesen kiterjeszti
bármely tudományban a megoldható problémák körét, mint a távcső - amely
szintén csak technika - a csillagászatban. A disszertációban végig
számítógépekről van szó, anélkül azonban, hogy magát ezt a technikát
szükségképpen idézni kellett volna, mert néhány problémának a megfogalmazását
nyújtja a számítógép számára. Azt kívánja megmutatni, hogy egy nagyon régi
kérdés, az osztályozás milyen lehetőségekkel bővült, milyen új módszerek
váltak alkalmazhatóvá, egyszóval, miben áll egy évezredes szakmának, a
könyvtárosságnak kérdéseit újra fogalmazni, miben áll megújhodása. Ebben
a kérdésben a disszertáció elkötelezte magát. Aki pedig idegenkedik a
"technika" előretörésétől, annak nem szükséges ezt a technikát észre
vennie: a problémák új megfogalmazása e technika nélkül is elég
intellektuális feladatot, élményt nyújt. Ha a szakmai gondolkodás ennek
következtében merészebbé, egyben pontosabbá válik, ha új távlatok nyílnak
a gondolkodás számára, akkor ez önmagában is eredmény, hagyhatjuk a
kifejezetten technikai jellegű kérdéseket másra.
4. Szintén az oktatással függ össze az is, hogy világosan kell látni, a
könyvtáros- és információs képzésben milyen alaptudományi stúdiumok
kívánatosak, s miért.
A disszertációban számok hivatkoznak az idézett szakirodalmi tételekre,
amelyek a dolgozat végén kerültek felsorolásra. Ha az idézet nem a szűkebb
téma szakirodalmából való, akkor a hivatkozás forrása szöveg közben
található.
Budapest, 1979. október 31.