JACSÓ PÉTER: SZÖVEGES CD-ROM ÉS WEBES ADATBÁZISOK TARTALMÁNAK ELEMZÉSE

10. A tárgyi indexelés minősége

A dokumentumok megfelelő tárgyi indexelése a hatékony visszakeresés előfeltétele. Ez egyértelművé vált a nyomtatott világban, ahol a tárgyi indexelés tételei voltak a referáló és indexelő folyóiratok leggyakrabban használt elérési pontjai az egyes füzetekben és a kumulált kötetekben is. A tárgyi indexelés fontossága valamennyivel csökkenni látszik az elektronikus adatbázisokban, mert a rekordok sok olyan tárgyi tartalmat hordozó adatelem szerint is elérhetők, mint a cím, a referátum és a tárgyi jellegű azonosítók mezője (subject identifier). A tárgyi indexelés minőségének mérése a legnagyobb súllyal szerepelt az adatbázisok minőségének értékelésében; ezért ez a fejezet többet foglalkozik a téma szakirodalmával, mint a többi.

Fogalmak és szakirodalom

Milstead (1994a) bizonyította az ARIST éves szemléinek tételei alapján, hogy az indexeléssel kapcsolatos kutatások mennyisége csökken. Míg az ARIST első évtizedében kötetenként 25-30 tétel volt az Indexing (indexelés) és rokon kifejezései alatt megtalálható, az elmúlt 20 év átlagában ez kötetenként 10-12-re csökkent. Meggyőzően érvel a mérőszámok olyan csoportja mellett, amely lehetővé tenné az indexelő rendszerek tesztelését és képes lenne kompenzálni az indexelés minőségének értékelésére elsődlegesen használt teljesség/pontosság módszertani hiányosságait. A tárgyi indexkifejezések minőségi értékelésének négy fő szempontja van:

- alaposság
- specifikusság
- pontosság
- következetesség

Soergel (1994) ezeknek az értékelési szempontoknak egy finomított definícióját adta, megkülönböztetve az entitás és a deszkriptor nézőpontját az indexelés pontossága és következetessége szempontjából, továbbá az alaposság nézőpontját és fontosságát abból a szempontból, hogy a deszkriptorok mennyire fedik le egy dokumentumban tárgyalt fogalmakat. (Vitatkozik "az indexelés mélysége kifejezés" használatával annak lehetséges többértelműsége miatt, de mivel sok szerző kedveli ezt a kifejezést, amikor a dokumentumhoz rendelt deszkriptorok számára utalnak, ez a fejezet a kifejezést ennek a később tárgyalandó fogalomnak a jelölésére használja.) Soergel (1994) megtárgyalja mindezekeknek az indexelési jellemzőknek a hatását a visszakeresési teljesítményre, s ugyanígy azokat az okokat, amelyek miatt tanulmányozni és értékelni kell az indexelésnek ezeket a mérőszámait.

A National Library of Medicine (az Egyesült Államok nemzeti orvosi könyvtára) végezte a kevés nagyszabású vizsgálatok egyikét, amelyben azt vizsgálták, hogy az operációs rendszerekben hogyan lehet számszerűsítve értékelni az indexelés minőségét. Griffith et al. (1986) a MEDLINE, a PsycINFO, a BIOSIS és az Excerpta Medica indexelésének minőségét hasonlította össze. Vizsgálatuk - amely egymáshoz szorosan kapcsolódó dokumentumok klasztereit használta - azt elemezte, hogy mennyire megfelelő módon kapcsolódnak az indexfogalmak a kapcsolódó dokumentumokhoz, milyen mértékben különböztetik meg általában az összekapcsolt dokumentumokat az egész adatbázison belül, és mennyire finoman az egyes dokumentumokat. Módszertanukat a különböző minőségű adatbázisok megkülönböztetési indexének kiszámítására Ajiferuke és Chu (1988) fejlesztette tovább. Átdolgozott mérési módszert használtak az indexelés minőségének értékelésére a Library Literature-ben, a LISA-ban és az ISA-ban (1989), de módszereik hasonló módon alkalmazhatók más adatbázisokra is.

Beaubien (1992) az IAC és az H.W. Wilson adatbázisai indexelésének minőségét tárgyalva azt állítja, hogy az IAC egyetlen kontrollált szótára sokkal "kontrolláltabbnak" tűnik, mint a Wilson próbálkozásai, de azt elismeri, hogy a Wilson hajlamos arra, hogy több pontos fogalmat használjon a következetesség rovására, és azt állítja, hogy a könyvtárnak el kell döntenie, vajon a használókat az IAC következetesebb indexelésével vagy a Wilson pontosabb indexelésével szolgálnák ki jobban.

Nincs szükség vizsgálatra ahhoz, hogy rájöjjünk, a pontatlan és következetlen tárgyi indexelésnek milyen hatása van a visszakeresési teljesítményre. Ezen két szempont ellenőrzésének eredményei az adatbázisok valódi kontrollált szótárainak indextételeiben önmagukért beszélnek, ahogy azt Jacsó illusztrálta (1998c). Martin és Bergerhoff (1991) a Chemical Abstracts Service adatbázis kontrollált kifejezés indexének A betűvel kezdődő kifejezéseit elemezte, s összehasonlította ezt a nyomtatott tárgyszólista érvényes kifejezéseivel. Az utóbbiban mindössze egy elírást találtak.

1713 kifejezés jelent meg azonban az online változatban, amely nem volt benne a nyomtatott kontrollált szótár mintatételeiben, az okok még elszomorítóbbak voltak. Az elírások 9,4%-ot adtak, az esetek 6,8%-ában a javasolt egyes vagy többes számú forma helyett a másikat használták, 61%-ot nem lehetett megtalálni a nyomtatott szójegyzékben. Ezek az adatok azt sugallják, hogy sok kifejezést használtak deszkriptorként bármilyen ellenőrzés nélkül.

A MEDLINE tárgyi indexelésének jó minőségét bizonyította indirekt módon a Drexel projekt, amelyről McCain, White és Griffith (1987) számolt be. Azt tapasztalták, hogy a MEDLINE-ból vissza nem keresett rekordok esetében az ok legtöbbször az volt, hogy nem dolgozták fel az adott folyóiratot, egy adott számot vagy cikket, s nem a nem megfelelő vagy pontatlan indexelés.

A pontatlan indexelés néha nem az indexelő hibája, hanem a kontrollált szótár megalkotóié. Miller (1996) illusztrálja azt, hogy a tezauruszkészítés alapvető szabályait hogyan sértették meg a Sports Thesaurus 1994-es kiadásában. Tipikus hiba például a deszkriptorok közti kapcsolatok téves értelmezése, homonimák és szinonimák törlése, a földrajzi nevek jelentős történeti változásainak figyelmen kívül hagyása, ezek pontatlan indexeléshez vezettek, alacsony pontossághoz és alacsony teljességhez. A problémákat később súlyosbították a Sports Theasurus nyomtatott és CD-ROM-változatának következetlenségei, eltérései.

Nehéz számszerűen meghatározni vagy objektíven megítélni a kontrollált szótárakban található kifejezések vagy a rekordokhoz való hozzákapcsolásuk megfelelőségét (vagy mindkettőt). Mindazonáltal egy Brooks által (1993) végzett, a korlátlan aliasing stratégiájának érvényességét igazolni akaró kísérlet járulékos eredménye figyelemre méltó megfigyeléseket szolgáltatott az indexelés minőségéről.

Ebben a kísérletben az ERIC, a LISA és az ISA adatbázisokból választották ki ugyannak a 21 dokumentumnak a rekordjait. A deszkriptorokat összegyűjtötték, s a deszkriptorok listáját különböző kombinációkban (mint például csak ERIC, ISA/LISA keverék és ERIC/ISA/LISA keverék) mutatták meg minden rekord esetében, s mellette az egyes rekordok címét és referátumát.

Mérték, hogy mennyi időre volt szüksége 40 keresőnek a legjobban összeillő deszkriptorok megtalálására. Az eredmények, amelyek cáfolták a korlátlan aliasing előnyét, amelyet a korábbi vizsgálatok állítottak, azt is jelezték, hogy a rekordoknak az egyetlen ISA indexfogalommal való összepárosítása sokkal hosszabb átlagidőt, több válogatást tett szükségessé, és sokkal több hibát okozott, mint a többi szimpla típusú indexek. Ezek az eredmények azt sugallják, hogy "az ISA indexe rosszul teljesít," és a keresőket "akadályozta az ISA indexe, amely kevés... egyszerű szót vagy kifejezést ajánlott."

Sievert és Siebert (1991) a FRANCIS és a Philosophers's Index átfedésének összehasonlítása során azt tapasztalta, hogy a 104 vissza nem kereshető, de az utóbbiban benne levő rekord közül 49 azért volt visszakereshetetlen, mert a megfelelő fogalmat vagy nevet nem indexelték. Míg a tárgyi jellegű tárgyszó meghatározásának megfelelő volta szubjektív, az index-fogalomként hiányzó nevek egyértelműen indexelési hibák a Philosopher's Index tezauruszának világos útmutatója szerint. Ez kötelezővé teszi "az indexelést a személy neve szerint, ha két oldal vagy a cikk fele foglalkozik a nevezett személlyel."

Egy vizsgálatban, amely nagyon egyedi volt a vizsgált témák szempontjából, Braam és Bruil (1992) azt vizsgálta, hogy a szerzők milyen mértékben voltak elégedettek a cikkeikhez a Chemical Abstracts Services (CAS) által megadott indexkifejezésekkel. A kérdőívre válaszoló 211 szerző közül csak 52% értett egyet azzal az állítással, hogy a CAS indexelői által a cikkeikhez megadott indexkifejezések megfelelő módon reprezentálták a témát. 48% szerette volna megváltoztatni az indexkifejezések listáját (hozzáadva, törölve vagy kicserélve). A CA szekciókódok megfelelőségével kapcsolatban a szerzők 19%-a gondolta úgy, hogy cikküket nem a megfelelő fő CA szekcióba sorolták be.

Giral és Taylor (1993) - más jellemzők mellett - összehasonlították a legáltalánosabb elérési pontokat (megnevezett személyek, földrajzi nevek, tárgyi deszkriptorok stb.) az ugyanazokról a cikkekről készült rekordokban az Avery Indexben és az Architectural Periodicals Indexben. Azt állapították meg, hogy csak a személy- és cégnevek 55%-a, a földrajzi nevek 50%-a és az építészeti helyek általánosan használt nevének 40%-a egyezett meg a két forrásban, vagy - a földrajzi nevek esetében - legalább részben. (Ugyanazoknak az összetevőknek a használatát, függetlenül sorrendjüktől [azaz Portland (Maine) és Maine-Portland] megegyezőnek tekintették.)

A Chemical Abstracts Services Registry Number (CASRN, a Chemical Abstracts Services regisztrációs száma) helyes meghatározását tesztelte Buntrock (1994) hat adatbázisban, majd később újra Buntrock (1995) három adatbázisban: Azt tapasztalta, hogy azokban az adatbázisokban, amelyek egy algoritmust használnak a kémiai nevek kiválasztására a teljes szövegből vagy a referátumokból, és ezt párosítják egy CASRN számmal, a pontatlanságok eltérése sokkal magasabb, mint azokban az adatbázisokban, amelyeknek a készítői egy "élő" CAS regisztrációs rendszert használnak.

Még rosszabb a hatékony indexelés és keresés esélye, ha a kontrollált szótár nem hozzáférhető. A kontrollált szótár a minőségi indexelés alapfeltétele (egy, a szélesebb osztályozást szolgáló osztályozási rendszerrel együtt). Jacsó (1997b) azt állítja, hogy a kontrollált szótár hiánya az Information Science Abstracts korai éveiben rendkívül károsan hatott az ISA tárgyi indexelésének minőségére.

Hood és Wilson (1994) a LISA-nak a példástól messze álló indexelési politikáját és gyakorlatát annak a ténynek tulajdonítja, hogy "azt a tezauruszt (vagy kontrollált szótárt), amelyet a LISA használ, nem a szokásos tezauruszkészítési alapelveknek megfelelően állították össze." Megállapítják, hogy "a LISA online használói kézikönyvének első kiadása, amely a tezauruszt az előnyben részesített kifejezések listájának (Preferred Terms List) nevezi a LISA adatbázisban található DE kifejezések forrásának őszintébb értékelése." A LISA adatbázis új tulajdonosa, a G. K. Saur 1992-ben abbahagyta a LISA szótárának használatát, s egy új kontrollált szótárt hozott létre. Bár ezt nem adták ki nyomtatásban, elérhető az adatbázisnak a messze legjobb CSA-féle változatában.

Még a szakszerűen összeállított tezauruszok is akadálynak bizonyulhatnak a kezdők számára, akik nem képesek megérteni, még kevésbé keresésben alkalmazni egy olyan kifinomultan strukturált tárgyszó listát, mint amilyen például a MeSH. Killion (1995) magyarázza meg, hogy ez volt az egyik indoka annak, hogy az RNdex Top 100 adatbázis kifejlesztése többek között épp abból a megfontolásból eredt, hogy az indexelők és keresők egy, a MeSH-nél vagy a CINAHL Thesaurusnál egyszerűbb tezauruszt használhassanak. További okok is voltak, mint a kifejezések nagyobb frissessége, jobb tárgyköri megjegyzések, kiterjedt utalórendszer és természetesebb tárgyszavak, amelyek az invertált formák helyett az eredeti szórendet alkalmazzák.

Az indexelés mélységével (alaposságával) kapcsolatban nincsenek általánosan érvényes bűvös számok. Sparck Jones első átfogó vizsgálata (1973) megmutatta, hogy az indexelés mélysége számít; ez növeli a teljességet (a Boole-operátorokat használó keresőrendszerekben), de egy bizonyos ponton túl drasztikusan csökkenti a pontosságot.

Bár az indexelés alaposságának mértéke általában arányban van a dokumentumhoz hozzárendelt deszkriptorok számával, a deszkriptorok magasabb száma nem garantálja a megfelelően alapos indexelést. Az indexelés mélysége pontos jellemzője lehet azonban az alaposságnak, különösen akkor, amikor két vagy több indexelő szolgáltatásnál hasonlítjuk össze az ugyanazokhoz a dokumentumokhoz hozzárendelt indexkifejezések számát.

Amikor a CINAHL és a MEDLINE adatbázisokban ugyanazoknak az ápolással kapcsolatos cikkeknek az indexelési gyakorlatát hasonlították össze, Brenner és McKinin (1989) úgy találták, hogy míg mindkét adatbázisban ugyanannyi (3) fő deszkriptor van, a MEDLINE háromszor annyi mellékdeszkriptort használt, mint a CINAHL. Fontosabb azonban az az eredmény, hogy a közös fő deszkriptorok átlagos száma kevesebb mint 0,5 volt, jelezve azt, hogy kismértékű volt a megegyezés a fő deszkriptorok kiválasztásában, annak ellenére, hogy a CINAHL deszkriptorainak 70%-a a MeSH-ből származik.

A közös alapon való feltárás hiányának súlyos hatása van a több adatbázisban való keresésre. Ez a tanulmány nem vizsgálta a fő deszkriptorok kiválasztásakor tapasztalható össze nem illés okait, de világosan illusztrálta, hogy a CINAHL használói, akik kettőnél több deszkriptort használnak keresőkérdésükben a Boole-algebra ÉS operátorával összekapcsolva, nagy mértékben csökkentik a visszakeresés lehetőségét.

Ahmad (1991) napilap indexek nemzetközi választékénak indexelési gyakorlatát vizsgálta. Azt állítja, hogy a napilap indexelésének széleskörűsége (alapossága) és következetessége a híranyagok tárgyi elemzésének hatékonyságától függ, míg a rekordokhoz adott indexkifejezések száma - amely egytől két tucatig terjedt - nem meghatározó tényező az indexelés minőségében. Jacsó (1992a) azt állítja, hogy a tárgyszavak számának egyre csökkentése a Magazin Article Summaries (MAS) adatbázisban (a korlátot 1993-ban megszüntették) nem biztosította az indexelés megfelelő mélységét. Azt is megjegyzi, hogy a deszkriptor kifejezések magas száma a LISA-ban (ez jellemezte a rekordok többségét 1994-ig) sem volt garancia az indexelés minőségére. Azt állítja, hogy valójában a rendkívüli redundancia volt a legfőbb hiba a LISA adatbázis indexelésében.

Ugyanazoknak a cikkeknek az Avery Indexben és az Architectural Periodicals Indexben (API) található rekordjait összehasonlítva Giral és Taylor (1993) azt elemezte, hány deszkriptort és személyre vonatkozó hozzáférési pontot adtak meg a két forrásban. Az Avery Index mintájából a mindkét forrásban szereplő 444 rekordhoz az Avery indexelői 687 név szerinti hozzáférési pontot határoztak meg, az API indexelői 688-at. Az API mintájából mindkettőben meglevő 671 rekordhoz az Avery indexelői 1192, az API indexelői pedig 1203 név szerinti hozzáférési pontot határoztak meg.

A számok nagyon impresszívek lehetnek, de önmagukban félrevezetőek. A neveknek majdnem egyharmada nem szerepelt mindkét forrásban. A nevek formájában az egyezés csak 55% volt (meg kell jegyezni persze, hogy a megegyezés szempontjai nagyon szigorúak voltak, csak a kis- és nagybetűs eltéréssel nem foglalkoztak). A tárgyi deszkriptorok rekordonkénti átlagos száma nagyon közel volt egymáshoz, s az egyik forrásban megtalálható deszkriptorok első eleme az esetek 40%-ában jelen volt a másik forrás deszkriptorai között, annak ellenére, hogy a források különböző tezauruszokat használtak.

Turner (1995) összehasonlító vizsgálatot végzett mozgóképek tárolására és visszakeresésére a használók által, illetve az indexelők által adott kifejezésekkel kapcsolatban. A kanadai nemzeti filmes testület (National Film Board of Canada) felvétel gyűjteményének felvételenkénti indexelését használták arra, hogy megállapítsák, milyen mértékű a megegyezés azok között a kifejezések között, amelyekre a használók gondolnak, amikor film- és videofelvételeket keresnek, s amelyeket a hivatásosos indexelők adnak meg. A 81 résztvevő 44 filmfelvételt nézett meg, s olyan szavakat és kifejezéseket adtak meg hozzájuk, amelyekről azt gondolták, hogy később kézenfekvőek lesznek a visszakeresésre önmaguk és mások számára. Az eredmények nagyfokú konzisztenciát mutattak az indexelők és a használók között, továbbá magasabb szintet a pre-ikonográfia (mihez kapcsolódik), mint az ikonográfiai (miről szól) szinten. Ez megerősítette Layne (1994) hipotézisét, hogy több megegyezés van egy képnek az alapvető és objektívebb aspektusaiban, s kevesebb a másodlagos és szubjektív aspektusokban.

Mind az osztályozási rendszerekben, mind a kontrollált szótárakban szükség van változásokra az idők folyamán, hogy specifikusabb terminológiát és neologizmusokat vezethessenek be. Ahogy Mintz (1990) megfigyelte, a keresők nem igazán örülnek, amikor tudomást szereznek ilyen változtatásról, mert egy új osztályozási rendszer bevezetése, illetve kifejezések deszkriptorként való elfogadása után a korábbi rekordokban visszamenőlegesen nem vezetik át ezeket a változásokat. Példásnak nevezhető, de ritka az a gyakorlat, amelyet a MEDLINE és a CINAHL folytat, hogy a tezauruszt évenként aktualizálják, és az új tárgyszavakat visszamenőlegesen hozzárendelik a régiekhez. Az ilyen konverziók hiányában azonban Mintz (1995) figyelmeztetése szerint a használó felelőssége az, hogy a keresési stratégiát egy adatbázis teljes időtartama alatti terminológiai különbségekhez igazítsa. Amikor új deszkriptorokat vezetnek be, az H. W. Wilson cég azokat a kifejezéseket visszamenőleg hozzáadja a létező rekordokhoz. Ennek jelentős költségei vannak, de megkönnyítik a használók dolgát.

Az indexelés mélységét vagy alaposságát, illetve specifikusságát elsődlegesen a visszakeresésre gyakorolt hatással összefüggésben vizsgálták. Hogy mi az indexelés optimális mélysége és specifikussága, az mindig az egyedi dokumentumoktól és a célközönségtől függ; ezért nehéz egyetértésre jutni a deszkriptor kifejezések optimális számát és specifikusságát illetően. Svenonius és McGarry (1993) azonban igazolták, hogy a tárgyszavak objektív értékelése valóban megoldható.

Hipotézisük az volt, hogy legalább az esetek 80%-ában egyértelműen meg lehet határozni, hogy a Library of Congress Subject Headings (LCSH, a Kongresszusi Könyvtár tárgyszavai) hozzárendelése jó vagy rossz volt. Ezt megerősítette az, hogy a szerzők 100 tudományos témákkal foglalkozó könyvhöz választottak tárgyszavakat, annak tudatában, hogy a tárgyszót csak akkor lehet megadni, ha a könyvnek legalább a 20%-a a tárgyszóban jelzett témáról szól. 202 tárgyszó közül csak hat olyan volt, amelynek a kiválasztásában és formájában a szerzők nem értettek egyet.

Az elvárható deszkriptorok kihagyása jelentős mértékben csökkentheti az eredményeket (a találatok számát), ha a használók a keresésüket a deszkriptor mezőre szűkítik, hogy biztosítsák a pontosság megfelelő szintjét. Jacsó (1992a) a LISA-nak egy olyan részhalmazát elemezte, amely a CD-ROM kifejezés minden lehetséges variációját tartalmazta (azaz kötőjellel vagy kötőjel nélkül, szóközzel vagy szóköz nélkül, dőlt vonallal vagy anélkül írva) a címekben, de a deszkriptorok mezőjében nem. Úgy találta, hogy a megfelelő deszkriptor elhagyása különösen hátrányos annak fényében, hogy a LISA rekordjaiban rengeteg a túl széles és redundáns deszkriptor. Bár egyes indexelési szabályok azt tanácsolják az indexelőknek, hogy kerüljék a redundanciát azzal, hogy kihagyják azokat a deszkriptorokat, amelyek benne vannak a címben, ez megkérdőjelezhető és nem alkalmazható a LISA esetében, mert a nyomtatott változatnak hozzáférési pontokat kell adnia a tárgyszavakon keresztül, ezek pedig egybeeshetnek a címben szereplő kifejezésekkel.

Bár a túlindexelés nem olyan ártalmas, mint az alulindexelés, csökkentheti a keresés eredményének relevanciáját. A deszkriptorok rendkívüli redundanciája semmissé teheti az indexelés előnyeit. Jacsó (1995) azt állítja, hogy a LISA esetében a mennyiség nem csap át minőségbe, sőt még gyengíti is azt, ami jó indexelés lehetne. Feltételezése szerint az, hogy a LISA-ban rekordok tízezreiben kétszer, háromszor és négyszer fordul elő ugyanaz a deszkriptor, annak a következménye, hogy a deszkriptorokat automatikusan generálják a LISA-ban használt osztályozási jelzetekből, mert valószínűtlen, hogy indexelést végző emberek ilyen rendkívüli mértékben redundánsak lennének.

Az indexelés specifikusságával kapcsolatban Hernon és Metoyer-Duran (1992) érdekes eredményre jutottak. Öt felsőoktatási és szakkönyvtár 43 könyvtárosával folytatott fókuszinterjúban az interjúalanyok visszatérően kritizálták az H. W. Wilson cég Library Literature című adatbázisát amiatt, hogy a tárgyszavak túl általánosak és túl kevés van belőlük. Jelen szerző véleménye ennek ellenkezője, szerinte a tárgyszavak és altárgyszavak kombinációja túlságosan specifikus a Library Literature-ben. A kontrollált szótár egyszerű böngészése is egyértelművé teszi, hogy az indextételek többsége egyke (azaz csak egy rekordhoz kapcsolták hozzá.) Ez a túlzottan specifikus indexelés tipikus szimptómája.

Hood és Wilson (1994) sokkal tovább ment annál, hogy mintát választanak ki a rekordok közül az alaposság és a specifikusság vizsgálatakor. Egyéb jellemzők mellett az indexelés alaposságát és specifikusságát a LISA rekordjainak teljes populációján vizsgálták, nem egy mintán. Megnézték a LISA minden rekordját, és - miután kiszűrték az ugyanabban a rekordban többször előforduló deszkriptorokat - 28191 egyedi deszkriptor 669403 előfordulását vizsgálták. A szerzők úgy találták, hogy 1979 óta a LISA következetesen átlag hat vagy hét deszkriptor kifejezést kapcsolt egy rekordhoz, de a deszkriptorok 64%-a csupán egyszer fordult elő az egész adatbázisban. Mérsékelt hangnemben azzal a következtetéssel összegezték munkájukat, hogy a LISA indexelési politikája és gyakorlata messze van a példástól.

A leíró katalogizálás és a bibliográfiai leírás megítélésével szemben a tárgyi indexkifejezések kiválasztásának értékelése rendkívül szubjektív. Még nehezebb a tárgyi indexelés következetességét egy adatbázison belül megítélni (sokkal inkább, mint a különböző adatbázisok indexelőinek következetességet.) Nem csoda, hogy viszonylag kevés cikk jelent ugyanazon indexelő és referáló szolgáltatás indexelési következetességéről.

Leininger (2000) vizsgálata, amelyben a PsycINFO adatbázisba véletlenül kétszer bekerült 60 duplikátum indexelésének következetességét tesztelte, kivétel a témával foglalkozó kisszámú kurrens publikáció között. Cooper gyakran idézett 1969-es kritikája (a következetes indexelés csak következetesen rossz lehet) elbátortalaníthatta a kutatókat, hogy a következetességgel kapcsolatos vizsgálatokba fogjanak bele. Fugmann (1992) azt állítja, hogy Cooper állítását sohasem cáfolták meg (s úgy tűnik, hogy egyet is ért vele).

Mindenesetre megállapítja, intuitívan érezhető, hogy a (tárgyi) indexelésnek valamilyen mindeddig feltáratlan módon kapcsolatban kell lennie az indexelés minőségével és a keresés hatékonyságával. Azután azzal érvel, hogy "a következetesség helyett a megjósolhatóságnak ... kell az indexelés céljának lennie mind a dokumentumok lényegének meghatározásában, mind ennek a lényegnek a leírásában."

Ugyanazon dokumentum indexelése következetességének mérése olyankor, amikor ugyanaz a személy vagy ugyanaz az adatbázis végzi ezt különböző időpontokban (magához mért indexelői következetesség) vagy két vagy több személy vagy indexelő szolgáltatás (indexelők közötti következetesség), azonos vagy hasonló kontrollált szótárt és indexelési gyakorlatot használva, nagyon népszerű kutatási téma. Ennek egyik oka az, hogy az ilyen kutatás egy adott forrás következetességének mértékére is fényt deríthet. A sok indexelők közötti következetességet vizsgáló tanulmány - Leonard (1977) szemlézte őket az 1954 és 1975 közötti periódusra, Markey (1984) pedig 1984-ig - egyértelműen azt sugallja, hogy közvetlen korreláció van a visszakeresés hatékonysága és az indexelők közötti következetesség között.

Chan (1989) angol nyelvű munkáknak ugyanarra a kiadására vagy számára vonatkozó 100 rekordpárt hasonlított össze, a párok egyik tagját az OCLC tagkönyvtárai által beszolgáltatott rekordok szolgáltatták, a másikat a Kongresszusi Könyvtár rekordjai, olyan művekről volt szó, amelyekben nem volt Cataloging in Publication (CIP, katalogizálás a kiadványban) információ. A cél az volt, hogy meghatározzák Kongresszusi Könyvtár adott tárgyszavainak variációit. A kis minta azért volt elfogadható, mert a tanulmány elsődleges célja az volt, hogy teszteljék a következetesség értékelésének módszertanát.

A tanulmány azt állapította meg, hogy a rekordpárok 15%-a egyezett meg tökéletesen (azonos tárgyszavak, vagy hat pár esetén a tárgyszavak hiánya). A részleges egyezések 80%-ot tettek ki (egyes tárgyszavak nem egyeztek meg teljesen vagy részlegesen, például különbségek voltak az alosztályokban). Öt százalék volt teljesen különböző (két esetben az volt az ok, hogy a nem a Kongresszusi Könyvtárból származó rekordban nem volt tárgyszó).

Míg az ideális a teljes következetesség lenne, ezt csaknem lehetetlen elérni. A 80 részlegesen egyező pár elemzése megmutatta, hogy az ugyanazzal a témával foglalkozó rekordok többségében voltak közös tárgyi szavak, amelyek képesek garantálni a visszakeresés részleges sikerét, ha olyan rendszereket használnak, amelyek lehetővé teszik a kulcsszó szerinti keresést a tárgyszavak mezőjében. Ahol nem volt egyezés, annak az esetek többségében az volt az oka, hogy nem megfelelően kapcsolták össze a tárgyszavakat és altárgyszavakat. Megfontolandónak tartja, hogy az LCSH-nak a döntően prekoordinált rendszerről áttérjen a posztkoordinált rendszerre. Az, hogy nagyon alacsony volt az olyan rekordok száma, amelyek teljes következetlenséget mutattak, nem tesz lehetővé semmilyen általánosítást.

Reich és Biever (1991) az indexelők közötti következetességet tárgyalva azt mérték, hogy egymástól függetlenül hány teljesen azonos kifejezést adtak ugyanazokhoz a cikkekhez az AGRICOLA-ban és a CAB-ban, a CAB Theasurust használva. (A tezauruszt kis mértékben módosította a National Agricultural Library (az USA országos mezőgazdasági könyvtára), amikor az AGRICOLA számára adoptálta, hogy kövesse az amerikai helyesírást és beiktassa CAB tezaurusza által le nem fedett szakterületek további kifejezéseit.) Két folyóiratból összesen 236 cikket választottak ki, s azok deszkriptorait hasonlították össze. Bár a két indexelő szolgáltatás által adott deszkriptorok száma nem mutatott lényeges különbséget (8,2 kontra 8,9), a cikkenként adott deszkriptorok száma kevés esetben mutatott azonos indexelési mélységet amely megmagyarázhatja az egyezés alacsony, 27%-os mértékét. A másik ok az, hogy ugyanarra a fogalomra szinonimákat lehet érvényes deszkriptorként megadni (pl. cold stress és winter hardiness vagy developmental stages és growth stages), s ez nem segíti elő az indexkifejezések következetes meghatározását.

Tonta (1991) 82 könyvtár- és információtudományi tétel indexelésének következetességét hasonlította össze a Library of Congress (LC, Kongresszusi Könyvtár) és a British Library (BL) között. Olyan művekről volt szó, amelyekhez a British Library a PRECIS kifejezések láncolata mellett a Kongresszusi Könyvtár tárgyszavait is megadta. A tételekhez adott kifejezések száma jelentősen különbözött (3,44 az LC-nél és 1,55 a BL-nél), mert a BL-nek nem kellett kizárólagosan a Kongresszusi Könyvtár tárgyszavaira alapoznia. A különbségek ellenére a tételek 21%-a esetében ugyanannyi tárgyszót adtak, de 74%-ban a LC katalogizálói adtak több LCSH kifejezést. A BL által adott tárgyszavak majdnem 40%-a teljesen megegyezett az LC által adott tárgyszavakkal, s további 35% részlegesen egyezett meg (a fő tárgyszó megegyezett, az alosztások azonban nem.) Az indexelés következetességének mértékét a teljes és a részleges egyezésre 36%-osnak találták - elég alacsony érték, amely mindazonáltal igazolta a korábbi vizsgálatok eredményeit. Az eredménynek fontos következményei vannak a nem eredeti rekordot létrehozó katalogizálók számára, akik a másik ügynökség rekordjait használják az Atlanti-óceán két oldalán.

Sievert és Andrews (1991) adatbázison belüli következetességi vizsgálatot végzett az Information Science Abstracts használatával. 71 azonos duplikátum rekord-párt választottak ki négy folyóiratból, hogy a deszkriptorok és azonosítók (identifierek) következetességét vizsgálják. A főtárgyszavak 52% következetességet mutatott, az altárgyszavak következetessége 45,5% volt, így a következetesség átlagosan 48% volt. Az azonosítók következetességét 33%-osnak találták. Ezeket a számokat annak a ténynek a fényében kell értelmezni az ISA esetében, hogy nagyon kicsi a szójegyzék, amelyből az indexelők kifejezéseket választhatnak, s csak egy főtárgyszót lehet megadni. Mindkét tényező növeli a megegyezés valószínűségét.

Minél kevesebb kifejezés van, annál valószínűbb, hogy a két indexelő ugyanazt a deszkriptort választja, ahogy az indexelés mélysége nő, következetessége csökken. Bár a minta viszonylag kicsi volt, az eredmények megerősítették annak a hasonló vizsgálatnak az eredményeit, amelynek során a MEDLINE-ban Funk, Reid és McGoogan (1983) alacsony indexelők közötti következetességet találtak olyan dokumentumokra vonatkozóan, amelyeknek tökéletes volt a szemantikai hasonlósága. Ezt használta az eredmények magyarázatának tényezőjeként Harter, Nisonger és Weng (1993) a hivatkozó és hivatkozott cikkek közötti szemantikai kapcsolatokra vonatkozó újszerű kutatásukban.

Az indexelési minőség kiértékelésének folyamata

Az elmélet gyakorlatba való ültetésének legjobb módja néhány próbakeresés lebonyolítása. Az indexelés minősége értékelésének első lépése azonban megelőzi a keresést. Mivel az indexelés a tezaurusz minőségétől függ, vagy legalább a használt kontrollált tárgyi szótártól, amelyek alapján indexfogalmakat keresnek és rendelnek a dokumentumokhoz az indexelők, ezért nagyon hasznos az adatbázis kontrollált tárgyi szótárának tanulmányozása. Sajnos sok adatbázis-készítő nem publikálja ezt nyomtatásban (például a mintacsoportban az H. W. Wilson), de legalább online vagy CD-ROM-on lehet tanulmányozni, ha az információszolgáltató elkészítette ezt. Bár ez a szoftver kérdése, jegyezzük meg, hogy jelentős különbségek vannak ugyanannak a tezaurusznak a különböző információszolgáltatók által készített változatai között

Az Ovidnál található tezauruszok megjelenési formája a legintuitívabb és leginformatívabb az online és CD-ROM-kiadók közül, ezt a CSA kiváló változata követi. A DIALOG adatbázis-gyűjteményéből elszomorítóan kis százalékban van meg a tezaurusz funkció, s gyakran ezek is az elvárt szint alatt maradnak. Példa erre az, ahogyan az ERIC tezaurusza tárgyi megjegyzéseit kezelik, s gyakran el is hagyják őket. A SilverPlatter-nél a Windows alatt működő CD-ROM és webes verziókban jó változatai vannak a különböző tezauruszoknak.

A legjobb az, ha előzetesen tanulmányozzuk a tárgyi szótár nyomtatott változatát, elolvassuk az előszót, megvizsgáljuk a tételeket és az utalókat annak érdekében, hogy benyomást szerezzünk arról, milyen az adott változat.

A kontrollált szótár mérete önmagában nem döntő tényező, bár egy adott diszciplínában a túlságosan vékony listák, mint a kifejezések listája az ISA-ban és az MHA-ban, azonnal kétséget ébreszthetnek. Multidiszciplináris adatbázisokban nehéz egy adott terület terminológiai lefedettségét megállapítani. Könyvtár- és információtudományi és -technikai fogalmak megtalálása az INSPEC-ben (amely alapvetően elektro- és elektronikai mérnöki adatbázis), az ERIC-ben (elsődlegesen oktatási adatbázis), vagy az ABI/INFORM-ban (üzleti adatbázis, amely az információtechnikát is nagyon jól feltárja) időigényes folyamat.

Azt várnánk, hogy a könyvtár- és információtudományi adatbázisok példás kontrollált szótárral rendelkeznek a szakterületre. A LISA és az ISA biztosan nem felel meg ennek a hipotézisnek. Egyikük sem szabványos a szótára, de legalább a LISA 1993-ban egy újra váltott. Az ISA sokkal hamarabb átválthatott volna az ASIS információtudományi tezauruszára (Thesaurus of Information Science).

A LISA-t 1992 végén szerezte meg a G. K. Saur a brit könyvtáros egyesülettől (Library Association, LA), s egy éves szünet után egy teljesen átdolgozott és sokkal jobb kontrollált szótárral jött elő. Ám továbbra is ismerni kell a régit kontrollált szótárat, mert több mint 20 év anyagát azzal indexelték. Azoknak a használóknak, akik retrospektív keresést végeznek, az 1993 előtti időszak anyagára kiterjesztve, együtt kell élniük ezzel a "múmia átkával", ahogy Reva Basch (1990b) érzékletesen nevezte az adatbázisiparnak ezt az örökségét. A szótár utolsó nyomtatott változata, amelynek megmagyarázhatatlan módon a LISA Thesaurus címet adták, 6000 tételt tartalmaz. Ez valójában nem tezaurusz: maga a LISA online kézikönyve is megállapítja, hogy "ez nem kíván a LISA-ban 1969 óta használt kifejezések kimerítő listája lenni, csak a legfontosabb és legszélesebb körben használt kifejezések alapvető listáját szolgáltatja."

Még így is többnek mutatja magát, mint ami. Kétségtelenül nem tezaurusz, amely sok és következetes utalót; szűkebb, bővebb és kapcsolódó fogalmak listáját; tárgyi és a használatra vonatkozó megjegyzéseket ad. A LISA alkalmanként ad valamilyen tárgyi megjegyzést és az ajánlott kifejezésekhez vezető utalásokat, de sok ilyen tétel elég abszurd. Egyetlen oldal (10.1.) is jól illusztrálja, milyen hibásak és zavaróak lehetnek a megjegyzések és az utalások. A LIBRARY SCHOOL STUDENTS*-re (könyvtároshallgatók) vonatkozó megjegyzésnek nincs sok értelme és redundáns is. A LIBRARY RELOCATION és a LIBRARY REMOVAL (a könyvtár áttelepítése és a könyvtár elköltöztetése) a ROMOVALS TO NEW BUILDINGS formát javasolja. (A REMOVAL TO NEW BUILDINGS, átköltöztetés új épületbe elírt változata.) Az elírások nem szépek a cikkekben, de egy tezauruszban bűnnek tekintendők.

* Az egyértelműség kedvéért az utalások leírásai nagybetűvel szerepelnek. A mintarekordokban néha kisbetűvel, néha nagybetűvel írják őket.

10.1. ábra: Zavaró és hibás hivatkozások a LIBRARY SCHOOL STUDENTS és LIBRARY RELOCATION alatt

Vannak UF (used for) (használjuk helyette) utalások a SEAS-től (tengerek) az OCEANOGRAPHY-hoz (oceanográfia), de az OCEANS (óceánok) kifejezés csak magányosan lebeg. Az OLDER WOMEN (idősebb nők) olyan kifejezés, amely összesen egyszer fordul elő az egész adatbázisban mégis, van utalás róla a WOMEN (nők) szóra a kontrollált listán, az OLD PEOPLE (idős emberek) kifejezéshez azonban nem. Az is furcsa, hogy nem található meg az OLDER MEN (idősebb férfiak) kifejezés.

Az ember nem tud magához térni a csodálkozástól, mitől lesznek az olyan szavak, mint az "oceans" vagy "oil shales (palaolaj)" "a legfontosabb és legszélesebb körben használt" kifejezésekké egy könyvtár- és információtudományi adatbázisban. Az első 14 rekordban szerepel, a második egyáltalán nem található az egész adatbázisban. Nehéz elhinni, hogy a brit könyvtáros egyesület hogy tudott meglenni olyan hosszú ideig ezzel a rosszul szerkesztett kontrollált szótárral.

Az ISA esetében az a meglepő, hogy az IFI/Plenum továbbra is a kifejezéseknek azt a rosszul összeállított, bármilyen tárgyi megjegyzés és utaló nélküli listáját használta, amikor az ASIS jól felépített információtudományi tezaurusza természetes választás lehetett volna egy ilyen adatbázis számára, miután első kiadása 1994-ben megjelent.

Egy másik probléma az, ha hiányzik a megfelelő kifejezés, ez a nyomtatott tezaurusz átnézésével válhat egyértelművé. Az ERIC tezauruszában sok nagyon specifikus és jól kiválasztott könyvtár- és információtudományi kifejezés található, de sem a legáltalánosabban használt kifejezés, a "CD-ROMs", sem annak teljes formája nincs benne. A legközelebbi kifejezés az OPTICAL DATA DISKS (optikai adatlemezek). Nem megfelelő ennek a kifejezésnek a megadása, amikor egy fajt, nem pedig egy nemet tárgyalnak egy cikkben - túlságosan tág kifejezés. (Az ERIC indexelői legalább használhatják az identifier (azonosító) mezőt olyan kifejezésre, amely nem került még be a tezauruszba.)

Hasonló probléma az, amikor egy, a tezaurusz számára kiválasztott kifejezést nem használják a szakirodalomban (azaz nincs szakirodalmi alapja). Például a Compendexben a CD-ROM helyett egy elég mesterséges kifejezést - DATA STORAGE DIGITAL-ROM - használtak az 1990-es évek közepéig. Sok adatbázis a Kongresszusi Könyvtár tárgyszórendszerének (Library of Congress Subject Headings (LCSH)) módosított változatát használja, ez elég elavult, amikor új terminológiáról van szó, ugyanakkor prekoordinált katalógusok számára tervezték, nem pedig online rendszerek számára, amelyek kiválóan alkalmasak a posztkoordinációra, és bátorítják is azt. Az H. W. Wilson és az IAC adatbázis-családok a prekoordinált indexkifejezésekre szolgáltatnak példát. Dicséretükre el lehet mondani, hogy mindkettő sokkal több újabb kifejezést vett fel, mint az LCSH.

A kontrollált szótárak speciális problémája látható a PASCAL adatbázisban, amely többnyelvű kontrollált szótárat ajánl, de többre vállalkozik, mint amit képes megvalósítani. Nyilvánvaló, hogy az angol, spanyol és német szótárak összeállítói nem puristák és fanatikusok, amikor a francián kívül az egyéb nyelvek megbecsüléséről van szó. Úgy tűnik, hogy a spanyol kifejezéseket inkább egy számítógép fordította, nem pedig egy kétnyelvű szakember. Sok olyan van köztük, amelyek nem szerepelnek a szakirodalomban, még akkor sem, ha a prepozíciókat meghagyták volna. Prepozíció nélkül (pl. DETECCION ERROR DETECCION DE ERROR vagy inkább többes számban DETECCION DE ERRORES helyett) ezek a kifejezések úgy hangzanak, mint a turisták egy tijuanai bevásárló központban, s az érzékelés hibáját jelenti hibaészlelés helyett.

Valójában a PASCAL sok félremagyarázott deszkriptora nyer más jelentést. Vegyük például a 10.2 ábra rekordját, amelyben a MOTOR INVESTIGACION jelentése motor-vizsgálat - ezt a Szövetségi Repülési Testület végezné egy repülőgép-baleset után. Amit szerettek volna mondani, az: "keresőmotor". A "search engine" a spanyol számítástechnikai magazinokban BUSCADOR. A szoftver spanyol kifejezésként PROGRAMA, nem pedig LOGICIAL, amely a francia "logiciel" "spanyolosított" változata.

A német deszkriptorok mellett még a spanyolok is jónak látszanak a PASCAL-ban. (Érdemes megjegyezni, hogy mindig kevesebb spanyol deszkriptor van, mint francia, németből pedig sosincs háromnál több.) A német kifejezések olyan általánosak, hogy alkalmatlanok a keresésre. BESCHREIBUNG ("description, leírás") a leggyakrabban használt, s én inkább megspórolom véleményem leírását olyan választásról, amikor ez az egyetlen deszkriptor.

10.2. ábra: A szakirodalomban nem létező spanyol kifejezések

A legjobb tezaurusz sem segíthet, amikor az indexelő olyan kifejezéseket vesz fel, amelyek nem mentek keresztül minőségellenőrzésen s nem egyeztetik őket az érvényes kifejezések listájával. Az MHA mutatja a legszélsőségesebb példákat a tárgyi deszkriptorok, a legszentebb tehenek teljes figyelmen kívül hagyására . még az elírásokat sem javítják (10.3. ábra).

10.3. ábra: Rengeteg kirívó elírás az MHA deszkriptor mezőjében

Helytelen kifejezés kiválasztása a tezauruszból szintén általános probléma. Ez gyakran vitatható persze, de olyan esetekben azonban nem, amikor a kiválasztott deszkriptor egyértelműen rossz kifejezés. Az angol kifejezések még viszonylag jobban járnak, de ott is léteznek a nyelvészeti szempontból korrekt, de szemantikailag nem megfelelő kifejezések. Meglepő, amikor erre olyan cikkek esetében kerül sor, ahol az eredeti cím egyértelműen sugallja a megfelelő kifejezést, amely történetesen egy érvényes deszkriptor. Például a PASCAL a LEGIBILITY (olvashatóság) kifejezést használja, amikor a READABILITY-t (olvasmányosság) kellene használni olvashatóság értelemben. A 10.4. ábra világosan illusztrálja, hogy a cikk azt tárgyalja, milyen könnyen lehet egy dokumentumot megérteni (olvasmányosság), nem pedig az, hogy milyen nehéz olvasni (olvashatóság) a nyomtatás rossz minősége vagy a patikust is elpirulásra késztető kézírás miatt. Az olvasmányosságról szóló rekordok többségében rossz deszkriptort adtak meg a PASCAL-ban.

A cikk címének fordítása: Három mód, amellyel növelni lehet a folyóiratok referátumainak érthetőségét

10.4. ábra: Rosszul megválasztott angol deszkriptor a PASCAL-ban

Esettanulmány a tárgyi indexelés minőségének értékeléséről

Ugyanazon cikkek különböző adatbázisokban készült rekordjainak halmazán keresztül fogjuk illusztrálni a tárgyi indexelés minőségértékelése négy legfontosabb mérőszámát. Olyan cikkeket választottunk ki, amelyek kapcsolódnak az online vagy a CD-ROM technikához. Egyeseket azért választottuk ki, mert jó alapot jelentenek a teszteléshez, a tárgyi indexelés következetességének illusztrálására a következő okok valamelyike alapján: Vagy kétrészes cikkek ugyanazt a témát (bár alkalmanként különböző szemszögből) feldolgozó rekordjai, vagy olyan cikkek rekordjai, amelyek először angolul jelentek meg, majd azután magyarra is lefordították őket.

Sokkal több tesztet kellene elvégezni ahhoz, hogy következtetést vonhassunk le az indexelés minőségéről. A hely korlátozza az itt szereplő példák számát. A tárgyi indexelés minőségének tesztelése azt kívánja meg, hogy ismerjük a szakterületet és a primer dokumentumokat, így az értékelőknek olyan dokumentumok rekordjait kell kiválasztaniuk, amelyeket jól ismernek. Ez megbocsáthatóvá teszi olyan cikkek rekordjainak szerepeltetését, amelyeket a könyv szerzője írt. Egyes cikkeket a 11., a referátumok minőségét vizsgáló fejezetben is felhasználunk.

A specifikusság alapvető indexelési alapelv, vagyis az, hogy a kontrollált szótárból a fogalomra vonatkozó szakkifejezések közül a legspecifikusabbat adjuk. Ezt nehéz megtenni olyankor, amikor a tezauruszban szereplő kifejezések nagyon általánosak, s nincsenek útmutatások azzal kapcsolatban, hogyan adjunk altárgyszavakat vagy alosztályokat, ha használatuk egyáltalán megengedett. Ez nyilvánvaló probléma a PIRA adatbázis esetében, amely mindenképpen elkerüli az összetett kifejezések használatát, s nem alkalmaz alosztályokat. A jellemző eset a "Searching for Skeletons" cikk mindkét részének indexelése (10.5. ábra). Az egyik a DATABASES, SOFTWARE és TECHNIQUE kifejezéseket használja, a másikban a DATABASE, METHOD és TECHNIQUE szerepel. A kifejezések a többes számot kívánnak meg, továbbá jelzőket, mint "search techniques" (keresőkifejezések) és "evaluation methods" (értékelési módszerek), ha már alosztályokat nem használnak.

10.5. ábra: A "Searching for Skeletons" cikk rekordjai a PIRA adatbázisban

Azt gondolhatnánk, hogy az ABI/INFORM ugyanazon a cikkpár esetében ugyanazokért a hiányosságokért hibáztatható, de a helyzet nem ez. Az ABI/INFORM olyan generikus fogalmakat használ, mint a TECHNIQUES (helyesen többes számban), de ezt egy fontos kifejezéssel (SEARCHES, keresések) együtt használják. Meg kell jegyezni azonban, hogy a DATA BASES kifejezés figyelmen kívül hagyja azt, hogy a szakirodalom sokkal gyakrabban használja a DATABASES formát, ahogy azt egy, az ABI/INFORM-ban végzett keresés is egyértelműen kimutatja. 101918 olyan teljes szövegű rekord van, amelyben ezt az egybeírt kifejezést használják, s csak 30895 olyan, amelyben a az ABI/INFORM-ban deszkriptorként használt két szóból álló forma (azaz data bases) jelenik meg a teljes szövegben.

10.6. ábra: A "Searching for Skeletons" cikk rekordjai az ABI/INFORM adatbázisban

A "Data Transfer" cikk 2. részének rekordjában a PROBLEMS és FUNCTIONS kifejezések nagyon általánosak, de ezeket számos specifikus kifejezéssel együtt sorolják fel, így a szövegösszefüggés világosabbá teheti az értelmüket (10.7. ábra). A furcsa deszkriptorok, a MANYPRODUCTS és a MANYCOMPANIES nem elírások. Olyan cikkekre vonatkozóan használják őket, amelyek sok termékkel és sok céggel foglalkoznak, s hasznosak lehetnek azok számára, akik mondjuk olyan cikkeket keresnek, amely sok nyomtatót értékel, vagy sok olyan cégről szól, amely például a 2000-es év problémájával (Y2K) foglalkozik.

10.7. ábra: A "Data Transfer" cikk rekordjai az ABI/INFORM adatbázisban

Még akkor is hiányozhat a szükséges specifikusság, ha összetett kifejezéseket adnak meg. Például az egyik legjobb minőségű adatbázis, az INSPEC rosszul szerepelt ebben a tesztben. A "Searching for Skeletons" mindkét rekordjához (10.8. ábra) általános és redundáns kifejezéseket adtak meg, hiányzik a legfontosabb, amely a minőség-ellenőrzés fogalmához kapcsolódik, bár erre tökéletes deszkriptor található az INSPEC tezauruszában: quality control.

10.8. ábra: A "Searching for Skeletons" cikkek rekordjai az INSPEC-ben

A LISA által az átdolgozott kontrollált szótárból megadott két egyszavas kifejezés sokkal jobb ugyanezekre a rekordokra (ERRORS és DATABASES; hibák és adatbázisok és QUALIY és DATABASES; minőség és adatbázisok) (10.9. ábra).

10.9. ábra: A "Searching for Skeletons" cikkek rekordjai az LISA-ban

A PASCAL-ban a francia, angol és - a mi példánkban - még a spanyol deszkriptorok is megfelelőek. Néhányuk nagyon jó, mint a SEARCH STRATEGY (keresési stratégia) vagy a DATABASE QUERY (adatbázis lekérdezés). A német deszkriptorok olyan általánosak szinte minden rekordban, hogy már haszontalanok. Még a generikus kifejezések közül is túl keveset nagyon véletlenszerűen adnak meg, így nem adnak semmi kulcsot a cikkek tartalmáról. A 10.10. ábrán mutatott, a "Searching for Skeletons" 2. részére vonatkozó rekord német deszkriptorának, az ABWEICHUNG-nak, amelynek a jelentése DEVIATION, DISCREPANCY vagy ABNORMALITY (eltérés, az egyezés hiánya, rendellenesség) önmagában nincs értelme. Amikor egy gyors keresést végzünk arra vonatkozóan, hogy mennyire megfelelő a kifejezések kiválasztása, meg kell fontolni annak valószínűségét, hogy használnánk-e a kifejezés(eke)t a keresésben. Az ABWEICHUNG-nak önmagában nincs esélye erre.

Az indexelés kimerítő volta azt jelenti, hogy annyi releváns index kifejezést kell megadni, amennyit a cikk indokolttá tesz. Túl kevés index kifejezés megadása jelentős mértékben csökkenti a keresés teljességét. A túl sok hamis találatokhoz vezethet, bár az index kifejezések jó posztkoordinációja a keresőkérdésben csökkentheti ezek számát. Emiatt biztonságosabb az indexelő számára, ha inkább azzal hibázik, hogy több index kifejezést ad meg, mint kevesebbet, bár nem olyan mértékben, mint ahogy a LISA teszi.

10.10. ábra: A "Searching for Skeletons" cikk 2. részének rekordja a PASCAL-ban

A LISA által a "Data Transfer" cikkhez megadott kifejezéseket a 10.11. ábra mutatja. Az INFORMATION STORAGE AND RETRIEVAL (információtárolás és -keresés), COMPUTERIZED INFORMATION STORAGE AND RETRIEVAL (számítógépesített információtárolás és -keresés), INFORMATION RETRIEVAL (információkeresés) nyilvánvalóan redundánsak és általánosak, csakúgy mint a másik fogalomra vonatkozó STORAGE MEDIA (tároló médium), OPTICAL DISCS (optikai lemezek), DISCS (lemezek) és COMPACT DISCS (kompakt lemezek), amikor a "CD-ROM" elegendő volna. A COMPUTERIZED SUBJECT INDEXING (számítógépesített tárgyi indexelés), SUBJECT INDEXING (tárgyi indexelés) és újra a SUBJECT INDEXING (tárgyi indexelés) nem csak abszurd módon redundánsak, hanem irrelevánsak is, mert a cikk sehol sem említi a tárgyi indexelést. A három legjobb, legspecifikusabb fogalom az UPLOADING (feltöltés), DOWNLOADING (letöltés) és az EXCHANGE FORMATS (csereformátumok), elegendőek is lettek volna a CD-ROM kifejezés mellett.

10.11. ábra: A "Data Transfer" cikkek rekordjai a LISA-ban

Ugyanannak a deszkriptornak az ismétlődő használata olyan szakszerűtlen, így annak, hogy rekordok ezrei mutatták ezt a szimptómát, az egyedüli magyarázata az lehet, hogy egy program adta meg a deszkriptorokat, amelyre senki nem figyelt. A 10.12. ábra rekordjai magukért beszélnek. Az illusztrációként kiválasztott rekordok eredeti cikkeinek témája nem véletlenül - mi más is lehetne -, a redundancia. Egy indexelő ember aligha lett volna képes olyan sok redundáns kifejezést hozzárendelni a redundanciával foglalkozó cikkekhez.

10.12. ábra: A LISA rekordjai redundanciával foglalkozó cikkekhez

A specifikusságot sokszor úgy lehet elérni, hogy egy általánosabb kifejezést alosztályokra osztunk, hogy jelezzük a főtárgyszó bizonyos aspektusait. A Trade Industry Database (T&I) jó példát mutat erre a "Negotiating" cikk rekordjában (10.13. ábra) azzal, hogy a LIBRARIES-AUTOMATION (könyvtárak - gépesítés) és a CD-ROM--INSTALLATION (CD-ROM - telepítés) kifejezéseket adják meg.

10.13. ábra: A T&I rekordja a "Negotiating" cikkhez

Ugyanez történik a "Quality of Abstracts" rekordjában (nem szerepel itt a példája), ahol mindkét főtárgyszóhoz tökéletes altárgyszó kapcsolódik: a QUALITY CONTROL (minőség-ellenőrzés) a fogalmakat szükséges mértékben specifikussá teszi. Furcsa, hogy a "Searching for Skeletons" cikk 1. részéhez kapcsolódóan az indexelő jó altárgyszót adott meg, a QUALITY CONTROL-t, a 2. résznél azonban kevésbé megfelelő a főtárgyszó-altárgyszó kombináció: DATA BASES-USAGE (adatbázisok - használat) (10.14. ábra). Ugyanaz vonatkozik a DATA BASES formátum használatára DATABASES helyett, amit korábban már az ABI/INFORM-nál megtárgyaltunk. Meg kell említeni a rekordokban a különbségeket a cím és az alcím sorrendjében, s ehhez hasonlóan a részek meghatározásának variációit is.

10.14. ábra: A "Searching for Skeletons" cikkek rekordjai a T&I adatbázisban

Ez a fajta alosztály az H. W. Wilson adatbázisok jellemzője, amelyek jók a specifikusságban, de ugyanakkor nem eléggé részletezőek. Az ilyen kérdéseket mindig az egész rekord tartalmával összefüggésben kell vizsgálni. Az H. W. Wilson cég jól ismert arról, hogy nagyon jó címkiegészítést használnak, amely épp annyira jó az online kereséshez, mint a további deszkriptorok. Az H. W. Wilson adatbázisaiból vett mintarekordok között a Business Abstracts tökéletes egyensúlyt tart a túl mértékletes és a túl kimerítő indexelés között (10.15. ábra). Ez illusztrálja a hagyományos prekoordinált indexeléshez való erős ragaszkodást.

10.15. ábra: A "Searching for Skeletons" cikkek rekordjai a Business Abstractsben.

Az egy cikkhez hozzárendelt index kifejezések nagy száma nem feltétlenül biztosítja azt, hogy az megfelelően kimerítő legyen, ahogy azt világosan mutatta a LISA szokatlanul redundáns indexelési gyakorlatának példája. A PIRA ad "jó" példát arra, hogy ne csak a rekordokhoz hozzárendelt deszkriptorok számát nézzük, amikor a tárgyi indexelés minőségét megítéljük. A "Quality of Abstracts" cikk meghintését 12 indexfogalommal (egyetlen szó kivétellel) nem lehet kritika nélkül hagyni (10.16. ábra).

Úgy tűnik, hogy a PIRA rendkívüli mértékben kedveli egyszavas kifejezések megadását tárgyi deszkriptorként. A FORM (forma), GRAPHIC (grafikus) és a PROFESSIONAL (szakmai) kifejezések magukban sokkal inkább látszanak KWOC (keyword out of context, kulcsszó a szövegkörnyezeten kívül) indexfogalmaknak, mint deszkriptoroknak, és az egyes számú formák használata a legtöbb főnév esetében (kivéve az ABSTRACTS (referátumok) formát) nem általános gyakorlat. Az OBJECTIVE (cél) deszkriptor esetében ez nagyon zavaróvá válik (mert semmi nem különbözteti meg az objektív szótól, mint jelzőtől).

10.16. ábra: A "Quality of Abstracts" cikk rekordja a PIRA adatbázisban

Az ideális jelöltek a következetesség ellenőrzésére többrészes cikkek, konferencia-előadások, amelyeket később folyóiratcikké is átdolgoztak, valamint eredeti cikkek lefordított változatai.

Nyilvánvaló indexelési következetlenség figyelhető meg a "Negotiating" cikk eredeti angol nyelvű változatának és magyar fordításának LISA rekordjai között (10.17. ábra). Az eredeti cikk rekordjához hét, nagyrészt feleslegesen széles kifejezést adtak a CD-ROM-hoz, de legalább tartalmazza a legspecifikusabb kifejezéseket is. A magyar fordítás rekordja kihagyja a CD-ROM-ra vonatkozó deszkriptorokat, s csak két általános és felesleges kifejezést ad meg.

10.17. ábra: Egy cikk eredetijének és magyar fordításának rekordjai a LISA-ban

Az INSPEC esetében az angol nyelvű cikkhez megadott két deszkriptor tökéletes (CD_ROMs és INSTALLATION, CD-ROM-ok és telepítés). A "Negotiating cikk" magyar fordítása deszkriptorainak relevanciája megkérdőjelezhető (DP MANAGEMENT és INFORMATION SERVICES (az adatfeldolgozás menedzsmentje és információs szolgáltatások), mert túl általánosak. A szerző keresztnevének hibás kezdőbetűjét is szóvá kell tenni, bár ennek nincs hatása a tárgyi indexelésre (10.18. ábra).

10.18. ábra: A "Negotiating" cikk rekordjai az INSPEC-ben.

Az ISA termékeny talajt biztosít a tárgyi indexelés következetességének ellenőrzéséhez, mert több ezer valódi duplikált rekordpár található benne, ahogy az részletesen tárgyalta Jacsó (1998a). Legtöbbjük érdekes ciklikus mintát mutat (10.19. ábra). A duplikátumokat általában három-öt évvel az első után vették fel. Ez a gyakorlat az 1990-es évek elején és közepén volt a legelterjedtebb, amikor az ISA-hoz adott rekordok száma minden aktualizáláskor irigylésre méltóan kerek volt (10.20. ábra), bár ez nem mindig érte el a havi 800-900 rekordnyi mennyiséget, amit az adatbázis korábbi készítője, az IFI/Plenum ígért.

10.19. ábra: A duplikátumok ciklikus mintája az ISA adatbázisban

A duplikált rekord párok deszkriptorainak elemzése kisebb mértékű következetességet mutat, mint amit korábban Sievert és Andrews (1991) tapasztalt. Ez érvényes a széles tárgyi kategóriákra is, ahogy azt a mintarekordok illusztrálják. Figyelembe véve, hogy tárgyi kategóriáknak és alkategóriáknak csak 170 kódja van, s nem változtak abban az időszakban, amikor a legnagyobb mértékű volt a duplikátumok hozzáadása, szokatlanul magas szintűnek látszik a következetlenség. Ez egyrészt megmagyarázhatja azt, hogy az, aki hosszú időn keresztül az ISA szerkesztője volt, miért nem tudott a duplikátum tételek mennyiségéről és szívósságáról, s ez arra ösztönözte, hogy kijelentse, 1986-tól nem adtak duplikátum tételeket az adatbázishoz (Allcock 1997).

10.20. ábra: Az aktualizálás rekordjainak tökéletesen kerek száma az ISA adatbázisban

Valóban, a duplikátumok különböző részekben jelentek meg (azaz nem libasorban jöttek ugyanabban a kategóriában), s ez nem könnyítette meg az olvasók és a szerkesztő számára, hogy észrevegyék ezt a problémát a nyomtatott változatban, amely a tételeket széles tárgyi kategóriák alá rendezi. A probléma másik része az, hogy az előfizetők sem panaszkodtak a duplikátumok miatt, mivel leginkább a referáló és indexelő folyóirat meghatározott részeit nézik meg, s nem olvassák végig A-tól Z-ig.

Az adatbázis új vezetése megígérte, hogy az ISA "erőteljes tisztítási folyamaton" fog keresztülmenni, s ebbe beletartozik a duplikátum rekordok eltávolítása is. Ezt az erőteljességet növelte az a tény, hogy az, aki az IFI/Plenum régebbi vezető technikai szerkesztője ISA ügyekben, csatlakozott az új tulajdonos szervezetéhez, s kétségtelenül hidat jelent a régi és új ISA között. Duplikátumok ezreinek törlése időigényesebb folyamat, mint az adatbázishoz való hozzáadásuk volt.

Az erőfeszítések ellenére még mindig vannak duplikátumok, s újak is felbukkannak. Bár ez nem jó az ügyfelek számára, jó a kutatóknak, akik tárgyi indexelésen túl vizsgálhatják az indexelés következetességének egyéb szempontjait is. Ugyanakkor azonban a kutatóknak óvatosnak kell lenniük az ISA-ból visszakeresett adatok bibliometriai magyarázatával, amikor a kiadási és tematikus trendeket vizsgálják, egészen addig, amíg az összes duplikátumot el nem távolítják.

10.21. ábra: A széles tárgyi kategóriák következetlen meghatározása az ISA duplikátumaiban.