2. Az adatbázisok tartalma elemzésének szempontjai

Az adatbázisokat számos szempont szerint lehet értékelni. Az adatbázist először interfészén és keresőgépen keresztül észleljük. A leginformatívabb, legmegbízhatóbb és legpontosabb adatbázis sem lehet sikeres, ha szoftver-összetevője nem intuitív és felhasználóbarát. A súgó informatívsága, valamint a használók számára készült útmutatók minősége szintén szerepet játszhat az adatbázisok értékelésében. A szempontok másik csoportja a teljesítmény értékeléséhez kapcsolódik, mint például az átlagos válaszadási idő.

Ez a könyv nem foglalkozik ezekkel a szoftver kérdésekkel, bár kétségtelenül hatásuk van arra, hogyan ítélik meg az adatbázis tartalmát. Például a keresőszoftver indexböngészési képességei több esélyt ad a használónak, hogy képet kapjon az adatbázisról. Ha az adatbázisnak szokatlan, következetlen vagy elírt tárgyszavai vannak, de A szolgáltatás lehetővé teszi a böngészést használói számára, míg B nem, valószínű, hogy az A szolgáltatás adatbázisa jobb értékelést kap, mert az elírt kifejezések felismerhetők a használók számára böngészés közben. Kevésbé frusztráló látni, mennyi elírt változata van a psychopharmacology tárgyszónak a Mental Health Abstracts (MHA) adatbázisban (2.1 ábra), mint nem jutni hozzá fontos rekordokhoz vagy megpróbálni kitalálni az összes lehetséges elírt változatot egy olyan mezőben, amelynek a feltételezések szerint minden adatbázisban szigorú egységesítettnek kellene lennie. Az index megtekintésének lehetősége nélkül az összes elírás megtalálása olyan, mintha egy fekete gyűrűt próbálnánk megtalálni egy sötét alagútban egy hold nélküli éjszakán. Ha a szoftver azt is lehetővé teszi, hogy az indexből egyszerre több fogalmat is kiválasszunk, a használó legalább jobban érezheti magát attól, hogy egy csapásra kiválaszthatja az országnevek összes variációját és pontatlan formáját az Information Science Abstractsből (ISA) (2.2. ábra). Az ISA DOS-os változatának szegény használói tájékozatlanok maradnak ezen adatbázis ország és nyelvi mezőinek sok pontatlanságáról és következetlenségéről, mert ezek az indexek nem böngészhetők.

Nagyítás

2.1. ábra: A deszkriptorok nagymértékű elírása az MHA adatbázisban.

Nagyítás

2.2. ábra: Több indextétel kiválasztása egyszerre az Information Science Abstractsből.

Az adatbázisok egyes hibáiért kompenzációt nyújtanak olyan keresési lehetőségek, mint például a keresési fogalom csonkolása, amely lehetővé teszi a különböző végződésű variációk és elírt formák visszakeresését. A szabadalomtulajdonosok nevének következetlen helyesírási formáit az ISA adatbázisban (2.3 ábra) viszonylag könnyű megtalálni egy csapásra az utolsó közös karakternél csonkolva, mint például PA=MITSUBISHI?. Ez a csonkolás természetesen nem segít visszakeresni azokat a rekordokat, amelyekben egy szó elején van elírás, mint például a Mistibushi, Misubishi, Mitshubishi erre a cégre ebben az adatbázisban.


Az adatbázisok értékelésének folyamata

Ez a könyv az adatbázisok tartalmának mennyiségi és minőségi összetevőire koncentrál. Az adatbázisok tartalmának szisztematikus értékelése az egyik alapvető tevékenység az adatbázisok minőségének értékeléséhez. Bár bizonyos benyomásokat eseti használat során is lehet szerezni az adatbázisról, helyes döntést arról, hogy kiválasszunk egy adatbázist egy másik rovására, vagy válasszunk egy adatbázis különböző változatai közül, csak tényekre és kézzelfogható adatokra szabad alapozni. Ezeket a fájl-előállítók vagy az adatbázis-kiadók nem feltétlenül közlik maguktól.

Nagyítás

2.3. ábra: Részlet az ISA szabadalomtulajdonosi indexéből.

Az adatbázisok tartalmának elemzése szükségessé teszi tesztek, kísérletek, elemzések és egyéb kutatási műveletek és módszerek sorát. Ezek segítenek megerősíteni a fájl előállítóinak pontatlanul megfogalmazott állításait az adatbázis tárgyával, összetételével, lefedettségével, időhatáraival és frissességével kapcsolatban, valamint az adatbázisokat alkotó rekordok adatelemeinek pontosságáról, következetességéről és teljességéről.

A tartalom elemzése akkor kezdődik, amikor a forrásdokumentumok kiadói feltehetőleg korrigált, hiba nélküli információt adnak át a referáló és indexelő szolgáltatásnak vagy - teljes szövegű adatbázisok esetében - közvetlenül az adatbázis-kiadónak. Akkor végződik, amikor a közvetítők vagy a végfelhasználók megvizsgálják a keresés eredményét. A két pont között sok potenciális problématerület van, amely az értékelést indokolttá teszi. Williams (1990) kimutatta, hogy az adatok minősége bárhol befolyásolható lehet az információ létrejöttétől az adatbázis használatáig terjedő láncolatban. Figyelmeztet arra, hogy bár érték adódik hozzá a szerzőtől vagy alkotótól kezdve a végfelhasználóig, annak is megvan a lehetősége, hogy bekerüljenek hibák a végrehajtás, kihagyás, újrarendezés vagy kiemelés során.

Nem biztató látni, hogy a fájlok előállítóinak és kiadóinak milyen lovagi attitűdje van az adatbázisok tartalmának minőségével kapcsolatban, ahogyan a jogi nyilatkozatok pajzsa mögé bújnak. Online szolgáltatások használatára vonatkozó kikötéseket és feltételeket vizsgálva Tenopir (1995, 122.) arra a következtetésre jutott, hogy nyelvezetük "azt sugallja, hogy senki sem felelős a tartalom minőségéért". Valóban, a Dun & Bradstreet adatbázis DIALOG-os változatának felelősség-elhárítási nyilatkozata (2.4. ábra) úgy hangzik, mint azok a nyilatkozatok, amelyeket a fogságba esett katonáknak kell tenniük píárra éhes országok tv kamerái előtt. Sok fájlelőállító és adatbázis-készítő esküszik a minőség iránti elkötelezettségére, s nyomatékosan ígérnek olyan akciókat, amelyeket sohasem teljesítenek, de termékeikhez kapcsolt jogi nyilatkozatok nem erősítik meg ezeket az ígéreteket. Bizonyos mértékig érthető, mert a fájlkészítőknek és az adatbázis-kiadóknak következmények nélkül sikerül megúszniuk a gondatlanságot és a félrevezető állításokat, amelyek sok szakmában a káros gyakorlat és a megtévesztő hirdetések miatti büntetésekhez vezethetnek.

Nagyítás

2.4. ábra: A Dun & Bradstreet adatbázis felelősség elhárítási nyilatkozata.

Elég sokat mond másik oldalról, hogy sok weben született adatbázisnál található olyan szembetűnő kérés, hogy a használók tudassák az adatbázis kiadójával, ha hibát találtak az adatbázisban (2.5. ábra), sok még olyan ugrópontot is tartalmaz, amelyen keresztül a használók közvetlenül kapcsolatba kerülhetnek velük. Ez az, amit Mintz (1990) javasolt 1990-ben, amikor azt kérte az adatbázis-kiadóktól, hogy vezessenek be "Fixit" (javítsd meg) parancsot, amely közvetlenül a keresési folyamatból működik. A NewsNet volt az egyetlen - ma már sajnálatra méltóan megszűnt - online szolgáltatás, amely ezt megvalósította. E könyv szerzőjének az adatbázisok címkézésének bevezetésére vonatkozó javaslatát, amely hasonló ahhoz, amit a Food and Drug Administration megkövetel az élelmiszereken (Jacsó 1993a) sehol sem valósították meg a hagyományos fájlelőállítók vagy adatbázis-készítők. Érdekes, hogy egyes weben született adatbázisok, mint az Internet Movie Database, az All-Movie-Guide és a Computer Science Bibliography közölnek statisztikai információkat, amelyek hasonlóak a javasolt címkéhez (2.6. ábra).

Quinn (1995) kimutatta, hogy a közvetítők és hivatásos keresők az adatbázis-ipar végső ellenőrző csapatát képezik. Hasonlóan fontos, hogy ők azok, akik tanácsokat adnak a többi hivatásos kereső számára az adatbázisok súlyos hiányosságait bemutató jelentéseikkel, ahogyan Pagell (1987), Orenstein (1989, 1993) és Mintz (1995) tették ezt emlékezetes cikkeikben vagy Basch, Bates, Ojala, Quint, Tenopir és a könyv szerzője teszik ezt rendszeres szerkesztőségi cikkeikben és rovataikban. Bár ezek az adatbázis-kritikák, kommentárok, az adatbázisokat dicsérő vagy lehúzó írások nem jutnak el az alkalmi végfelhasználókhoz, némi visszajelzést nyújtanak a fájlok előállítói és az adatbázisok kiadói számára. Ők viszonzásul időnként figyelembe veszik az ajánlásokat, és vagy fejlesztik termékeiket (ez volt a helyzet az Economic Literature Index esetében), eltávolítják a kritizált adatbázist (ahogy a DIALOG tette ezt a klinikai halál állapotában levő Political Science adatbázissal), vagy megszüntetik a megállapodást az eredeti fájlelőállítóval (ez volt az eset az IFI/Plenum Data Corporationnel, amely korábban készítette az ISA adatbázist a Documentation Abstracts, Inc. számára, amely felbontotta a velük kötött megállapodást, miután megkapta e könyv szerzőjének az adatbázist értékelő jelentését.

Nagyítás

Ennek az oldalnak a hibáit és hiányosságait jelenteni lehet az IMDb szerkesztőinek megnyomva a lenti gombot, ahol ezeket megvizsgáljuk, s ha elfogadjuk, a jövőbeni aktualizáláskor szerepeltetjük.

2.5. ábra: Közvetlen ugrópont a hiba jelzésére az Internet Movie Database-ből.

Nagyítás

2.6. ábra: Adatbázis statisztika a Computer Science Bibliography adatbázisban (részlet)


A tartalom elemzésének története és szakirodalma

Azzal, hogy a web válik a világ legnagyobb olyan helyévé, ahol a szerzők költségén jelentetik meg a műveket, megnőtt az érdeklődés, ha nem is a tartalom elemzése, de legalább az iránt, hogy tanácsokat adjanak a használóknak a weben született adatbázisok veszélyeiről. Sokan szüntelenül figyelmeztetnek annak veszélyeire, milyen megbízhatatlan, pontatlan, elavult, nem teljes információk keringenek a weben. Úgy tűnik, kevesen tudják azt, hogy ezek a veszélyek leselkednek a szakmai adatbázisokban és elődeikben - a nyomtatott referáló és indexelő kiadványokban és a címjegyzékekben - évtizedek óta. Még kevesebben látszanak tudni, kik és milyen folyóiratokban, magazinokban, konferenciakötetekben publikáltak ezeknek a forrásoknak az értékeléséről. Legtöbbjük csupán felböfögi a klisészerű figyelmeztetéseket, jobb esetben némi anekdotikus adalékkal fűszerezik. Egy alkalommal egy szerző szóvá tette a korábbi irodalom hiányát, annak ellenére, hogy cikkek bőséges számban tárgyalták a problémát. Hurst (1999) könyvében kijelentette, hogy "a legnagyobb felfedezésünk [sic], amit tudomásunk szerint egyetlen információtudományi vagy könyvtári publikáció sem tárgyalt, hogy gyakran többéves hiányok vannak a feltárt anyagban."

Könyvünk 5. fejezetében, amely a folyóiratok feltártságának mértékével foglalkozik, sok hivatkozás található olyan cikkekre és könyvekre, amelyek éppen ezt a kérdést tárgyalják, köztük Pagell (1987), Orenstein (1993), Grzeszkiewicz és Hawbaker (1996), Tenopir (1995) és Jacsó (1995, 1997a) írásai. Egy cikkében, amely nagyrészt 1999-es könyvéből való kivonat, de amelyből a "tudomásunk szerint" kifejezést kihagyta, Hurst (2000) megerősítette és kiszélesítette megállapítását, azt igyekezve bizonyítani, hogy "senki sem tiltakozott hangosan a következetlen folyóiratcímek, az indexelésből kihagyott évek miatt, sem azért, mert egy folyóiratból gyakran csak a fontosabb cikkeket dolgozzák fel, nem a teljes számot. "

A következetlen folyóiratcímeket már régóta élesen kritizálják olyan információs szakemberek, mint Williams és Lannom már 1981-ben, majd Tenopir (1997), LaGuardia (1991) a Philosopher's Index, Jacsó (1998b, 1999b) az Economic Literature Index és a Pascal esetében, Johnson (1999) és Jacsó (1999c) számos könyvtár- és információtudományi publikációban.

A valóság az, hogy sokat publikáltak már az adatbázisok tartalmának elemzéséről. Nem csupán a szerző megtisztelő feladata volt (1997), hogy az Annual Review of Information Science & Technologyban elismeréssel adózzon azok előtt, akik úttörők voltak az ilyen kutatásban. Ennek az is a célja volt, hogy háttérül szolgáljon mindazok számára, akik szeretnék megismerni ennek a kutatási területnek a mérföldköveit és legfontosabb részterületeit. Különösen fontos, hogy legalább elismerjük azokat, akiknek az elméleti és gyakorlati hozzájárulása a nyomtatott referáló és indexelő kiadványok korában és az online és CD-ROM adatbázisok úttörő napjaiban egyengette az utat és modellül szolgált az 1980-as és 1990-es évek során végzett hozzáértő elemzések számára.

Az adatbázisok tartalmát elemző mai tevékenységek többsége ezek nyomtatott formájú elődeinek értékeléséből származik. Goldberg (1992) hangsúlyozza azt, hogy "akár nyomtatott, akár számítógépes indexről van szó, sok gyakorlat és szabvány ugyanaz marad, és a nyomtatott indexekre vonatkozó értékelési szempontok hasonló módon alkalmazhatók a CD-ROM-okra is." Ez kiterjeszthető a könyvtári gyűjtemények, referáló és indexelő folyóiratok vagy különböző nyomtatott enciklopédiák értékelési útmutatóira (amelyeket Katz (1987), Lancaster (1979) és Kister (1986) klasszikus tankönyvei tartalmazzák), s amelyek könnyen adaptálhatók egy online szolgáltatás adatbázis-gyűjteményeire vagy egyes adatbázisokra. Ezeknek a munkáknak vannak újabb kiadásai, de az eredeti kiadásokra hivatkozom, hogy jelezzem, milyen messzire megy vissza a tartalom elemzése még monografikus művekben is.

Martyn és Slater (1964) cikke a referáló folyóiratok teszteléséről és Lancaster (1971) nagy hatású cikke az indexek és referáló folyóiratok értékeléséről ma is érvényes és alkalmazható maradt szekundér információs szolgáltatások elektronikus verzióira. A helyesírási hibák első nagymértékű elemzése, amelyet Bourne végzett 1977-ben, mit sem vesztett aktualitásából. A hivatkozásvizsgálatokkal foglalkozó, alapos és részletes szemléjében Smith (1981) arra figyelmeztetett, hogy a pontatlan hivatkozások hatással lehetnek hivatkozásvizsgálatokból levont következtetésekre, ez még igazabbnak hangzik ma, mint 15 évvel ezelőtt. Williams és Lannom (1981) ma is publikálhatná húszéves cikkét arról, hogy hiányzik a folyóiratcímek egységesítése az adatbázisokban, csak a statisztikáikat kellene aktualizálni, nem üzenetüket.

A referáló és indexelő szolgáltatások egyik klasszikus, kiterjedt vizsgálatában, amelyet Pauline Atherton Cochrane végzett a Physics Abstractset felhasználva, majd Stella Keenannel közösen megírta 1964-ben (Atherton Cochrane és Keenan, 1965), ma is modellként szolgálhat a hozzáértő, szakszerű értékelésre. Ez érvényes sok más ragyogó és megvilágító írásra, amelyek főszerepet játszottak abban, hogy könyvtárosságot választottam szakmámnak az 1970-es évek végén és az adatbázisok értékelését az 1980-as évek végén. Ennek a kutatásnak a történetét Atherton Cochrane felidézte a http://www.libsci.sc.edu/bob/ISP/cochrane2.htm címen.

Az adatgyűjtést az időbeli lemaradás és a kiadás helye közti kapcsolattal foglalkozó vizsgálathoz, amelyet Turtle és Robinson (1974) végzett el a Library and Information Science Abstractsre (LISA) és Library Literature-re vonatkozóan, nem segítették számítógépek, de módszertanuk, tömör és világos értékelésük, kritikai szemléletük példás bárki számára, aki ma az adatbázisok minőségével kapcsolatos kutatást végez, azok időszerűségére vonatkozóan. Ugyanez mondható el Tenopir (1982) kutatásáról, amelyet az adatbázisok által feltárt anyag elemzésének bibliográfiai és szakterületi módszereivel kapcsolatban végzett.

A japán információs hálózatra és tudományos és műszaki irodalom információs hálózatára és bibliográfiai ellenőrzésére vonatkozó, Gibson és Kunkel által 1980-ban végzett vizsgálat tartós érdeklődést keltett a japán folyóiratok, konferencia-előadások és szabadalmak feltártságának vizsgálatára. Ewbank (1982) az elsődlegesen faktografikus adatbázisok kiválasztására vonatkozó útmutatójában olyan iránymutatással szolgált, amely megjelenik kritériumként a mai értékelési ellenőrző listákon, mint a tárgy, teljesség, a feltárt források köre, pontosság, elérhetőség, a jelentés formátuma és a technikai támogatás. A piszkos adatok átfogó problémáját jelezte Norton (1981) és Pemberton (1983) az 1980-as évek elején.

Míg általában az adatbázisok, s a könyvtár- és információtudományi adatbázisok különösen sok kívánnivalót hagynak maguk után még ma is, értékelésük az 1960 és 1990 közötti időszakban példaadó modellt szolgáltat az átfogó jellegre, módszertanra és a következtetésre.

Gilchrist (1966), Goldstein (1973), Edwards (1976), Gilchrist és Presanis (1971), Dansey (1973), Bottle és Efthimiadis (1984), LaBorie, Halperin és White (1985) és Stieg és Atkinson (1988) cikkei voltak a legalaposabb tanulmányok az adatbázisok és nyomtatott formájú elődeik tartalmával kapcsolatban. Közülük több alkalmazott újszerű módszertant a mérési kritériumokra és/vagy az eredmények bemutatására vonatkozóan.

Viszonylag kevés olyan tanulmány készült, amely nagyszámú tesztkeresést, mintarekordok nagy halmazát vagy párhuzamos értékelési módszereket használt. Az egyik vizsgálatot az 1980-as évek elején a Drexel Egyetem információs tanulmányi tanszékének (College of Information Studies at Drexel University) munkatársai végezték, hogy értékeljék a MEDLINE által feltárt anyagot és az orvosi viselkedéstudományok szakirodalmát (Griffith et al. 1986). Ez a tanulmány modellként szolgált számos további, sokkal kisebb méretű vizsgálathoz. Sparck Jones és Van Rijsbergen (1976) kimutatta, hogy sok visszakeresési teszt nem meggyőző jellege a használt tesztgyűjtés elégtelen voltának tulajdonítható, elsődlegesen a visszakeresési kísérleteknek megfelelő méretű fájl hiányának. Pao (1989) 48, a teszteknél használt adathalmazt vizsgált meg, és úgy találta, hogy 41 tartalmazott 5000-nél kevesebb tételt, 17-ben volt még 500-nál is kevesebb. Sajnálatos módon kevés vizsgálat alkalmazta az adatbázisok értékelésére a szakterületi profil és a bibliográfia szerinti megközelítés párhuzamos módszerét, amelyet Tenopir (1982) tesztelt és hasonlított össze a GeoRef és a GeoArchive adatbázisokat használva céladatbázisként.

Sok adatbázis CD-ROM-on való elérhetősége két okból is új horizontot nyitott a tartalom elemzéséhez. A CD-ROM adatbázisok megváltoztathatatlan tartalma lehetővé teszi a kutatók számára, hogy korábbi kereséseket reprodukáljanak az eredmények igazolásához, vagy különböző teszteket végezhessenek el ugyanabban az adatbázisban, időről időre egy változót módosítva. Az, hogy az adatbázisokat korlátlanul lehet használni fix licencdíjért, lehetővé teszi a kutatók számára, hogy reprodukáljanak kereséseket az eredmények igazolására, s kiterjesszék elemzésüket az egész adatbázisra - ez egy olyan lehetőség, amely online rendszerekben ritkán megvalósítható (Jacsó 1992a). A kicsi, nem reprezentatív minták problémáját valamennyire legyőzte a számítógépes szoftverek elérhetősége, amelyek képesek megfelelő nagyságú, jól kiválasztott minták feldolgozására. A lehetőségek ellenére egy adatbázis rekordjai teljes populációjának teljes körű elemzése (ahogy azt Hood és Wilson végezte ragyogóan 1994-ben a LISA CD-ROM-változatára vonatkozóan) még mindig nem tipikus jelenség.

Az adatbázisok minősége iránti megnövekedett érdeklődés részben annak köszönhető, hogy a géppel olvasható adatbázisok kényelmes célpontot jelentenek az értékelés számára, az adatbázissal együtt kapott keresőszoftverek maguk is gyakran hatékony eszközei lehetnek az értékelésnek. Ezek jelentős mértékben csökkentik a nagy minták elemzésének unalmas munkáját. A CD-ROM technika bevezetése még jobban felszította az érdeklődést. A CD-ROM-os licencszerződések általában nem a végtelenségig szólnak, hanem rövid távú elkötelezettségek előfizetés formájában. Ez a könyvtárosokat és az információs szakembereket még inkább hajlamossá teszi arra, hogy többet tudjanak meg ezekről az elektronikus információs forrásokról, s átgondolják választásukat az adatbázis tartalmának elemzése alapján.

Az ingyenes webes adatbázisok kiváló lehetőséget kínálnak arra, hogy a keresők megvizsgálják azok tartalmát. Szoftverük és adatszerkezetük azonban kevésbé mutatkoznak meg értékelő keresések számára, mint a hagyományos online és CD-ROM-os információforrásoknál. Például a weben született adatbázisoknak sokszor nincsenek böngészhető, mezőspecifikus indexeik, amelyek segítenének felderíteni az adatelemek pontosságát és következetességét, s általában nincs olyan adatelem, amely jelezné, mikor adtak új rekordokat az adatbázishoz, ahogy az a DIALOG, az Ovid és a SilverPlatter adatbázisainak legtöbb rekordja esetében megtörténik. Lehetséges, hogy a szoftvernek nincsenek olyan vonásai, amellyel meghatározható például a rekordok teljes száma az adatbázisban. Ezen korlátok ellenére jobb és sokkal hatékonyabb lehetőségek vannak a tartalom elemzésére, mint egykor nyomtatott kiadványok esetében, amelyek hatalmas mennyiségű munkát követeltek.




Hátra Kezdőlap Előre