Fejezet TOC
Könyv TOC
Címlap

A képalapú digitalizálás elmélete és gyakorlata a könyvtárakban

1. A digitalizálás elmélete


Tartalom

1. A digitalizálás elmélete

1.1 A digitalizálási munkafolyamat közgyűjteményi munkakörnyezetben

1.1.1 A digitalizálás céljai

1.1.1.1 Speciális gyűjteményrész digitalizálása
1.1.1.2 On demand digitalizálás
1.1.1.3 Migrációs digitalizálás
1.1.1.4 Állományvédelmi, állományoptimalizálási célú digitalizálás

1.1.2 Stratégia

1.2. A digitalizálási folyamat előkészítése

1.2.1 A digitalizálási folyamat tárgya

1.2.1.1 Szelekció
1.2.1.1.1 Kellően releváns tartalmat képvisel-e az adott dokumentum vagy dokumentum-halmaz?
1.2.1.1.2 Létezik-e már digitalizált változat az adott tartalomból?
1.2.1.1.3 Van-e jogunk az adott tartalom digitalizálására?
1.2.1.2 Az digitalizálandó objektumok állapota
1.2.1.2.1 Sérült, illetve hiányos dokumentumok
1.2.1.2.2 Rendhagyó formájú dokumentumok
1.2.1.3 Kollacionálás

1.2.2 A digitalizálási folyamat kimenete

1.2.2.1 A kimenet mint produktum
1.2.2.2 A kimenet mint adat

1.2.3 A digitalizálási folyamat terjedelme

1.2.3.1 Időtartam
1.2.3.2 Egyéb terjedelem

1.2.4 A digitalizálási folyamat erőforrás-igénye

1.2.5 A digitalizálási folyamat módszertana

1.2.5.1 Minőségellenőrzés

1.2.6 A digitalizálási folyamat fenntarthatósága

1.2.6.1 A fenntarthatóság kihívásai
1.2.6.2 Hosszú távú digitális megőrzés
1.2.6.2.1 A fizikai infrastruktúra veszélyeztetettsége
1.2.6.2.2 A fizikai infrastruktúra megoldásai

1.2.6.2.2.1 Optikai lemezek

1.2.6.2.2.2 Merevlemezek

1.2.6.2.2.3 Mágnesszalag

1.2.6.2.2.4 Cserélhető lemezek

1.2.6.2.2.5 Hálózati tárolók

1.2.6.2.3 A virtuális infrastruktúra veszélyeztetettsége
1.2.6.2.4 A virtuális infrastruktúra megoldásai: szoftverkörnyezet

1.2.6.2.4.1 Létrehozó és a folyamatot működtető operációs rendszer

1.2.6.2.4.2 Tároló fájlrendszer

1.2.6.2.4.3 Archiváló formátum

1.2.6.2.4.4 Formátumok kezelése

1.3 A digitális gyűjtemény

1.3.1 A digitális objektum

1.3.2 A digitális gyűjtemény alkotóelemei

1.3.2.1 MASTER
1.3.2.1.1 Milyen a megfelelő master kép?

1.3.2.1.1.1 Részletgazdagság

1.3.2.1.1.2 Redundancia

1.3.2.2 Szurrogátum
1.3.2.3 Legacy
1.3.2.4 A digitális objektumok formátumai
1.3.2.4.1 Képi fájlformátumok

1.3.2.4.1.1 TIFF (Tagged Image Format)

1.3.2.4.1.2 RAW

1.3.2.4.1.3 JPEG

1.3.2.4.1.4 JPEG 2000

1.3.2.4.1.5 PNG

1.3.2.4.2 Metaformátumok

1.3.2.4.2.1 PDF

1.3.2.4.2.1.1 A PDF mint prezentációs formátum

1.3.2.4.2.1.2 A digitális facsimile

1.3.2.4.2.1.3 A PDF mint archiváló formátum

1.3.2.4.2.1.4 A PDF mint beviteli formátum

1.3.2.4.2.2 DjVu

1.3.2.4.3 A fájlformátumok validitása

1.3.2.4.3.1 JHOVE

1.3.2.4.3.2 PRONOM

1.3.3 Metaadatok

1.3.3.1 A metaadatok jellemzése a funkcionalitás szempontjából
1.3.3.1.1 Leíró metaadatok
1.3.3.1.2 Technikai metaadatok
1.3.3.1.3 Strukturális metaadatok
1.3.3.2 A metaadatok lehetséges forrásai
1.3.3.2.1 Implicit (belső) metaadatok
1.3.3.2.2 Explicit (külső) metaadatok
1.3.3.3 A metaadatok helye a leírt objektumhoz viszonyítva
1.3.3.3.1 Beágyazott metaadatok
1.3.3.3.2 Hozzáfűzött metaadatok
1.3.3.4 A metaadatok lehetséges adatformátumai
1.3.3.4.1 Nem strukturált metaadatok
1.3.3.4.2 Adatsémák
1.3.3.5 Szemantikus modellek, ontológiák
1.3.3.6 Migrációs platformok
1.3.3.7 A képi digitalizálási folyamatok szempontjából könyvtári területen ajánlott adatsémák
1.3.3.7.1 Seeing Standards
1.3.3.7.2 Dublin Core
1.3.3.7.3 VRA
1.3.3.7.4 SEPIADES
1.3.3.7.5 MARC
1.3.3.7.6 FRBR
1.3.3.7.7 A digitális megőrzés környezeteihez definiált adatsémák (NISO, PREMIS)
1.3.3.7.8 METS
1.3.3.7.9 Beágyazott képi metaadatok: EXIF, IPTC, XMP

1.3.3.7.9.1 EXIF

1.3.3.7.9.2 IPTC

1.3.3.7.9.3 XMP

1.3.4 A digitális gyűjtemény mint rendszer (DAM)

1.3.4.1 OAIS
1.3.4.2 Digitális gyűjteménykezelő rendszerek
1.3.4.2.1 Nemzetközi téren elterjedt eszközök
1.3.4.2.2 Hazai eszközök

1.3.4.2.2.1 JaDoX

1.3.5 Befejezés


1. A digitalizálás elmélete

1.1 A digitalizálási munkafolyamat közgyűjteményi munkakörnyezetben

Napjainkban evidenciaként kezeljük azt a megállapítást, hogy a digitalizálás, illetve a digitális objektumok kezelése az alapvető munkafolyamatok részévé vált a közgyűjteményekben. Ez az állítás azonban többféle helyzetre utalhat: arra is, ha egy adott közgyűjtemény alkalmanként végez digitalizálási feladatokat – vagy részfeladatokat –, illetve arra is, ha teljes, a tervezéstől kezdve a célobjektumokról való hosszú távú gondoskodásig terjedő, rendszeres és szabályozott folyamatok zajlanak az adott munkakörnyezetbe ágyazódva. Az optimális eset természetesen az utóbbi.

A digitalizálási folyamat – a közgyűjteményi közegben – nem egyenlő az analóg eredetiről való digitális kópiák elkészítésével, és az elkészült digitális anyag egyetlen célformátumban való disztribúciójával vagy tárolásával. Az ilyen folyamat előfordulhat a mindennapi életben, amikor is például a családi fotográfiákat visszük számítógépre; illetve piaci környezetben, amely esetben az elérendő cél a kereskedelmi forgalomban értékesített digitális termék. Ezekben a szituációkban elegendő – ha nem is mindig ideális – egyszerűen a reprodukció folyamatával foglalkozni. Ezen felül a példaként említett helyzetekben előfordulhat, hogy a digitalizálás után az eredeti állomány további fenntartására már nincs szükség, illetve a digitális formátum is csak a célban meghatározott formában őrződik meg. Ez a két eshetőség a közgyűjteményi kontextusban nem kívánatos.

A digitalizálási folyamat komplexitásának megértéséhez jó kiindulópont a célok áttekintése. Kizárólag a digitális változatok létrejötte érdekében folytatott digitalizálásnak csak egyetlen esetben van értelme: a tényleges munkát megelőző felkészülés során, azaz a rendelkezésre álló eszközök kipróbálásánál, illetve közreműködő munkaerő betanítása során. Az így keletkező digitális állomány hosszú távú megőrzésétől általában eltekinthetünk. Minden egyéb esetben azonban fontos, hogy a digitalizálási feladatnak legyen jól behatárolt funkciója, és kellően releváns legyen az intézményi célok rendszerében, beágyazódjon az felvázolt stratégiába.

A digitalizálási munkák céljának meghatározása mellett nem kerülhető el a következő tényezők meghatározása:

Az itt felsorolt tényezők mindegyikére ki fogunk térni, előtte azonban tekintsük át azokat a jellemző célokat, amelyek a közgyűjteményi digitalizálást szolgálhatják.

1.1.1 A digitalizálás céljai

Célokról kétféle értelmezésben beszélhetünk a témánk kapcsán. Egyrészt megfogalmazhatunk olyan általános előnyöket, amelyek a digitalizálás által elérhetővé válnak, és ezáltal indokolttá teszik, hogy az elméleti célt valamilyen módon gyakorlatba ültessük.

Az elméleti célok általában a következők:

Ezek a célok első látásra nagyon könnyen igazolhatók, és azt gondolhatnánk, hogy egyszerű ezeket minden gyűjtemény általános célképzetének tekinteni. Jobban átgondolva azonban beláthatjuk, hogy – ha csak a könyvtári gyűjtemények világában gondolkozunk – komoly tervezésre és döntések hosszú sorára van szükség annak felvázolásához, hogy az egyes gyűjteményrészek, illetve különböző típusú dokumentumok vonatkozásában milyen mélységig érdemes ezeket a célokat követni. Ugyanilyen tudatos megközelítést igényel annak felmérése, hogy az előbb említett motívumok esetében milyen különböző módszertanokat kell alkalmaznunk. Nem biztos például, hogy szükség lesz egy gyorsan avuló tartalmú, kurrens dokumentum digitális szolgáltatására, és ugyanígy nem biztos, hogy ugyanolyan eljárással tesszük elérhetővé a kereshető információkat egy szöveges állományban, mint például a térképekben. Az elméleti célok tehát a digitalizálási folyamat tervezésénél egy-egy lépés döntési csomópontjait képezik majd.

A célok másik dimenziója nem annyira a felhasználás, hanem a folyamat egészének gyakorlati funkcionalitása szempontjából írható le. Ebben az esetben a digitalizálásra úgy gondolunk, mint egy bizonyos típusú feladatsorra, amelynek jól körülhatárolt dimenziói vannak.

A jelenlegi szakmai közegben a következő csoportosítással jellemezhetjük a digitalizálási folyamatokat:

1.1.1.1 Speciális gyűjteményrész digitalizálása

Ebben az esetben egy adott szempont szerint meghatározott, általában kisebb dokumentumhalmaz digitalizálásáról van szó. Az említett szempont leggyakrabban a digitalizálandó anyag unikális volta, ritkasága, sérülékenysége, illetve relatív fontossága a gyűjtemény egészéhez képest. Ilyen állományrészek például a régi, illetve ősnyomtatványok, cimélia-anyag, kéziratgyűjtemények, regionális feladatkörű intézményeknél a speciális helytörténeti gyűjtemények, vagy tipológiailag elkülönülő dokumentumok.

Egyelőre ez a digitalizálási projektek leggyakrabban előforduló fajtája a hazai könyvtári világban. Előnye, hogy viszonylag kis költségvetéssel, szerény infrastruktúrával is lebonyolítható. Hátránya éppen ebből fakad: az ilyen projektek esetén gyakran az eszközök határozzák meg a célt: a rendelkezésre álló erőforrásokhoz igazodva jelölik ki a munka tárgyát, ezáltal esetenként öncélúvá téve azt. Digitalizáló berendezések beszerzése esetén általában minden gyűjtemény belevág egy-egy ilyen feladatba. Az ilyen kis léptékű projektek veszélye az, hogy a feladat kis terjedelme, könnyű áttekinthetősége miatt nem születnek tervek a hosszú távú fenntarthatóságra nézve, illetve nem készül szabályozott módszertani útmutató. Előfordulhat, hogy ugyanaz az ágens a következő projektet egészen más paraméterekkel fogja elvégezni, és ez felesleges formai heterogenitáshoz vezet majd a digitális gyűjteményen belül.

Az ilyen jellegű digitalizálás természeten nem kerülendő út, ha a nagyobb léptékű projektekhez hasonlóan jól dokumentált, és fenntarthatósága biztosított.

1.1.1.2 On demand digitalizálás

Az „on demand” kifejezés azt jelenti, hogy „igény szerinti”. Ebben az esetben a digitalizálás tárgyát és terjedelmét a felhasználói igények határozzák meg. Ilyen például az az egyre jobban terjedő szolgáltatástípus, amelynek keretében az olvasó digitális másolatot rendelhet a gyűjtemény egyes szegmenseiből.

Ez a feladat a hosszú távú megőrzés szempontjából kevéssé szerencsés, hiszen a szolgáltató gyűjteménynek kevés befolyása van arra nézve, hogy mely műveket, milyen mélységig fog digitalizálni.

Egy ilyen jellegű folyamat üzemben tartásához azonban nem kerülhető el a projekt alapos technikai tervezése és a sokoldalú infrastruktúra kiépítése, mivel valószínűleg sokféle dokumentumból kell majd azonos színvonalú digitális változatot készíteni. Az ilyen feladat nagyban hozzájárulhat a tudatos és rögzített módszertani elvek lefektetéséhez és a formai egységességhez. A digitalizált anyag nyilvántartásához elengedhetetlen lesz továbbá a viszonylag részletes metaadat-rögzítés és digitális objektum-kezelő eszköz bevezetése.

1.1.1.3 Migrációs digitalizálás

A nagyobb léptékű projektekre általában ez a funkció a legjellemzőbb. Ennek a célnak az a lényege, hogy nagyobb – esetleg teljes – gyűjteményrészeket, esetenként egyéb szelekciós szempontok mellőzésével, módszeres digitalizálásnak vetnek alá, s ezzel a teljesség igényét közelítő digitális gyűjteményeket hoznak létre. Ilyen például, amikor egy könyvtár digitalizálja teljes hírlapállományát vagy képeslapgyűjteményét.

A migráció fogalma ez esetben több jelentéssel bír. Egyrészt a célzott tartalom formátumot vált, ezért az analóg gyűjteményből átköltözik a digitális gyűjteménybe. Másrészt az ilyen léptékű projektek intézményközi erőfeszítéssel, illetve ernyőszervezetek által létrehozott és üzemeltetett metagyűjteményekbe költöznek, amelyek egységes formai jellemzőkkel, közös gyűjteménykezelő rendszer segítségével hasznosítják az elkészült digitális tartalmat.

1.1.1.4 Állományvédelmi, állományoptimalizálási célú digitalizálás

Az állományvédelem mint a digitalizálás indoka népszerű, de gyakran túlértékelt elképzelés. Könyvtári dokumentumoknál a digitalizálás elvárási horizontja mindig egyfajta ésszerű kompromisszum, közelítőleg egységes konvenció, amely nagyjából összefoglalja, hogy mik az elvárásaink a digitális változatokkal szemben. Lehetséges azonban, hogy a jövőbeli technológiai megoldások mélyebb vagy más digitalizálási paramétereket követelnek majd a tartalom hatékonyabb használatát lehetővé tevő megoldásokhoz. Azt sem tudhatjuk biztosan, hogy a felhasználás technológiai igényeit meddig elégíti ki a képi alapú, két dimenziós bevitel.

Szakirodalom:

A hosszú távú digitális megőrzés módszertani és technikai eszközei mostanában terjednek, párhuzamosan a megőrzés irányában mutatkozó növekvő tudatossággal. Nemzetközi színtéren számos ajánlás és technikai szabvány érhető el, de országos tekintetben csak most látszik körvonalazódni a teljes munkafolyamatot felölelő egységesítés terve. A megőrzés technikai apparátusa terén még nagyobbak a hiányosságok: a megbízható tárolókapacitást biztosító rendszerek nem mindenki számára ismertek, elérhetők, illetve megfizethetők. Végül pedig egészében nem rendelkezünk biztos prognózissal a jelenlegi digitális hordozók megbízhatóságát és tényleges élettartamát illetően. Ezek az eszközök még csak egy-két évtizede vannak jelen mindennapjainkban, paramétereik és a vonatkozó specifikációk nagyon gyorsan változnak, azaz gyorsabban annál, ahogy jelenleg a szakmai horizont fel tud zárkózni azokhoz. A digitalizálás mint állományvédelmi eszköz tehát még kidolgozás alatt álló, nem pedig kész megoldás.

Az állományvédelemhez hasonló, de annál könnyebben elérhető cél az adott állomány digitális kiegészítése. Ennek leggyakoribb példája, amikor egy gyűjteményegység vagy bibliográfiai egység részdokumentuma az adott gyűjteményben hiányos, sérült, vagy más okból nem elérhető. Ilyenkor ajánlott a teljes egység digitális reprodukciója, akár külső forrásokból, annak érdekében, hogy bibliográfiailag teljes dokumentumokat tudjunk szolgáltatni. Ez történik például, amikor egy időszaki kiadvány egyes számai különböző gyűjteményekben érhetők el, és az egyes gyűjteménytöredékek digitalizálásával egy bibliográfiailag teljes példány rekonstrukciója készül el.

Példák:

1.1.2 Stratégia

Ha intézményünk a digitalizálásban gondolkozik, akkor célszerű a fenti funkciók behelyettesítésével megvizsgálni, hogy mi valósítható meg az elméleti célok közül. Egyetlen digitális másolatot sem érdemes készíteni, amíg nem tudjuk, hogy milyen közegben, milyen formában fogjuk elhelyezni, használni és megőrizni a digitalizálás produktumait.

Az Európai Bizottság vonatkozó állásfoglalását és az uniós helyzetképet (2008-as adatokkal) az alábbi dokumentumokban olvashatjuk:

Az elméleti célok áttekintése után rátérünk a digitalizálási projekt előkészítésének módszertanára.

1.2. A digitalizálási folyamat előkészítése

1.2.1 A digitalizálási folyamat tárgya

A digitalizálás tervezésénél az egyik legfontosabb kérdés az, hogy mit digitalizáljunk. Sok esetben ez a döntés megelőz minden egyéb kérdést, és a munkafolyamat valamennyi további paramétere (források biztosítása, infrastruktúra kiépítése) ehhez igazodik – ez általában a speciális gyűjteményrészeket célzó digitalizálási projekteket jellemzi.

Tágabb perspektívában gondolkozva egy intézmény tervezhet aszerint is, hogy milyen típusú dokumentumokat áll szándékában digitalizálni a belátható jövőben, és – a lehetőségekhez képest – mindegyik eshetőséget beépítheti a gyakorlatba.

Könyvtári környezetben a képi alapú digitalizálás általában a következő dokumentumtípusok esetében alkalmazható megoldás:

Bár ezek a típusok mind megfelelően digitalizálhatók képi alapon, az egyes csoportok kezelése között óriási különbségek lesznek. Egészen más munkamódszerrel digitalizáljuk például a képeslapokat, mint a nagyméretű síktérképeket. A digitalizálandó tartalom kiválasztásánál célszerű arra koncentrálni, hogy mely dokumentumtípusból áll rendelkezésre jelentős digitalizálandó állomány, illetve milyen típus digitalizálásához tudjuk megteremteni az erőforrásokat.

A digitalizálás tárgyának kiválasztása során az első lépés a kiválasztott – általában tipológiailag egységes – gyűjteményrészek azonosítása. Ezt követően, illetve ezzel párhuzamosan egyéb kritériumokat is figyelembe kell venni. Tegyük fel például, hogy egy országos feladatkörű könyvtár úgy dönt, hogy nyomtatott könyvanyagát fogja digitalizálni – ami hatalmas terjedelmű állományt jelent. Ilyenkor egyéb szempontok kerülnek elő, amelyek meghatározzák az egyes egységek sorsát a digitalizálási projekten belül.

A továbblépéshez a következő kérdések felvetése javasolt:

1.2.1.1 Szelekció
1.2.1.1.1 Kellően releváns tartalmat képvisel-e az adott dokumentum vagy dokumentum-halmaz?

Kurrens vagy gyorsan avuló tartalom esetén fel kell tenni ezt a kérdést. Előfordulhat, hogy az ilyen anyag dokumentációs, hivatali, illetve egyéb kötelezettségek okán digitalizálásra érdemes, de nem szabad elfelejteni, hogy korunkban a frissen publikált anyag általában digitális formában születik, például kiadványszerkesztő szoftverek segítségével. Ilyenkor a digitalizálás helyett ezeket a forrásfájlokat, vagy azok változatait kell megszerezni.

Előfordulhat az is, hogy az adott anyag tartalmilag irreleváns. Ez a digitalizálás szempontjából nehezen körülhatárolható szempont, hiszen a könyvtárak a digitális kor beköszöntéig minden publikált és nagyon sok nem publikált tartalmat gyűjtöttek, és általános szinten nem alkalmaztak minőségi kritériumokat. Ezt a kérdést inkább úgy lehet feltenni, hogy az adott tartalom mennyire illeszkedik az adott intézmény vagy digitalizálási projekt meghatározott profiljába. Egy orvostudományra szakosodott könyvtár például joggal tekint el az állományában található szépirodalom digitalizálásától, egy országos igényű hírlap-digitalizálási program pedig nem, vagy csak mellékesen kezeli majd az amatőr sajtó termékeit. Ez nem a tartalom értékére vonatkozó ítéletet jelent, csupán az adott digitalizálási folyamatra irányuló elvárásokhoz igazítja a kiválasztás szempontjait. Ezzel azt a tartalmat részesíti előnyben, amit az adott projekt végeredményében legnagyobb eséllyel keresnek majd a felhasználók.

1.2.1.1.2 Létezik-e már digitalizált változat az adott tartalomból?

A hazai digitalizálási gyakorlatban számottevő problémát okoznak a digitális duplumok, azaz ugyanazon dokumentumról különböző programok keretében készült digitális változatok. Ennek oka, hogy egyelőre kezdeti fázisban van a digitalizálási programok nyilvántartása, illetve a tervezési stádiumban lévő folyamatok összehangolása.

A digitális duplum alapvetően azt jelenti, hogy egy adott dokumentumról többféle digitális változat létezik. Jobban belegondolva azonban ez a magyarázat nem annyira egyértelmű. Egy modern nyomtatott könyvből vagy folyóiratból felesleges több digitális változatot készíteni, hiszen ezeknél a dokumentumoknál egyik példány – sőt gyakran egyik kiadás is – többnyire olyan, mint a másik, a különböző analóg példányok és verziók közötti egyéni különbségek nem relevánsak. Azonban egészen más a helyzet például a régi nyomtatványoknál, speciálisan annotált példányoknál és egyéb, más szempontból unikális eredeti objektumoknál. Itt a különböző gyűjtemények által készített digitális verziók nem redundánsak, mivel az egyes példányok közötti különbségek, vagy egy nagy tömegben megjelent dokumentum egyedi példányának kitüntetett jellegzetességei fontos információt jelenthetnek bizonyos tudományterületek számára. (Ilyenek lehetnek – többek között – a possessori bejegyzéssel, annotációval ellátott könyvek, illetve a szépirodalmi művek első kiadásai. Ezektől a kivételes példáktól eltekintve általában célszerű meggyőződni arról, hogy a kijelölt tartalom még nem érhető el digitális formában.) A digitális duplumok nem jelentenek komoly problémát egy-egy önálló mű tekintetében, de ha például egy hosszabb életű periodikumot – a koordináció, illetve ellenőrzés híján – több helyen digitalizálnak, az komoly felesleges erőfeszítést és így bosszúságot jelent.

A digitális duplumok feltárásába az is beleértendő, hogy információt kell szerezni nemcsak az elkészült, de a tervezési stádiumban lévő projektekről is. Ennek bevezetés alatt álló eszköze a Könyvtári Digitális Tartalmak Katasztere. A könyvtárak ebben az adatbázisban tudják regisztrálni állományrészeiket és az azokkal kapcsolatos digitalizálási terveket. Ennek segítségével megvalósítható a teljes hungarikumkincs összehangolt intézményi digitalizálása. A piaci szférában tervezett és elkészült projektek feltárására jelenleg nincsen egységes eszköz.

A digitális duplumok ellenőrzésénél nem elegendő azt kideríteni, hogy az adott állományból létezik-e már digitális verzió: meg kell győződni arról is, hogy az esetleg már létező változat formailag jól használható és bibliográfiailag teljes. Mivel a korábbi digitalizálási projektek még szerényebb felszereltséggel és kevéssé kidolgozott módszertannal történtek, előfordulhat, hogy mégis az újradigitalizálás mellett kell döntenünk, ha megfelelő minőségű és integritású digitális változatot akarunk készíteni.

Magyar közgyűjteményi területről származó példa az Archive.org metaadatbázisa segítségével megtalálható digitalizált hungarikum-szórványok esete. Az így megtalálható, nyilvánosan elérhető változatok minősége általában nem kielégítő.

Szakirodalom:

1.2.1.1.3 Van-e jogunk az adott tartalom digitalizálására?

Alapvetően nincs arra nézve korlátozás, hogy egy adott gyűjtemény a saját kezelésében lévő állományt digitalizálja. A szerzői jogi rendelkezésekkel járó megkötések azon a ponton szabályozzák a digitalizálás folyamatát, hogy milyen módon akarjuk annak végtermékét felhasználni. A szerzői jogi törvény által korlátozott felhasználási területek lehetnek például a digitalizált anyag újraközlése nyomtatott vagy elektronikus formában, illetve emelt szintű és/vagy térítésköteles szolgáltatások (például on demand reprodukciók készítése) formájában történő elérhetővé tétele. Továbbá, miután a digitális formátumok nagy része akadálymentesen másolható, aggályos lehet a digitális változat „kölcsönzés” fogalmának nagyjából megfelelő szolgáltatása is. Ez utóbbi esetben a digitalizáló intézmény rábírható arra, hogy az így szolgáltatott állományokat a digitális jogkezelést (Digital Rights Management, DRM) lehetővé tevő technikai korlátozásokkal tegye elérhetővé. Ehhez hasonló megoldás például a PDF fájlokban a másolásvédelem, jelszavas védelem, vagy időzített hozzáférés-korlátozás, illetve a képi fájlokban a látható vízjel.

A szerzői jogra vonatkozó információ és utasítás ma már szinte minden digitális formátumban elhelyezhető a beágyazott metaadatokkal együtt. Ennek elmulasztása súlyos problémákat okozhat.

Fontos megjegyezni, hogy az európai országok többségének joggyakorlata eltérő módon határozza meg a különböző dokumentumtípusok szerzői jogi korlátozásait. Előfordulhat például, hogy nincsenek megkötések egy időszaki kiadvány szöveges tartalmára nézve, de az abban közölt fényképek például már nem utánközölhetők. A hazai gyakorlatban is mindennapos probléma, hogy egy adott mű elvileg nem tartozna már a jogi korlátozások hatáskörébe – például a kora miatt –, de a később készült fordítás, vagy az esetleges illusztrációk még jogvédett tartalomnak minősülnek.

Digitalizálni általánosságban olyan tartalmat érdemes, amelynek szabad felhasználásához de facto jogunk van, vagy ezt a jogot megszereztük a szerzői jogok birtokosaitól.

A fentebb említett jogi kérdések mellett célszerű arról is gondoskodni, hogy egy adott intézmény által készített digitális változat tulajdonjoga megmaradjon az előállítónál. Erre csak akkor kerülhet sor, ha egészen biztosan jogunk van a digitális verzió elkészítésére. Ilyenkor intézményünk jól felfogott érdekét szolgálja, ha a digitális tartalom nem idegeníthető el a létrehozótól. Az erre vonatkozó információkat közölhetjük beágyazott metaadatként, mellékelt metaadatként, illetve vizuális formában, például látható vízjelek formájában.

Szakirodalom:

1.2.1.2 Az digitalizálandó objektumok állapota

Előfordulhat, hogy egy bizonyos dokumentum minden szempontból megfelel a fenti kritériumoknak, mégis ki kell szűrnünk a digitalizálandó anyagból. Ezt az adott példány fizikai állapota indokolhatja.

1.2.1.2.1 Sérült, illetve hiányos dokumentumok

Egyrészt lehetséges, hogy az adott példány fizikailag sérült, elhasználódott vagy hiányos. Ez orvosolható azzal, ha megszerezzük a dokumentum másik példányát – már ha ilyen létezik. Unikális dokumentumoknál megfontolható a példány helyreállítása, amennyiben annak digitalizálása kellően fontos. Ilyenkor azonban tekintettel kell lenni arra, hogy a digitalizálás elkerülhetetlen állományromlást okoz, így a restaurálást a munka befejeztével is ajánlatos megismételni. Hiányos dokumentumot csak akkor van értelme digitalizálni, ha a teljes változat összeállítására nincs remény. A példányok állapotának és teljességének vizsgálatára még visszatérünk.

1.2.1.2.2 Rendhagyó formájú dokumentumok

A fizikai állapottal összefüggő problémák másik csoportja abból ered, hogy mindig lesznek olyan egyedi dokumentumok, melyek bizonyos tulajdonságaikkal kilógnak a sorból, még ha az adott dokumentumtípus digitalizálására adottak is a feltételek. Ilyenek például a szélsőségesen nagy- vagy kisméretű dokumentumok, nyomtatványok, extrém méretű vagy térbeli formában kihajtható mellékletekkel, speciális tárgyi szupplementumok és még sorolhatnánk. Természetesen mindig akadnak egyéni megoldások, amelyek áthidalják az ilyen nehézségeket; minél nagyobb azonban a teljes digitalizálandó állomány, annál kevesebb kivétellel célszerű foglalkozni. A legjobb megoldás az ilyen problémákat megfelelően dokumentálni, majd visszatérni feldolgozásukra, ha a lehetőségek már adottak.

Ld. még: 4.1.1; 4.1.3

1.2.1.3 Kollacionálás

Ezen a ponton érdemes beszélni egy nagyon fontos lépésről, amely még nem terjedt el kellően a digitalizálási gyakorlatban. Ez pedig a digitalizálásra szánt példányok fizikai jellemzőinek, állapotának, esetleges hiányainak felmérése, azaz a kollacionálás.

A kollacionálást az adott állományrész digitalizálása előtt teljes egészében be kell fejezni, elkerülendő az esetleges meglepetéseket a munka folyamán. Ez azt jelenti például, hogy ha egy folyóirat összes számának digitalizálását tervezzük, akkor a beviteli folyamatot akkor kezdjük el, ha az adott dokumentum összes példányát megvizsgáltuk. Hogy milyen mélységű ez a vizsgálat, az az anyag terjedelmétől, a rendelkezésre álló erőforrásoktól, illetve egyéb körülményektől függ.

Ha a tényleges digitalizálást kiszervezzük, és az az intézeten kívüli munkaerővel, esetleg helyileg is házon kívül történik, akkor különösen fontos rögzíteni a kiinduló állapotot, hogy az állományvédelmi szempontok betartása ellenőrizhető legyen.

A kollacionálás során célszerű nyilvántartást készíteni a példányok előkészítése és vizsgálata során szerzett információkból. Ez a nyilvántartás aztán hasznunkra lehet a digitalizálási folyamat minden stádiumában: használhatjuk arra, hogy jelöljük, hol tart éppen a munka, illetve tárolhatjuk abban a metaadatokat, ha más dokumentumkezelő rendszer nem áll rendelkezésünkre, vagy még nem töltöttük át az adatokat.

A kollacionálás során készített nyilvántartásban a következő adatokat érdemes rögzíteni:

Ld. még: 4.1.2

1.2.2 A digitalizálási folyamat kimenete

1.2.2.1 A kimenet mint produktum

A digitalizálási projektek mindenkit leginkább érdeklő kérdése: hol, hogyan és milyen formában érhető majd el a végeredmény. Az alapvető motívum általában valamiféle új produktum létrehozása, ami kézzelfogható és reális jelleget ad az így végzett munkának. A kérdés tehát az, hogy mindez miként valósul majd meg.

Ld. még 3.6.

Könyvtári környezetben az optimális megoldás az lenne, ha az új gyűjteménykezelési elvek adoptálásával olyan gyűjtemények jönnének létre, amelyek mind a hagyományos, mind a digitális dokumentumok kezelését biztosítják egy és ugyanazon integrált környezetben, amely jól átjárható, kihasználható, és minden főbb információforrás felől elérhető. Ez az igény azonban jelenleg utópisztikus, hiszen alig találunk példát olyan rendszerekre, amelyek egységesen tudnák kezelni a hagyományos és digitális dokumentumok adatait, a köztük lévő kapcsolatok és hozzáférés módjának egyértelmű feltüntetésével. Ez pedig csak az egyik probléma a sok közül, amelyek forrása többnyire az, hogy a magyar könyvtári világ még a digitalizálást és a digitális dokumentumkezelést érintő szabályozások és az általánosan elfogadott gyakorlat kidolgozása előtt áll.

Manapság a legelterjedtebb megoldás az, hogy a digitalizált állományok különálló gyűjteményekként, a hagyományos anyag mellett egyfajta kuriozitásként válnak elérhetővé. Egy adott szegmensre szakosodott „digitális könyvtárak” vagy „digitális gyűjtemények” jönnek létre, amelyek elkülönült tömbökben szolgáltatják vagy tárolják a könyvtári vagyon digitalizált részeit. Ezek általában külön „rendszerek” avagy „szolgáltatások”, saját belső szabályozással, testre szabott metaadat-készlettel. Metaadatbázisok és aggregátorok segítségével – mint például az NDA – viszonylag jól elérhetők és azonosíthatók a tartalmak, de még egy ideig problémát fog jelenteni az a kérdés, hogy egy adott mű valahol elérhető-e digitális formában.

Szakirodalom:

1.2.2.2 A kimenet mint adat

Fentebb a kimenetet az elérés, szolgáltatás oldaláról közelítettük meg. Másfelől nézve a digitalizált állomány könyvtári tartalom, amelynek kezeléséről, megőrzéséről gondoskodni kell. Speciális igényekkel bíró állományrész, amelynek gyarapítása, fenntartása és forgalmazása a könyvtári munkafolyamat része. A közzétett produktum mögött adatállományok, infrastruktúra áll, amellyel azután is foglakoznunk kell, miután az már elkészült. Ellenkező esetben a munkát mindig újra és újra el kell kezdeni, amíg a digitális állományok valamennyi specialitásukkal együtt nem épülnek bele a könyvtári munkafolyamat mindennapjaiba.

1.2.3 A digitalizálási folyamat terjedelme

A tervezés folyamán idejekorán fel kell becsülni, hogy a digitalizálási folyamat mennyi ideig, és milyen formában fogja igénybe venni az erőforrásainkat, és mindaz, amit terveztünk, valójában belefér-e a rendelkezésre álló keretekbe.

1.2.3.1 Időtartam

A digitalizálás gyakran határidős feladat. Ilyenkor már a tervezési szakaszban ajánlatos kisebb mintán próbát végezni minden munkafolyamattal, hogy legalább hozzávetőlegesen tudjuk, mennyi idővel kell számolnunk. Készüljünk fel arra, hogy a képállományok mentése beolvasásnál, illetve az állomány konverziójánál néha meglepően sokáig tarthat, és egyéb részfeladatok is időigényesebbnek bizonyulnak a vártnál. A próbáknál vegyük figyelembe a teljes infrastruktúra tulajdonságait, mivel egy alacsonyabb teljesítményű eszköz-konfigurációval a tervezettnél tovább tarthat a munka, és nem mindig lehetséges, hogy az egész projektet ugyanazzal az eszközzel végezzük el. Azt is fontos tudni, hogy a monoton munkafolyamatok időhatékonysága a kezdeti lendület után gyakran visszaesik. Ha a munkánk sok manuális és ismétlődő mozzanattal jár – például manuálisan végzett szkennelés –, akkor egy-egy főre nézve a munkanapból maximum 3-4 órát szabad erre fordítani.

A digitalizálás nem fejeződik be a kívánt célformátum elkészítésével és az archív állományok megőrző környezetben való elhelyezésével. A digitális állományok – főleg azok, amelyeket széles körben elérhetővé teszünk – hosszú távon rendszeres karbantartást igényelnek. Ehhez egyrészt gondoskodni kell a szolgáltató infrastruktúra kielégítő működéséről, rendszeres frissítések, diagnosztikai műveletek segítségével. Másrészt a tartalom is karbantartásra szorul: oda kell figyelni arra, hogy a szolgáltató formátum ne váljon elavulttá vagy megbízhatatlanná – ez gyakran előfordul például az optikai hordozón őrzött anyagok esetében. Mindemellett szükség van a metaadatok karbantartására, az esetleges adatcserék lebonyolítására, illetve a felhasználói visszajelzések kezelésére. A digitalizált tartalomra nem igaz a mondás, hogy „nem kér enni”, mert életben tartása idő- és energiaigényes. A digitalizálással kapcsolatos feladatok tehát elviekben „örökké” tartanak, illetve legalábbis addig, míg az így keletkezett állományok léteznek és elérhetőek.

1.2.3.2 Egyéb terjedelem

A digitalizálás elkötelezett hívei gyakran érvelnek azzal, hogy a digitális állományok fenntartása kifizetődőbb, mint az analóg objektumoké, mivel azok kevés helyet foglalnak. Az igazság azonban az, hogy az ilyen gyűjtemények szélsőségesen nagy helyet foglalnak – és a jelenlegi folyamatok tükrében ezek a méretek még mindig növekvő tendenciát mutatnak –, mégpedig a virtuális térben.

Amikor felmérjük a digitalizálási munkafolyamatok igényeit, szembesülnünk kell azzal is, hogy milyen méretű állományokat fogunk előállítani és tárolni. Azt is fontos megjegyezni, hogy a feldolgozási folyamat során ez a méret átmenetileg meg is duplázódhat, amíg a munkaállományokból elő nem állnak a felhasználásra optimalizált változatok.

A digitalizáló berendezések mellett az egyik legköltségesebb beszerzést a kész anyag tárolására szolgáló eszközök fogják jelenteni. Ha ezeket nem tudjuk biztosítani, akkor alternatív megoldásként más intézményekkel vagy szolgáltatókkal való kooperációban oldható meg a digitális anyag „letétbe” helyezése. Ilyenkor ugyanolyan fontos tudni, hogy mekkora állománnyal van dolgunk.

A készülő állomány felmérésére nem mindig elegendő a próbaállomány méretével végzett pár matematikai művelet. Maga a kalkuláció is döntési pontokat rejthet, és a formátumok közötti átmenet is okozhat meglepetéseket. Ezért célszerű igénybe venni az előzetes felmérés megkönnyítésére kifejlesztett szakmai eszközöket.

Ilyen az IMPACT (IMproving ACcess To Text) projekt keretében 2010-ben kifejlesztett tárterület kalkulátor (IMPACT Storage Estimator, ISE):

Részlet az IMPACT méret-kalkulátor felületéből

Részlet az IMPACT méret-kalkulátor felületéből

Képernyőfotó a JISC Digital Media méret-kalkulátoráról

Képernyőfotó a JISC Digital Media méret-kalkulátoráról

Részlet a Scantips.org méretkalkulációs oldaláról

Részlet a Scantips.org méretkalkulációs oldaláról

1.2.4 A digitalizálási folyamat erőforrás-igénye

Miután döntöttünk arról, mit szeretnénk digitalizálni, tisztában vagyunk a tárgyunk állapotával, a lehetséges kimenettel és a terjedelemmel, feltehetjük a legnehezebb kérdést: milyen erőforrás-igénnyel kell számolnunk? Természetes, hogy sok projekt a rendelkezésre álló erőforrások alapján dönt a digitalizálásról, és az eddigi előkészítő lépéseket visszafelé haladva fogja megtenni. Ez sem lehetetlen, bár az átfogó stratégia szempontjából kevésbé szerencsés út.

Mielőtt a költségeket felmérjük, fontos alaposan átgondolni, milyen erőforrásokat kell megteremtenünk, milyen részfolyamatokat kell finanszíroznunk a költségvetésből, illetve mi az, amivel már rendelkezünk.

A következőkre lesz/lehet szükségünk

A digitalizálás per se financiális támogatása mind hazánkban, mind az Európai Unióban egyre csekélyebb. Ez nem azt jelenti, hogy a digitalizálás önmagában nem lenne kívánatos a döntéshozók szemében, hanem azt, hogy azt a könyvtári munkafolyamatok integráns részeként szeretnék látni. Külső forrásból támogatást szerezni valamivel könnyebb képzésre, eszközök beszerzésére, illetve alvállalkozókkal való együttműködés finanszírozására. Hazai viszonylatban egyelőre még a központi szakmai szerv által vezérelt, több intézményt bevonó, nagyobb léptékű projektek támogatottak, de nem tudhatjuk, hogy ez a tendencia meddig folytatódik. Az ilyen jellegű releváns projektek:

A digitalizálás költségtervezésére is léteznek professzionális eszközök. Erre szolgáló, de nagyon alapvető eszköz a szintén az IMPACT projekt keretében készült költség-kalkulátor:

Képernyőfotó az IMPACT költség-kalkulátoráról

Képernyőfotó az IMPACT költség-kalkulátoráról

Szakirodalom:

1.2.5 A digitalizálási folyamat módszertana

Nem létezik olyan dolog, hogy „digitalizálási szabvány”. E hiány oka könnyen belátható: a digitalizálás rendkívül sokarcú, számos, testre szabható lépésből álló folyamat. Egyetlen egységes szabályozás az összes lehetséges lépésre nézve túlméretezett, nehezen kezelhető és sokszor nem kellően releváns előíráshalmazt teremtene. A digitalizálás részfolyamataira nézve léteznek kész modellek (ezek többnyire formátum-, illetve metaadat-specifikációk), de ezek nagy része egyfajta hallgatólagos szabvány, a sikeres digitalizálás tapasztalatait továbbvivő mindennapi gyakorlat. A szabvány mint státusz nem túlértékelendő ebben a kontextusban: sok ajánlás vagy előírás azért nem, vagy csak lassan válik szabvánnyá, mert a technikai környezet olyan gyorsan fejlődik, hogy az ilyen témában írott igazán releváns tartalom állandó revízióra szorul. Az utóbbi pár évben nem frissített, „irányadó” dokumentumokat mindig kellő óvatossággal kell kezelni.

A digitalizálás módszertanában nem a szabvány az első forrás – bár a szabványosság önmagában fontos követelmény –, hanem a működő és egységes gyakorlat. Bármilyen léptékű projektről is legyen szó, fontos, hogy a végrehajtó elkötelezze magát egy működő út mellett, és dokumentálja azt. Ez lehetséges egy már meglévő iránymutató ajánlás adoptálásával, vagy pedig a „házon belüli” gyakorlat rögzítésével, amennyiben ez utóbbi tekintettel van az általánosan elterjedt megoldásokra.

A működő módszertan legfontosabb feltétele a dokumentálás. Ha az eltervezett munkafolyamat paramétereit minden fontosabb ponton rögzítjük, az egyrészt növeli a munkavégzés tudatosságát, másrészt mobillá teszi a folyamatot, és garantálja, hogy a kivitelezés körülményeinek megváltozásával (például személyi változásokkal) is megmaradnak a keletkezett anyag formai tulajdonságai.

A sikeresen rögzített módszertan legfontosabb tulajdonságai: érthető, naprakész, hozzáférhető és következetes. Egy ilyen útmutató a legegyszerűbb eszközökkel is előállítható: állandóan elérhető szövegfájlban, prezentációs diákon, a kalibrációt és egyéb részleteket rögzítő képernyőfotók formájában.

Ld. még: 4.2.1

Milyen paramétereket célszerű rögzíteni a módszertani dokumentumban?

A belső szabályozások minden esetben szükségesek, mivel nem létezik két teljesen egyforma munkakörnyezet. Ügyelni kell azonban arra, hogy a módszertani előírások ne szigetelődjenek el az általánosan bevett gyakorlattól. Ennek a gyakorlatnak a felderítése nem egyszerű feladat, mivel számos kutatási projektről tudunk, amelynek célja az egységes és optimális digitalizálási módszertan kidolgozása és terjesztése. Ezek az eredményei azonban csak a probléma egyes, néha átfedő szegmenseit fedik le. A másik probléma a nyelvi korlát: a nemzetközi ajánlásoknak kis része érhető el magyar nyelven, és azok is gyakran jelentősen elmaradnak az eredeti dokumentumok kurrens változatától, a frissítésre pedig ritkán kerül sor. Ez utóbbi probléma magukat a nemzetközi forrásokat is érinti, mivel sok kutatási projekt zárt időkeretben működik, mások pedig különböző okból félbemaradnak, így nem kerül sor a kidolgozott útmutatók aktualizálására.

Az alább következő lista olyan forrásokat tartalmaz, amelyek széles körben elfogadott, illetve – legalábbis részben – mindmáig használható segédeszközök a megfelelő módszertan kialakításához.

Szakirodalom:

1.2.5.1 Minőségellenőrzés

A digitalizálási munkafolyamat minőségellenőrzési elveit célszerű a módszertannal párhuzamosan kidolgozni és integrálni abba. Ez azért fontos a korai stádiumban, mert a magától értetődő minőségi elvárások mellett mindig lehetnek olyan kritériumok, amelyek különösen jellemzőek az adott projektre. Unikális dokumentumok digitalizálása esetén például sokkal magasabbra tesszük a mércét a részletek reprezentálása terén, mint a nagy tömegű, modern állományt feldolgozó folyamatban.

A minőségi elvek lefektetése nagyon fontos a készülő digitális gyűjtemény integritásának megőrzéséhez is. A kezdet kezdetén meg kell határozni, mi az a minőségi szint, amit még elfogadhatónak tekintünk. Ennek hiányában a minőségi elvárásaink átalakulhatnak a projekt előrehaladtával, és egyre több kompromisszum fog születni, ami végül a gyűjtemény egészének minőségét veszélyezteti. A jól meghatározott elvárások és az azokhoz való ragaszkodás kiszámíthatóvá és megbízhatóvá teszi a gyűjteményt a felhasználók szemében, a gyakori minőségi kompromisszumok ellenben aláássák a presztízsét.

Olykor minőségi kérdések nem a digitalizálón múlnak. Ha egy adott feladatot az elérhető eszközökkel és erőforrásokkal csak kompromisszumok árán, rossz minőségben tudnánk kivitelezni, akkor jobb eltekinteni a végrehajtástól, és későbbre halasztani. Az eddigi digitalizálási tapasztalatok is bizonyítják, hogy a technika „megérik” az ilyen feladatokhoz, és egyre szélesebb körben elérhetővé válik.

A tervezés során, a módszertan lefektetésénél fontos meghatározni, hogy a munkafolyamatok mely pontjain hajtandók végre minőségellenőrzési feladatok. Ezek lehetnek automatizált, illetve manuálisan elvégzendő műveletek. Az alábbi lista pár célszerű ellenőrzési folyamatot tartalmaz – a teljesség igénye nélkül:

Ld. még: 3.5.3.3

A minőségellenőrzési pontok felállítása és az ellenőrzési módok meghatározása csak az első lépés a minőségbiztosítás felé. Fontos, hogy az ilyen lépéseknél feltárt hibák esetében ténylegesen megtörténjen a korrekció. Ha például az ellenőrzést végző munkatárs nem közvetlen résztvevője a folyamatnak, lehetősége, illetve felhatalmazása kell hogy legyen a beavatkozásra. Ez különösen fontos a kiszervezett munkafolyamatoknál, amelyeknél az ilyen eshetőségekre idejekorán fel kell készülnie mind a megbízónak, mind a kivitelezőnek.

A minőségbiztosítás további eszköze a digitalizálási folyamat befejezése után is élő ellenőrző pontok építése. Ennek egyik kézenfekvő módja az, ha az elkészült digitális állományok elérési felületein visszajelzési lehetőségeket biztosítunk. Ezek a visszajelzések jöhetnek a munkafolyamatok közreműködőitől, migrációs folyamatoknál az anyagot fogadó partnertől, de leggyakrabban a felhasználóktól. Már befejezett projekteknél is fel kell készülni arra, hogy esetleg utólagos módosításokat kell majd végrehajtani, ezért fontos hogy rendelkezésre álljanak a javításhoz szükséges eszközök és jogosultságok, valamint a hiányos vagy sérült digitális produktum esetén a pótláshoz szükséges, jó minőségű digitális nyersanyag.

Szakirodalom:

1.2.6 A digitalizálási folyamat fenntarthatósága

1.2.6.1 A fenntarthatóság kihívásai

A terjedelem megvitatásánál már érintettük az idő dimenzióját. Ebben a részben arra koncentrálunk, hogy mivel biztosíthatjuk azt, hogy a digitalizálási projektek eredményei jóval a kivitelezés lezárulta után is elérhetők maradjanak.

Felesleges a negatív példákat sorolni, főleg mivel többségünk találkozott már azzal a helyzettel, hogy egy, keletkezésekor nagy hírveréssel körülvett online digitális gyűjtemény egy-két év múlva már nem található eredeti helyén, vagy látszik rajta a karbantartás hiánya. Hasonló élmény éri a felhasználót, amikor egy offline hordozón (pl. optikai lemezen) forgalmazott tartalom az előállítás után már nem használható, mivel a formátumot, melyben készült, nem tudja értelmezni a szoftverkörnyezetünk.

Nem tudhatjuk, hogy a „fenntarthatóság” tekintetében milyen időtávra kell terveznünk. A hagyományos dokumentumok esetében az „elévülés” vagy „megszűnés” szinte értelmezhetetlen fogalmak, mivel azok megjelenési formája könnyen kezelhető és időtálló. S míg az igény a hagyományos dokumentumformáktól a digitális felé fordul, a tartalmi igények lassabban változnak, így a digitális világ előtt az a kihívás áll, hogy képes legyen nagyjából ugyanazt a tartalmat nyújtani egy állandóan változó médiumban, amelynek jövőjét legfeljebb pár évre előre tudjuk megjósolni.

A digitális állományok veszélyeztetettsége főleg abban áll, hogy azok nem önmagukban kezelhető objektumok, hanem fenntartásukhoz és használatukhoz további erőforrások szükségesek.

Milyen lépésekkel kerülhető el a létrehozott tartalmak pusztulása? A legegyszerűbb válasz a következő: állandó felügyelet, a fenntartandó anyag rendszeres vagy folyamatos többszörözése, tárolási redundanciák alkalmazása, tudatos tervezés és dokumentáció, valamint szabványos megoldások használata. Ezek mellett kijelölhetünk stratégiai ösvényeket, amelyek követésével biztosabbak lehetünk a digitális objektumok jövőjét illetően. A lehetséges ösvények az alábbiak lehetnek:

Szakirodalom:

1.2.6.2 Hosszú távú digitális megőrzés

A digitális gyűjtemények hosszú távú fenntarthatóságára vonatkozó igény elméleti háttere a digitális megőrzés egyre inkább előtérbe kerülő kihívásaiban áll. A közgyűjtemények feladata a kulturális vagyon őrzése, számbavétele, azonosítása és gondozása. Eddig minden vonatkozó terület kiforrott gyakorlattal, általános tradíciókkal rendelkezett ezen feladatok ellátásához. A digitális állományok érkezése felborította ezt az egyensúlyt, elmosta a határokat a hagyományos dokumentumtípusok, sőt gyűjteményi jellegek között, és számos gyakorlatot elavultnak minősített. A digitális megőrzés a tartalomhoz való sokkal aktívabb közelítést követel, mint a hagyományos dokumentumok esetében, mivel itt a megőrzésnek alkotó, létrehozó, tervező aspektusai vannak. Ahhoz, hogy a digitális dokumentum információ-tartalmát megőrizhessük, tudnunk kell, miként kell azt megfelelően létrehozni.

A digitális gyűjtemény különálló bináris állományok halmaza, amelyek egyes elemei önmagukban sérülékenyek, használhatatlanok és semmitmondóak. A digitális megőrzés céljainak eléréséhez tulajdonképpen egy olyan általánosan elterjedt eszközrendszer és módszertani közeg kidolgozására van szükség, amely megvédi ezeket az állományokat eredendő sérülékenységüktől. Erre nézve egyre jelentősebb fejlődés tapasztalható mind a nemzetközi, mind regionális téren, kezdve azzal, hogy a probléma ma már minden stratégia élvonalában szerepel, külön magyarázatot nem igényelve. A digitális megőrzés ma már külön üzletág az információtechnológiában.

A digitális megőrzés technikai feltételeit mind az infrastruktúra, mind pedig az adatformátumok terén biztosítani kell.

Az infrastruktúra fogalma itt arra utal, hogy milyen hordozón tároljuk az adatot, illetve milyen eszközzel olvassuk be és jelenítjük meg. A hajlékonylemezek tündöklésének és bukásának rövid történetét mindenki ismeri: bármennyire sokoldalúnak és megbízhatónak is tűntek bevezetésükkor, ma már a technikatörténet részét képezik, és az azokon tárolt adat gyakorlatilag elveszettnek tekinthető. Ez a példa azonban csak egy a sok lehetséges helyzet közül, amely a digitális állományok fennmaradását veszélyezteti.

Az alábbiakban áttekintünk pár lehetséges problématípust és az azok kiküszöbölésére javasolható ésszerű megoldásokat.

1.2.6.2.1 A fizikai infrastruktúra veszélyeztetettsége

A hagyományos dokumentumokkal ellentétben az informatikai eszközök nem hosszú életűek. Bizonyos típusaik nem is töltöttek annyi időt a mindennapi használatban, hogy teljesen megbízható becsléseink lehetnének arra nézve, milyen időterjedelemben számíthatunk a működésükre. Egyre gyakrabban történik meg az is, hogy az adott eszköz gyorsabban elavul, és a használói, majd ezt követően gyártói preferenciák kivonják a forgalomból, mint hogy természetes kimúlását megérhette volna. Erre példa a ZIP-meghajtók esete, amelyeket a külső merevlemezek megjelenése tett feleslegessé, vagy a HD-DVD, ennek kiveszését a BluRay technológia okozta.

A digitális technológia stratégiai eszközei a probléma kezelésére az információ kezelésének irányelvei a teljes életcikluson át (Information Lifecycle Management Policy, ILM). Ezeknek az irányelveknek főleg a technológiát előállító cégek, szabványügyi testületek, valamint kutatás-fejlesztésben érdekelt ágensek veszik hasznát, de kis léptékben minden digitalizálási projekt rögzítheti a saját elvárásait.

A természetes várható élettartam mellett a környezeti hatások is fokozottan befolyásolják az eszközök működését. Ilyenek lehetnek a természeti katasztrófák, technikai jellegű fennakadások, vandalizmus. Ezeknek a veszélyeknek a közös eredője abban van, hogy a digitális állományok fizikailag egyetlen eszközön (például merevlemez), vagy eszköztömbön (például optikai lemezek halmaza) léteznek.

Ebben az esetben a megoldás a fizikai redundancia, vagyis ugyanarról a tartalomról több másolatot készítünk, lehetőleg többféle hordozóra, de sosem ugyanannak a hordozónak két különböző területére. Optimális esetben ezek a különböző tárolóeszközök fizikailag is ténylegesen különálló egységek, mivel a kifejezetten háttértárolóként működő professzionális berendezések beépített redundanciái nem jelentenek védelmet az eszköz teljes pusztulása esetén.

Az állomány többszörözése nemcsak térbeli, azaz több különböző egységben elhelyezkedő tárolási megoldást jelenthet, hanem időbelit is, amikor bizonyos idő elteltével újraírjuk az adatállományokat, például a hordozó média újra cserélésével. A többszörözés üteme lehet periodikus, illetve eseti.

Az állomány periodikus újraírása történhet a tervezés folyamán meghatározott időközönként, amelyek függhetnek az anyag jellegétől, a másolás sebességétől, de legfőképpen a tároló várható élettartamától. A rendszeres újraírást azonban csak az adat szinkronizálásával együtt szabad végezni, például checksum tesztek formájában, melyekkel az állomány integritását ellenőrizzük annak a célhordozóra írása előtt. Nagyon elterjedt gyakorlat, hogy a nagyméretű archívumoknál a gyors hozzáférésű hordozókról (például merevlemezek) napi, vagy heti szinten automatikusan beállított másolat készül a lassabb elérésű háttérhordozókra (pl. mágnesszalagok). Ha az előtéri hordozón lévő anyag megsérül, ilyen ellenőrzés híján a rendszeres mentés során a hibás anyag felülírja a háttértárolón már meglévő jó állapotút, mielőtt a hibát esetleg észrevehettük volna. Az ilyen mentési architektúra (elterjedt neve Hierarchical Storage Management, HLS, azaz hierarchikus tárolásvezérlés) professzionális hardver-eszközöket, valamint az ellenőrzésre és ütemezésre képes komplex vezérlő szoftvereket igényel.

Az eseti újraírás történhet akkor, ha a digitalizálónak infrastruktúra-korszerűsítésre nyílik lehetősége és hatékonyabb tárolóarchitektúrát alkalmazhat. Másik eset, amikor a meglévő állomány jelentős mennyiségű új anyaggal egészül ki, és ez alkalomból az egész új területre költözik. A következő eshetőség pedig, ha egy minőségellenőrzési folyamat hibát talál a tárolt anyagban és vészhelyzeti mentésre kerül sor. Az utóbbi két lehetőség elkerülhető, ha a tervezés során a folyamatok tudatos ütemezésével a gyarapítás és a minőségellenőrzés lépéseit összehangoljuk a periodikus mentésekkel. A rendkívüli mentési folyamatokra is vonatkozik, hogy az állomány integritását ellenőrizni kell a másolás megkezdése előtt.

1.2.6.2.2 A fizikai infrastruktúra megoldásai

A fizikai tárolók technikai specifikációi és a teljesítményükkel kapcsolatos elvárások ismerete az információtechnológia, azon belül az Information Lifecycle Management (információ-élettartam kezelés) szakterülete. Komoly tárolóarchitektúra kiépítéséhez mindenképpen ebben otthonosan mozgó partnerek segítségére van szükség. Ez a kisebb gyűjtemények kezelésénél is hasznos, bár természetesen vannak olyan megoldások, amelyek házon belül is megvalósíthatók. A fizikai tárolók típusainak itt következő áttekintése ezekre is kitér.

1.2.6.2.2.1 Optikai lemezek

Az optikai lemezekre való mentés ma már viszonylag ritkán alkalmazott gyakorlat. A médiatípus megjelenése idején nagy reményeket ébresztett, de hanyatlását nem elsősorban a számos, idő előtt elromló lemez, hanem a nagy kapacitás és a gyors adatelérési sebesség iránti igények gyors növekedése okozta. A CD-R-ről a DVD-R-re való átállást még igazolta a többszörös kapacitás-növekedés, de a tömeges átállás a DVD-R-ről a DVD-R DL-re vagy BluRay-re, illetve a további, nagyobb kapacitású hordozóra már nem történt meg. Az optikai lemezek írása még mindig viszonylag nehézkes folyamat, a cserélhető merevlemezek kezelése egyszerűbb, nagyobb kapacitással is rendelkeznek.

Az optikai lemezek átlagosan gyenge teljesítményének oka sokszor az, hogy nem megfelelő minőségű lemezre történt az archiválás. A nagyobb kötegekben beszerezhető, „tortaforma” csomagolású, ismeretlen márkanévvel ellátott, vagy teljesen címkézetlen lemezek általában nem megbízhatóak. Ezek minősége eleve megkérdőjelezhető, és a csomagolási mód, ahogyan a korongok egymásra préselődnek, mind írás előtt, mind írás után megrongálhatja a lemez felületét. A szabványos, merevítőkkel ellátott CD/DVD-dobozban való tárolás hosszabb időre biztosítja a lemez használhatóságát.

A manapság javasolható megoldás az eredetileg optikai lemezre mentett anyag migrálása modernebb hordozóra. Ennek fő akadálya általában éppen az, hogy a lemezen található tartalom már nem olvasható. Ilyen esetben a következőket célszerű megpróbálni:

1.2.6.2.2.2 Merevlemezek

A hosszú távú adattárolás legelterjedtebb eszközei a merevlemezek (HDD, Hard Disk Drive). Ezek kapacitása, sebessége, megbízhatósága egyre javul, emellett egyre megfizethetőbbek. A cserélhető, azaz „mobil” eszközök megjelenésével még tovább nőtt a lehetséges felhasználási területeik száma.

A merevlemezek gyors adatelérési, írási és olvasási sebességét a korszerű csatoló-szabványok biztosítják, mint például a SATA, SCSI, USB, FireWire. Lehetőség van a – főleg nagyobb kapacitású – merevlemezek hálózati elérésére is az Ethernet, iSCSI, Fibre Channel szabványok segítségével. Léteznek lemezek egyszerre több tömbjét alkalmazó redundáns archiváló rendszerek is. Ezek hátránya, hogy nem képeznek ténylegesen külön példányt, mivel a lemeztömböket gyakran ugyanaz az elektronika vezérli.

A merevlemezre történő archiválásnak is van kockázata, mivel a merevlemezek még nincsenek elegendő ideje használatban, hogy megbízhatóságukról és élettartamukról biztos információval rendelkezzünk. A HDD-re mentés mellett mindig készítsünk duplikált mentéseket, ha lehet, mágnesszalagra.

1.2.6.2.2.3 Mágnesszalag

A modern merevlemezek korában is ez a tároló-típus számít a legmegbízhatóbbnak, mivel működési mechanizmusát még az analóg korból örökölte. A szalagos adathordozókkal több tapasztalatunk van, így jobban meg tudjuk becsülni az ilyen adathordozók élettartamát, és az azok használatával járó kockázatokat is jobban feltérképeztük.

A professzionális adattároló rendszerek általában bizonyos időnként szalagos mentést készítenek a merevlemezeken őrzött állományokról, így biztosítják a megőrzéshez szükséges redundanciát. Az ilyen másolási mechanizmusok vezérlésére számos szoftveres megoldás létezik, és a digitális megőrzésre kifejlesztett szoftverek is tartalmaznak ilyen funkciókat.

A szalagos mentés hátránya a digitális hordozókkal szemben a különböző egységek viszonylag lassú elérése. Ezen a téren azonban nagyon gyors a fejlődés, e tekintetben egyre csökken a különbség a két eszköztípus között.

Bevett gyakorlat a háttértárolók tartalmát időnként teljesen újraírni a szalagos médián, ezzel a korábbi „analóg” mentések anyagát felülírva. Az ilyen művelet elindítása előtt mindig kötelező a másolandó és felülírandó anyag szinkronizálása, valamint fizikai integritásának ellenőrzése. Ezt célszerű beépíteni a másolási folyamatok ütemezésébe.

1.2.6.2.2.4 Cserélhető lemezek

Kisebb kapacitású, lassabb adatelérési sebességgel, de a felhasználási lehetőségek széles körével rendelkező adathordozók tartoznak ide. Funkciójukat ténylegesen a „hordozó” kifejezés írja le a legpontosabban, mivel ezek általában arra használhatók, hogy adatot továbbítsanak két eszköz között, amelyek nincsenek fizikailag összekötve. A mobil eszközök (e-book olvasók, telefonok, digitális fényképezőgépek) általában ilyen eszközöket használnak a készített vagy beolvasott állományok tárolására. Köznyelven gyakran „memóriának” is nevezik őket.

Típusaik:

A felsorolt eszközök közül a kártyák használatához speciális olvasó kell, a pendrive-okhoz USB-csatlakozó. A kapacitásoknál hozzávetőleges adat szerepel, mivel ez könnyen változhat.

1.2.6.2.2.5 Hálózati tárolók

Az adatmentés lehetséges távoli szervereken elhelyezkedő merevlemezekre is. Ezt főleg duplikált példányok mentésére érdemes használni, mivel megvan az az előnye, hogy több, egymástól fizikailag távol található példányunk lesz az állományból. A távolság egyben hátrány is, mivel egyrészt nagyon gyors internetkapcsolat kell az állományok mozgatásához és eléréséhez, másrészt a tárterület fenntarthatóságát nem mindig tudjuk garantálni. További probléma, hogy egyes hálózati protokollok (például FTP) használata esetén a távoli állományokat betekintésre sem tudjuk megnyitni, előtte mindig helyi környezetbe kell mozgatni azokat.

Magyarországon a Nemzeti Információs Infrastruktúra Fejlesztési Intézet (NIIFI) – a HBONE+ projekt keretében – elosztott hálózati rendszereken kiépített tárolóinfrastruktúra segítségével 0,5 PB kapacitású tárterületet biztosít az akadémiai és közgyűjteményi szférának, amely könyvtári digitális archívumok tárolására is használható.

Szakirodalom:

1.2.6.2.3 A virtuális infrastruktúra veszélyeztetettsége

A digitális állományok létrehozásához és manipulálásához alkalmazott szabványok és szoftverek alkotják a digitalizálás virtuális infrastruktúráját. Mióta digitalizálási projektek léteznek, ez az infrastruktúra mindig az adott digitalizáló környezet jellemzőinek függvényében jött létre, és kezdetben nagyon nagy eltéréseket mutathatott. A digitális megőrzés irányában növekvő tudatosságnak köszönhetően ezek a megoldások egységesednek. A cél a munkakörnyezetek szinkrón és diakrón átjárhatóságának biztosítása a sikeres megőrzés érdekében.

Az átjárhatóság nem biztosítható önmagában a jó minőségű tartalom létrehozásával. Lehetséges, hogy kiváló minőségű, jól használható állományokat készítünk egy preferált szoftverrel, de ha az így készült kimenetet csak ugyanazokkal az eszközökkel tudjuk megfelelően kezelni, akkor az valószínűleg nem lesz – vagy nem lesz teljes egészében – megőrizhető. Ez a helyzet gyakran áll elő például egyes professzionális kiadványszerkesztő szoftvereknél.

Szakirodalom:

1.2.6.2.4 A virtuális infrastruktúra megoldásai: szoftverkörnyezet

A jól felépített virtuális infrastruktúra biztosítja, hogy a következő tényezők nem képeznek akadályt a tartalom térbeli vagy időbeli mobilitása előtt:

1.2.6.2.4.1 Létrehozó és a folyamatot működtető operációs rendszer

A különböző célokra működtetett operációs rendszerek között lehetnek a legnagyobb szakadékok, ezért fontos figyelembe venni, hogy egy digitalizálási projekt kapcsán természetes a többféle környezet együttélése. Teljesen indokolt, hogy az egyéni feladatok végrehajtására használt személyi számítógépen más rendszer fut, mint a digitális gyűjteményt tároló szerveren. Ehhez hasonlóan lehetséges, hogy migrációs folyamatok során ismét más környezetbe kerül az állományunk. Nincsenek tehát jobb vagy rosszabb környezetek, hiszen elvileg a ma használt rendszerek minden típusa kommunikál a többivel. A feladat a minden érintett számára használható és biztonságos átviteli csatornák használata, illetve a környezetfüggetlen, szabványos megoldások alkalmazása.

1.2.6.2.4.2 Tároló fájlrendszer

Különböző fájlrendszerek nemcsak eltérő operációs rendszerek találkozásánál jelenthetnek problémát. Ha különböző fájlrendszerekkel dolgozunk, ellenőrzési vagy figyelmeztetési mechanizmusokat célszerű közbeiktatni azokon a pontokon, ahol az egyik folyamat átlép az egyik területről a másikra. Vegyük figyelembe azt is, hogy létezhetnek hardverfüggő fájlrendszerek is, ilyenek például a CD-ROM szabványok, vagy az egyes mobil eszközök belső memóriát kezelő rendszerei. Az ilyen fájlrendszerek tartós eléréséhez rendelkeznünk kell az adott hardverrel, vagy az azt emuláló eszközzel.

Az egyes fájlrendszerek a következőképpen korlátozhatják a tárolt állományok paramétereit:

1.2.6.2.4.3 Archiváló formátum

Több egységből álló anyagok tárolásának gyakori megoldása az úgynevezett „becsomagolás”, vagyis amikor a valamely szempontból összetartozó egyéni fájlokat egyetlen állományban egyesítünk. A mindennapi szóhasználatban ezt a megoldást gyakran „tömörítés”-nek hívjuk, mivel az elterjedt archiváló szabványok (például a ZIP, RAR, TAR stb.) bizonyos esetben fájlméret csökkentésére is képesek. Az archiváló formátumok köre azonban ennél szélesebb. Elméleti szempontból ide sorolható minden eszköz, amely több önálló fájlból egy funkcionális vagy tárolási egységet tud képezni. Ezt a megoldást összefoglaló néven úgy nevezzük, hogy „objektum-orientált tárolás”. Ilyenek a ZIP-archívumok, a szoftvertelepítők kabinetfájljai, de ide sorolhatjuk a többrétegű PDF-dokumentumokat, az AVI multimédiás fájlokat vagy éppen a CD-ROM, illetve DVD-ROM formában készült tartalmakat is.

E megoldások kihívást jelenthetnek a digitális megőrzésre nézve, mivel az archiváló formátum elavulása és a megfelelő emuláló eszköz hiányában nem juthatunk hozzá a „becsomagolt” tartalomhoz.

A korai digitalizálási projektek számos „digitális változatot” állítottak elő CD-ROM formában. Mind a CD-ROM mint média, mind az olvasásához szükséges hardver lassan kiszorul a használatból. Maga a CD-ROM formátum azonban tovább él, az olyan emuláló szoftverek segítségével, amelyek az eredeti archívum virtuális másolatát merevlemezről futtatva elérhetővé teszik, az összes eredeti funkcionalitással. Ennek előfeltétele azonban az, hogy az eredeti archívum szabványos formában – adott esetben a CD-ROM szabvány formájában – készüljön.

1.2.6.2.4.4 Formátumok kezelése

Amikor formátumról beszélünk, nem pusztán arra gondolunk, milyen típusú tartalmat tárol az adott fájl, és milyen jellegű szoftverrel kezeljük azt. A formátum paraméterek és funkcionalitások egész sorát jelenti, és a megőrzés egyik alapfeltétele, hogy az adott állomány minden jellemzője elérhető maradjon térben vagy időben más szoftverkörnyezetbe helyezve.

Például gondoljunk arra, hogy egyes képi fájltípusok (például a TIFF) lehetővé teszik több képoldal egyetlen állományban való tárolását. Ez a funkció azonban lassan kiszorul a gyakorlatból, mivel erre a célra sokkal többen használnak ma már PDF-fájlokat. A többoldalas TIFF-fájlok azonban még mindig szabványosak, ezért a megbízható képszerkesztő szoftvereknek, amelyekkel TIFF-állományok szerkeszthetők, támogatniuk kell ezt a funkciót.

A képi fájlok hosszú távú megőrzésére alkalmas szoftverek tekintettel vannak a kezelt formátumban foglalt összes jellemzőre.

A képi formátumnál általában a következő jellemzőkel kell számolni:

Azonban azt is fontos leszögezni, hogy a formátumban foglalt összes funkcionalitás követése csak olyan állományokra nézve várható el, amelyek egységessége garantált, integritása ellenőrizhető, és minden tulajdonságuk jól rögzített és dokumentált, tehát szabványosak.

Az olyan állományok, amelyek csak adott szoftverkörnyezetben, bizonyos eszközök jelenlétében funkcionálnak, lehetnek ugyan szabványosak, de nem teljesítik a digitális megőrzés feltételeit, mivel nincsenek felkészülve a használati körülmények változására. Ezek a zárt, szoftverfüggő formátumok, a hosszú távú megőrzés céljaira nem alkalmasak.

Szakirodalom:

1.3 A digitális gyűjtemény

1.3.1 A digitális objektum

A digitalizálás a legegyszerűbb értelmezés szerint azt jelenti, hogy analóg objektumokat alakítunk át digitális információvá. Ez a meghatározás azonban nagyon általános, mivel ezzel leírható az is, amikor például felvételeket készítünk egy digitális kamerával. Ilyenkor a digitális felvétel eredményére nem úgy tekintünk, mint a rögzített tárgy, személy vagy esemény „digitális változatára”, hanem információra, ami megőriz valamit annak tulajdonságaiból.

Ez az útmutató a képi alapú digitalizálásról szól, tárgya tehát az, hogyan lehetséges bizonyos objektumokról digitális képi reprezentációkat készíteni. Ez a feladat nagyfokú absztrakcióra kényszeríti a végrehajtóját, hiszen – bár a bennünket körülvevő világ nagy része látható –, mégsem képi, hanem térbeli objektumokkal vagyunk körülvéve. Ez azonban nem jelent problémát senkinek, mivel kultúránk egyik legrégebbi jellemzője a képi elvonatkoztatás képessége, azaz szinte bármiről tudunk értelmezhető képi reprezentációt alkotni. Miben más mégis a digitalizálás, mint a tárgyak leképezése?

A hagyományos képkészítő eljárások általában valaminek az ábrázolására törekedtek, melynek segítségével a leképezett objektum felidézhető, azonosítható, megismerhető. A digitalizálás továbblép ezen a ponton: a digitális reprodukció esetenként kiválthatja az eredetit, illetve mélyebb hozzáférést biztosíthat, mint a természetes megközelítés. Ebben az értelemben tehát azt mondhatjuk, hogy a digitalizálás az eredeti objektumot funkcionálisan helyettesíteni képes digitális információt rögzít. Amikor például egy filmben számítógépes grafikával előállított karakter szerepel, annak előállításához egy élő személy mozgását digitalizálják. Ez a digitális információ szinte semmit sem fog megőrizni a közreműködő színészről: csupán mozdulatait használják fel egy új funkcionális környezetben.

A könyvtári – és általában közgyűjteményi – digitalizálás esete különösen érdekes, mivel itt a digitalizált objektumok nagy része önmagában is információhordozó. Ahhoz azonban, hogy a könyvtári, levéltári dokumentumokban rejlő információhoz hozzáférjünk, és digitális információvá alakíthassuk, jelképesen át kell törnünk az objektum fizikai határait, és első lépésként a képi információként feldolgozható vetületeket kell megtalálnunk benne. A tudomány jelen állása szerint tudjuk képként digitalizálni egy könyv oldalait, borítóját, gerincét, mellékleteit, de a tapintását, szagát, illetve egyéb tulajdonságait nem. A képi alapú digitalizálás a könyvtárban tehát ezen a ponton úgy definiálható, mint az analóg könyvtári objektumok képi vetületeinek rögzítésével előállított digitális reprezentációk készítése.

Ha egy könyvjellegű dokumentumról készült digitális képek halmazát nézzük, a könyvekkel való tapasztalataink segítségével meg tudjuk állapítani, milyen típusú dokumentum mely részéről készült az adott digitális kép. Ha tudjuk olvasni az írásrendszert, és értjük a nyelvet, valószínűleg a dokumentum tartalmát is be tudjuk azonosítani. Ha ellenben egy bonyolult origami alkotás egyes oldalairól, vagy dél-amerikai csomóírással készült tartalom bizonyos szegmenseiről készült képeket látnánk, már sokkal kisebb eséllyel tudnánk megmondani, pontosan mit is ábrázolnak azok. Funkcionálisan pedig végképp nem helyettesítenék az eredetit, mivel nem is tudnánk, hol és milyen formában keressük az információt, amelyet eredetileg hordozott, s amelyet egy jó digitális reprezentációból ki kellene tudnunk olvasni.

Mindebből belátható, hogy a könyvtári dokumentumok digitalizálása több az adott tárgyakat ábrázoló képek készítésénél. Az adott objektumot funkcionálisan kell reprezentálnunk, minden részével, az azok közötti kapcsolatok megőrzésével és a közvetített információ elérhetővé tételével. Egy digitalizált dokumentum több, mint az adott eredetiről készült képek halmaza: olyan digitális objektum, amely az eredeti minden reprodukálható képi aspektusát tartalmazza.

Megőrzi

Egy jól elkészített digitális objektum digitális reprezentáció, amely az eredetiről készült képekből, az azokból kinyert információból és az összetartozást biztosító metaadatokból áll.

Másik oldalról nézve a digitális objektum önálló digitális állományokból áll. Egyetlen eredeti dokumentum digitális változata képi fájlok, illetve szöveges és metaadatokat tartalmazó állományok azonosíthatóan összefűzött kötege. Ezek az objektumok azonban csak a megfelelő közegben funkcionálnak:

A digitális dokumentumok létfeltétele a rendszerezett környezet, amelyben tárolhatók, azonosíthatók, s melyből kinyerhetők. A képi alapú digitalizálás végső soron ilyen rendszerek, a digitális gyűjtemények építése.

Szakirodalom:

1.3.2 A digitális gyűjtemény alkotóelemei

A digitális gyűjtemény szerkezetét áttekintve először azt vizsgáljuk meg, milyen típusú objektumok kerülnek bele. A rendszer működésének általános modelljére a fejezet végén térünk ki.

1.3.2.1 MASTER

A tényleges digitalizálási folyamat a bevitellel, tehát az adott objektum leképezhető vetületeinek digitális képként való rögzítésével kezdődik. Ezt hívjuk digitális bevitelnek, vagy röviden „bevitel”-nek („capture”). A folyamat eredményei a nyers digitális fájlok, amelyeket általában „master” állománynak („mester”) nevezünk.

A master képek a digitális reprezentáció építőkövei, ezek által az analóg objektum digitális tartalommá alakul át. Ezek a képek önállóan még nem digitális reprezentációi az eredetinek, hanem az összes, arról képként rögzíthető információ tárolói, amelyből a digitális dokumentum felépíthető.

1.3.2.1.1 Milyen a megfelelő master kép?

A master kép akkor látja el funkcióját, ha lehetővé teszi, hogy a dokumentumnak arról a szegmenséről, amit ábrázol, többé nem kell digitális bevitelt készíteni – hacsak nem következnek be radikális változások a digitalizáló technológiában. Ennek érdekében a képnek az eredetinek minden releváns jellemzőjét tartalmaznia kell. Hogyan érhető ez el?

1.3.2.1.1.1 Részletgazdagság

A master képnek teljes mértékben vissza kell adnia az eredeti valamennyi vizuálisan érzékelhető részletét. Ennél a pontnál rögtön kétségeink merülhetnek fel arra nézve, hogy mi lehet „vizuálisan érzékelhető”?

Gondolhatunk itt a szabad szemmel való megtekintésre, de tudjuk, az egyes embereknek eltérő látványélménye lehet ugyanarról a tárgyról, látási vagy színérzékelési zavarok, környezeti interferencia vagy egyéb tényezők okán. Bizonyos dokumentumokat általában nem is szabad szemmel nézünk meg, hanem projekciós eszközök vagy nagyítók segítségével. Itt az eszköz kalibrációja is befolyásolja a látványt. Nehéz tehát általánosan meghatározni, milyen részletgazdagság kell a bevitelnél ahhoz, hogy minden releváns részlet vizuálisan érzékelhető legyen.

Előfordul, hogy a bevitel részletességének mértéke annak fényében dől el, milyen formátumú kimenetet kívánunk készíteni a digitális változatból. Ilyenkor például az történik, hogy egy kézírásos vagy nagyon komplikált tipográfiát hordozó tartalmat alacsony felbontásban digitalizálunk, mert az a szándékunk, hogy annak még olvasható, de nem nagy méretű képi változatát feltöltjük a honlapunkra. Ez nem megfelelő döntés, mert nem tudhatjuk, hogy milyen technikai lehetőségek merülnek fel majd a jövőben, amelyeket szintén bevethetnénk, de esetleg jobb minőségű képi állományokat igényelnének. A jelenleg forgalmazott optikai karakterfelismerő szoftverek már olyan tartalmat is jól feldolgoznak, amelyek OCR-ezésére pár éve nem is gondoltunk volna, viszont jóval részletesebb bemeneti képeket igényelnek. Ha eredetileg gyenge minőséggel rögzítettünk, ezen lehetőségek eléréséhez újra kell digitalizálnunk a tartalmat.

Másik példánk lehet az intelligens képszolgáltató rendszerek terjedése. Ezek általában skálázható megjelenítésre is képesek, tehát egészen nagy képi állományokat is kezelnek, esetenként komplex címkézési (tag) lehetőségekkel. Ha a kezdet kezdetén nem voltunk előrelátóak, és csak az éppen rendelkezésre álló felhasználási lehetőségekben gondolkodtunk, akkor az új eszközök kihasználásához valószínűleg újra kell digitalizálnunk a tartalmat, és az előző master állományunk digitális hulladékká válik.

A megoldás az, hogy minden bevitelt – a közvetlen felhasználási céloktól függetlenül – a rendelkezésre álló eszközök és erőforrások által biztosított maximális részletgazdagsággal rögzítsünk.

A következő fontos tudnivaló, hogy nem ajánlatos ugyanazokat a beviteli paramétereket alkalmazni minden dokumentumtípusra nézve. Az egyes típusok között nagy különbségek lehetnek a részletgazdagság tekintetében, ezért érdemes különböző optimumot meghatározni olyan eltérő jellegű eredeti dokumentumoknál, mint például a korai metszetes síktérképek, vagy a XX. századi nyomtatott tankönyvek.

1.3.2.1.1.2 Redundancia

Az eredeti könyvtári objektumokról készített képek mindig kompromisszumok árán születnek abban a tekintetben, hogy egy térbeli tárgy adott vetületét rögzítik kétdimenziós formában. A nyomtatott és bekötött dokumentumoknál ez nem jelent problémát, mivel az oldalak és a borítók könnyen átvihetők képi formába, az azokon hordozott információ elvesztése nélkül. A kevéssé elterjedt formátumoknál azonban már nehezebb válaszolni a kérdésre: „melyek azok a részletek, amelyek még hozzátartoznak a dokumentum képként feldolgozható tulajdonságaihoz?” Gondolhatunk itt az előbb említett hajtogatott alkotásokra vagy a csomóírásra. Közelebbi példák tekintetében is akadnak sajátos esetek, amikor is több részletet kell figyelembe venni a bevitel folyamán, mint azt elsőre gondolnánk. Az egyes képek bevitelénél redundanciát alkalmazunk, azaz többet rögzítünk, mint maga az információtartalmat hordozó felület, biztosítva, hogy a master képek minden lehetséges részletet tartalmaznak a későbbi feldolgozáshoz.

Ajánlott módszerek:

Maguk a master képek a digitális megőrzés igazi tárgyai. Bár egyes szolgáltatási verziók is kiállhatják az idők és a technológiai avulás próbáját, elsősorban ezek az elsődleges képállományok azok, amelyeknek megőrzésére törekednünk kell. Ennek fő indoka az, hogy a jó master képhez mindig visszatérhetnek a megújuló technológiák, amíg csak képi alapú digitalizálás létezik. Újabb és korszerűbb felhasználási formátumokat generálhatunk anélkül, hogy a tényleges digitalizálás kockázatos és költséges folyamatát meg kellene ismételnünk. Elegendő másolatot készíteni a master állományokról – ennek a költség- és erőforrás-igénye rendkívül csekély.

Ennek érdekében azonban ezeknek az állományoknak meg kell felelniük további, rendkívül fontos formai kritériumnak:

A master képek végleges helye a digitális gyűjtemény virtuális polcain van. Az ilyen képekből álló digitális objektumok közvetlen használata nem kényelmes, és nem is ajánlott a tartalom felhasználói számára. Egyrészt nagy méretük, részletgazdagságuk és bizonyos szempontból redundáns tartalmuk miatt nem is alkalmasak a közvetlen használatra, másrészt lehet, hogy jóval több információt tartalmaznak, mint amennyit szolgáltathatunk vagy szolgáltatni szeretnénk. A master állományok voltaképpen archív példányok, amelyekhez akkor nyúlunk, ha bizonyos célra optimalizált használati változatot szeretnénk belőle generálni. Ilyen esetben sem közvetlenül a master fájlokon dolgozunk tovább, hanem azok másolatain.

1.3.2.2 Szurrogátum

A szurrogátum a master állomány – és azon keresztül az eredeti dokumentum – valamilyen felhasználási vagy szolgáltatási célra optimalizált derivatívuma. A felhasználók szempontjából ezek az állományok helyettesítik az eredeti dokumentumot, mivel ezt tekinthetik meg, olvashatják, keresnek benne. Funkcionális szempontból tehát a szurrogátumok a tényleges digitális változatok.

Amikor a digitalizálásról döntünk, legtöbb esetben a szurrogátumot képzeljük el először digitális dokumentumként mint az adott eredeti legcélszerűbb megjelenési formáját. Ahogyan már írtuk, nem szabad, hogy az erről a változatról alkotott víziónk uralja a digitális bevitel paramétereit – és a master állományok jellemzőit. Viszont mihelyst rendelkezésünkre áll a digitális nyersanyag, tetszőleges, az adott tartalomhoz legjobban illeszkedő megjelenítési formákat alkalmazhatunk.

A szurrogátumok esetében gyakran átlépjük az eredeti dokumentumok határát, és az adott tartalmakat valamely tartalmi vagy formai szempont szerint új egységekbe rendezzük át. Az is lehetséges, hogy az eredetik bizonyos formai jellegzetességeit teljesen eldobjuk, és csak bizonyos tartalmi rétegeket jelenítünk meg azokból. Egy digitalizált dokumentumból képzett szurrogátumok lehetnek például:

Míg a master állományok formátumának megválasztásánál a hosszú távú megőrzés a kulcskritérium, addig a szurrogátumoknál a könnyű kezelhetőség és az akadálymentes hozzáférés biztosítása az elsődleges szempont. Az állományok méretét igazítsuk a kényelmes használathoz, a részletgazdagságot optimalizáljuk arra a tartalmi jellegre, amit a szolgáltatás során elérhetővé kívánunk tenni. A dokumentum egyéb formai, illetve tartalmi jegyeiből igyekezzünk minél többet átültetni az elérhető metaadatokba.

Ennek könnyebb megértéséhez idézzük fel a következő példát. A képeslapok (üdvözlőlapok, postai levelezőlapok) általában nagyon részletgazdag, de eredeti formájukban viszonylag kis méretű képeket tartalmaznak. Jellemző rájuk továbbá, hogy a postai forgalmat megjárva, valamennyire rongált állapotban kerülnek a gyűjteményekbe, amelyen gyakran a digitalizálás utáni restaurálással lehet segíteni. Ezért az ilyen dokumentumok digitalizálásánál ajánlatos a bevitel során meglehetősen nagy felbontással dolgozni. Ezen kívül a képek tartalmát jellemző adatokat, a készítés idejére és a példány életútjára utaló információkat általában annak hátoldalán találjuk. Éppen ezért a képeslapok mindkét oldalát rögzíteni kell a digitális bevitelnél.

A közzétett változatok esetében a felhasználók nem valószínű, hogy nagy méretben akarják látni a képeslapok képes felét, hanem kezelhető – esetleg skálázható – méretű, kényelmesen böngészhető változatokat szeretnének. A képeslapok tartalmi adatait sem azok hátoldaláról fogják kikövetkeztetni, mert jobban szeretnének keresni a gyűjteményben a jellemző tulajdonságok alapján, illetve a böngészett képek mellett elhelyezett leírásokból kinyerni azokat. Ezt a kiegészítő tartalmat tehát kiemeljük magából a szurrogátumból, és az ahhoz tartozó metaadatokba integráljuk, megfelelően strukturált formában.

Online képeslap-gyűjtemények:

1.3.2.3 Legacy

A legacy kifejezés (angol, jelentése: 'örökség', 'hagyaték') a digitális kultúrában a jelenlegi eszközökkel elérhetőnél alacsonyabb hatékonyságú, elavult, de továbbélő megoldásokat jelenti. Ez a jelenség a technológiai fejlődés elkerülhetetlen velejárója, mivel a legkorszerűbb eszközök és módszerek bevezetése még optimális körülmények között is csak ritkán tud lépést tartani az új technológia megjelenésével.

A digitalizálási módszertan fejlődése jellemzően ilyen versenyfutás a realitások és az elméletileg rendelkezésre álló megoldások között. A közgyűjteményi digitalizálási folyamatok kezdeti szakaszában ez a helyzet fokozottan jellemző volt, mivel a szakma nagy része gyakorlati próbálkozások útján „képezte” magát ezen a téren, az információáramlás és a módszertani konvenciók terjedése sokkal lassabb, az eszközök beszerzése sokkal nehézkesebb volt.

A digitális objektumok számbavételénél óhatatlanul találkozunk a korábbi próbálkozások végeredményeivel. Ez azt jelenti, hogy bizonyos dokumentumoknak már létezik digitális változata, de azok nem felelnek meg a jelenkor igényeinek, mert:

Ezeket a digitális változatokat nevezhetjük „legacy” állományoknak.

Ha legacy anyaggal van dolgunk, nem feltétlenül kell azonnal annak felülírására és az eredeti anyag újbóli digitalizálására gondolnunk. Mérlegelni kell, hogy az anyag tényleges kvalitásai – ésszerű ráfordítással – lehetővé teszik-e bármiféle használati, szolgáltatási változat, azaz szurrogátum készítését. Amennyiben igen, az befolyásolhatja az adott anyagrészt jellemző digitalizálási prioritásokat, azaz a legacy változat szolgáltatása mellett a szakszerű digitalizálás elhalasztható.

Azt azonban nem szabad megengedni, hogy a legacy állomány a master anyag helyét foglalja el a digitális gyűjteményben, azzal az indokkal, hogy ez az egy „nyers” digitális változat létezik. Mindenképp rögzíteni kell a tényt, hogy a rendelkezésre álló nyersanyag nem felel meg a „master” kritériumoknak, jövőbeli felhasználásra nem vagy csak korlátozottan alkalmas. A legacy állományokat ideiglenes jelleggel se tároljuk a masterek helyén, legcélszerűbb szurrogátumként kezelni.

A legacy állományok gyakori előfordulásai a következők, a teljesség igénye nélkül:

Szakirodalom:

1.3.2.4 A digitális objektumok formátumai

Eddig arról volt szó, hogy egy adott kép milyen funkciót tölthet be a digitális gyűjteményben. Ez a fejezet azt tekinti át, hogy az egyes objektumok milyen fájlformátumokban fordulnak elő egy jól működő gyűjteményben.

1.3.2.4.1 Képi fájlformátumok

Azokat a specifikációkat tekintjük át, amelyek használata a képi információ tárolására és disztribúciójára kifejezetten ajánlható.

1.3.2.4.1.1 TIFF (Tagged Image Format)

A TIFF nagyméretű, többoldalas képi állományokhoz fejlesztett raszteres képformátum. Kifejezetten a szkennelt állományok kezelésére fejlesztett specifikáció. Sajátossága a „tagelt” (címkézett) adattárolás, amely kiválóan alkalmas sokoldalú, beágyazott metaadatok kezelésére. Veszteségmentes és veszteséges tömörítési algoritmusai is léteznek, ezek közül legelterjedtebb a tömörítésmentes LZW algoritmus.

A tömörítetlen TIFF jelenleg a legmegbízhatóbb képi formátum, és leggyakrabban ezt használják beviteli formátumként. Azért is jó, mert ez a legelterjedtebb OCR-szoftver – az ABBYY FineReader – kedvelt formátuma, amelyből az a leghatékonyabban dolgozik.

Ami kevéssé tudatosult: a TIFF nemcsak mint beviteli formátum, hanem mint archív (master) formátum is ajánlott. (Más beviteli formátum TIFF-be mentése viszont csak a RAW formátumok esetén érvényes.)

Tárolása kihívást jelent: egy átlagos A/3-as oldal elfogadható (kb. 400 dpi felbontás, 24 bites színmélység) TIFF-változata kb. 100 MB méretű képet fog eredményezni. A TIFF mind fájlkezelés szintjén, mind belső algoritmusokkal veszteségmentesen tömöríthető, így a tárolás tekintetében nem kell folyamatosan ezzel a mérettel számolni, de a feldolgozás legalább egy-két pontján igen.

A TIFF állományok saját beágyazható metaadat-szabvánnyal rendelkeznek, de befogadnak más adatformátumokat is, például EXIF formában.

Prezentációs formátumként nem – vagy csak igen nehezen – használható.

A TIFF a következő speciális jellemzőket kezeli: multifelbontás, több különálló képoldal tárolása egy fájlon belül. Nem támogatja a következőket: animáció, átlátszóság, vektoros alakzatok.

Leggazdaságosabb változata az LZW (Lempel-Ziv-Welch) tömörítést alkalmazó TIFF 6.0, ennek egyetlen hátránya, hogy nincs szabványként bejegyezve.

1.3.2.4.1.2 RAW

Ez a formátum valójában több szabvány összefoglaló neve. A RAW a digitális tükörreflexes kamerák belső fájlformátuma, amelynek egyedi tulajdonságai különfélék lehetnek a különböző gyártó cégek esetében. Az állományok fájlrendszeri kiterjesztése is eltér márkánként (pl. *.crw; *.kdc; *.orf; *.raf stb.)

A RAW formátumok funkcionalitásainak teljes köre általában csak azok natív környezeteiben – például a fényképezőgép vezérlő szoftverében – érhető el. A RAW állományok kalibrációjánál ugyanis a korrekciók részben úgy történnek, mintha az adott képet a fényképezőgép nézőkéjén keresztül, még az expozíció előtt látnánk. Ennek oka, hogy a RAW fájlokban tárolt információ pontosan megegyezik azzal, amit a fényképezőgép szenzora érzékel. Ezek a szenzorok csak a fény intenzitását „látják”, a színeket a szenzorokat bevonó szűrők adják a képhez. A szűrők utólagos manipulálásával állíthatók az alapvető színtulajdonságok.

A RAW állományok nem igazi fájlformátumok, hanem becsomagolt nyers adatfolyamok – ezért lett az összefoglaló nevük „raw” (angolul 'nyers'). Az egyes képkezelő szoftvereknek ismerniük kell az adott csomagoló algoritmust a fájl megnyitásához, ezért a RAW használata a digitális megőrzésben kockázatos lehet. Ezeket az adatokat gyakran átkonvertálják TIFF-be, vagy az Adobe Digital Negative (DNG) formátumba. Ez utóbbi megoldás képes megőrizni a RAW fájl teljes funkcionalitását, viszont csak Adobe komponensekkel kezelhető (Bridge, Lightroom, Photoshop).

A RAW formátumok esetében mindig elérhetők a képbe ágyazott technikai metaadatok EXIF formátumban. A tartalmi jellegű adatokat pedig XMP-sémában kódolva lehet elhelyezni a fájlban.

Szakirodalom:

1.3.2.4.1.3 JPEG

A JPEG (JPG, JFIF) és változatai a webes képszolgáltatás igényei szerint jöttek létre. A cél egy kezelhető, sokoldalú, jól kalibrálható képformátum kialakítása volt. A JPEG a digitális képi média „hétköznapi” formátumává vált. A JPEG szabvány neve a fejlesztő konzorciumra utal (Joint Photographic Expert Group), aktuális változata: ISO/IEC 10918-1:1994.

A JPEG több szempontból gazdaságosabb, mint a TIFF. Míg a JPG saját tömörítési algoritmusai veszteségesek, a veszteségmentes JPG fájlok is kisebbek, mint a hasonló paraméterű TIFF fájlok. Fájlrendszeri tömörítéssel (pl. ZIP) viszont tárolási mérete nem csökkenthető tovább.

Mind prezentációs, mind beviteli (master) formátumként elfogadható, de inkább az előbbi célra ajánlott, mert bizonyos feldolgozó műveleteket lassabban és nehézkesebben kezel.

A JPEG azért is sikeresebb kimeneti formátum, mert hatékonyan és jól skálázható módon képes a képi információ tömörítésére. A veszteségmentes, részletgazdag TIFF archív fájlokból például JPEG-be mentéssel és tömörítés alkalmazásával kényelmesen használható, gazdaságos méretű képek keletkeznek, amelyek jól használhatók például képek szolgáltatására az interneten.

A JPEG fájlokba ágyazhatunk EXIF formátumú technikai metaadatokat. Leíró jellegű adatok beágyazására általában az IPTC profil használható.

A JPEG-ben nem érhetők el a következő funkcionalitások: multifelbontás, animáció, átlátszóság, vektoros alakzatok, több különálló képoldal.

1.3.2.4.1.4 JPEG 2000

A JPEG korszerűbb, kifejezetten a digitális archiválás céljaira optimalizált változata. A JPEG 2000 a JPEG-nél korszerűbb tömörítési algoritmusokat alkalmaz, melyek veszteségmentes tömörítésre is képesek. A következő képi funkciókat támogatja: multifelbontás, animáció. Ideális formátum az archív (master) képek tárolására, mert sokrétűen kezeli a beágyazott metaadatokat, és a veszteségmentesen tömörített fájlok mérete is töredéke a TIFF-ének.

Előnytelen tulajdonsága, hogy nagyon gyenge a szoftveres támogatottsága. A képszerkesztők nagy része megnyitja ugyan, de eredeti formájában szerkeszteni nem tudja.

A JPEG 2000 elérésére használt leggyakoribb – főleg kereskedelmi vagy fejlesztői – szoftverek:

Ez a szabvány egyelőre nincs jelen a hazai gyakorlatban. Nemzetközi viszonylatban egyre gyorsabban terjed, főleg a tömeges digitalizálási projektekben. Mintaszerű alkalmazásai találhatók a Library of Congress (USA), illetve a Koninklijke Bibliotheek (Hollandia) projektjeiben.

JPEG 2000-profilok könyvtári környezetben:

Szakirodalom:

1.3.2.4.1.5 PNG

A PNG (Portable Network Graphics) az online képszolgáltatást támogató fájlformátum, amelyet az internet szabványaiért felelős szervezet, a W3C konzorcium dolgozott ki. A zárt szabványú LZW/GIF alternatívájaként. Kisebb képek esetében talán a legeredményesebb veszteségmentes tömörítési algoritmussal működik. Számos tulajdonsága webes grafikai eszközként is használhatóvá teszi, így elsősorban prezentációs célokra válik be, mivel a újabb változataiban az átlátszóság is elérhető.

Elviekben alkalmas beviteli és archivális állományok tárolására is, gyakorlatban azonban nagyobb állományméreteknél a tömörítési aránya nem gazdaságos, kicsomagolása erőforrás-igényes. További hátránya, hogy EXIF-adatok nem menthetők bele.

1.3.2.4.2 Metaformátumok

1.3.2.4.2.1 PDF

A PDF (Portable Document Format) specifikáció tulajdonképpen számos szabvány gyűjtőkategóriája, amelyen belül az egyes felhasználási területekre külön specifikációk léteznek. Könyvtári közegben a következők fontosak:

A mindennapi gyakorlatban általában a PDF/X szabvány változataival találkozunk, ezek eredetileg a digitális nyomda céljaira jöttek létre. Fejlesztés alatt áll az úgynevezett „PDF 2.0”, amely várhatóan egyesíti a jelenlegi szabályozások funkcionalitásait.

PDF 2.0

1.3.2.4.2.1.1 A PDF mint prezentációs formátum

A könyvjellegű dokumentumoknak és általában a könyvtári anyag nagy részének legelterjedtebb és legcélszerűbb prezentációs formája a PDF. Eredetileg a PostScript-technológiából kinőtt megoldás, amelyet azért hoztak létre, hogy az egyes dokumentumok szoftverkörnyezetek között mozogva is meg tudják őrizni formai jegyeiket. A PDF-fájlok felhasználói élménye nagyon közel áll egy tényleges könyvjellegű dokumentuméhoz, annak nagyon sok szerkezeti elemét magától értetődően tudja visszaadni. Általában a könyvtári digitalizálás legpraktikusabb eszköze. Sokrétű formai, strukturális és funkcionális jellemző kódolására képes, ennek ára azonban a formátum viszonylagos bonyolultsága.

A PDF-dokumentum többféle információtípus együttes tárolására és megjelenítésére képes, ezek lehetnek – többek között –:

A PDF a digitális kiadványszerkesztés (desktop publishing, DTP) nélkülözhetetlen formátuma, a könyvtári rendszer hatókörébe tartozó digitálisan született dokumentumok nagy része máig ebben a formában érhető el, legfeljebb az e-könyv formátumok és az XML/SGML alapú megoldások veszik fel vele a versenyt.

1.3.2.4.2.1.2 A digitális facsimile

A hazai könyvtári digitalizálás legelterjedtebb formája az úgynevezett digitális facsimile, amelyben a digitalizált oldalkép optimalizált változata látható, amely „mögött” található az optikai karakterfelismeréssel előállított szöveges változat, mely gépi keresést tesz lehetővé a tartalomban.

A PDF-formátum címkézés (tag) útján lehetővé teszi a tárolt tartalom intelligens, jól strukturált feltárását. Ez a megoldás elvileg a hazánkban elterjedt optikai karakterfelismerő szoftvereken keresztül is megvalósítható. A gyakorlatban ennek tudatos alkalmazása azonban ritka, aminek egyik oka az lehet, hogy ezzel a szoftverrel a dokumentumszerkezet alapos feltárása egyelőre csak aprólékos kézi munkával, vagy jelentős befektetéssel járó fejlesztésekkel lehetséges. Ennek egyszerű alternatívájaként viszont egyre inkább elterjedőben van a PDF-en belüli könyvjelzők használata a dokumentum belső szerkezetének vázlatos visszaadására.

1.3.2.4.2.1.3 A PDF mint archiváló formátum

Mind a PDF/X szabvány, mind a PDF/A szabvány alkalmas a könyvtári megőrzés céljaira. A jelenlegi PDF-eink többsége PDF/X, míg a PDF/A-t kifejezetten a digitális megőrzés céljaira alakították ki.

Míg a PDF-re általában úgy gondolunk, mint dokumentum-formátumra, valójában ideális csomagolószabvány, amely mind a képi, mind a szöveges tartalom tárolására megbízhatóan és gazdaságosan alkalmas, valamint a beágyazott metaadat-kezelés is egyszerűen megoldható benne (tulajdonképpen a legtöbb formátum közül a legegyszerűbben). Elméletileg számos feldolgozó szoftver képes PDF/A-ba menteni. Az archiváló funkció betöltéséhez azonban az ilyen mentés beállításainál olyan értékeket kell megadni, amelyekkel biztosítjuk, hogy az állomány teljes tartalma megőrződik, és a beágyazott képek is veszteségmentes tömörítéssel ágyazódnak a PDF-be. Nem minden szoftver teszi lehetővé a beavatkozást ezekbe a részletekbe a mentésnél. Másoknál ez a művelet a szoftver átlagos erőforrás-igényét meghaladó teljesítményt követel, és instabil működéshez, adatvesztéshez vezet. A PDF/A-technológia ilyen célú üzemszerű működése tehát még nem biztosított.

1.3.2.4.2.1.4 A PDF mint beviteli formátum

A PDF-et mint beviteli formátumot több, általában irodai célra kifejlesztett szkenner kezelőfelülete ajánlja fel. Egyes könyvtárak használják ezt az opciót. Ez a megoldás nagyon nehézkes, mivel ezeknél az eszközöknél a beállítási lehetőségek nagyon korlátozottak. A bevitel nyilván nem rögtön PDF-ben történik, hanem átmeneti képi formátumban, amelynek tömörítése és egyéb jellemzői nem mindig határozhatók meg jól. Az így készült PDF a közvetlen szolgáltatásra alkalmas – bár az ezekkel a szoftverekkel készített OCR rendkívül gyenge –, hosszú távú megőrzésre viszont nem használható.

1.3.2.4.2.2 DjVu

A DjVu szkennelt dokumentumok tárolására és prezentálására kifejlesztett szabvány, amelynek fő előnye a nagyon hatékony tömörítés. 1999-ben megjelent 21. verziója óta a szöveges index kezelésére is képes, tehát az optikai karakterfelismeréssel előállított tartalmakat is kezeli.

Hazai gyakorlatban azonban többnyire szöveges réteget nem, csak az oldalképet tartalmazó digitális változatok prezentálására használják, valószínűleg a hiányos szoftvertámogatottság miatt.

A DjVu leginkább az igényelt tárkapacitás és hardver-erőforrások tekintetében tud versenyre kelni a PDF-formátummal.

1.3.2.4.3 A fájlformátumok validitása

Az alább felsorolt eszközök nem fájlformátumok, nem is metaadatok, hanem valahol a kettő között helyezkednek el. Információval szolgálnak egyrészt a használt fájlformátumokról, másrészt segítségükkel az egyes állományok ellenőrizhetők abból a szempontból, hogy mennyire felelnek meg az alkalmazott szabvány elvárásainak.

1.3.2.4.3.1 JHOVE

A JHOVE (JSTOR/Harvard Object Validation Environment) egy JAVA alapon futtatható, digitális objektumok belső szerkezetének elemzésére, azok azonosítására és validálására szolgáló eszköz. Alapvető funkciói:

A JHOVE workflow modell

A JHOVE workflow modell [Forrás]

A JHOVE a JSTOR (digitalizált időszaki kiadványokat aggregáló szolgáltatás), és a Harward College kooperációjában érhető el, LGPL licensz alatt. Bár Java környezetben önálló futtatása is lehetséges parancsmód vezérléssel, legcélszerűbb felhasználási területe az OAIS-alapú objektumkezelő rendszerekbe való beépítés.

1.3.2.4.3.2 PRONOM

A brit National Archives fejlesztette ki, és tartotta fent mostanáig a PRONOM nevű fájlformátum-nyilvántartó adatbázisát. A PRONOM rendszere által tárolt és visszakereshető információk:

A PRONOM a regisztrált formátumokat egyedi azonosítóval látja el, ez a PRONOM Persistent Unique Identifier (PUID). Ezek az azonosítók a PRONOM rendszerén kívül, a formátumok globális azonosításában is elterjedtek.

Szakirodalom:

1.3.3 Metaadatok

Ebben a fejezetben, illetve a kiadvány egészében csak azokat a metaadatokkal kapcsolatos kérdéseket tekintjük át, amelyek a képi alapú digitalizálást közvetlenül érintik. Ez viszonylag szűk megközelítést jelent majd, de a digitális objektumok és a metaadatok kapcsolatának teljes körű tárgyalása szétfeszítené jelen dokumentum kereteit.

A metaadat fogalmának népszerű megközelítése – „az adat adata” – önmagában utal a kérdés komplexitására, már ami a digitális változatokat illeti. Ezek az állományok ugyanis – létmódjukat tekintve – maguk is „adatok”. Míg egy hagyományos dokumentumról önnön formai tulajdonságai a felületes tapasztalásnak is sokat elmondanak, a virtuális térben található tartalmak csak értelmetlen adatfolyamatot jelentenek, ha a metaadatok nem szegmentálják, rendszerezik és azonosítják azokat. Tehát ha a metaadat az „adat adata”, akkor a digitális állományok esetében egészen pontosan így fordítható: az adat, amitől „információvá lesz az »101111010010111«-jellegű adatfolyam”.

A digitális objektumok fogalmának bevezetésénél említettük, hogy ezen állományok rész-egész viszonyai nem egyeznek meg az általuk reprezentált egységekkel. Csekély annak a valószínűsége, hogy egyetlen képfájl megtekintésével pontosan be tudjuk azonosítani, hogy mely dokumentum változatát látjuk, mégis lesz a képen számos olyan információ, amely eligazítja a szemlélőt arra nézve, hogy mi látható azon. Ha egy nyomtatott könyv egyetlen digitalizált képoldalát látja, akkor a szöveg elhelyezése, a margók, a kötés pozíciója kétségkívül elárulja, milyen típusú dokumentum, melyik funkcionális egységét látjuk. Ha az adott kép az oldalszámot is tartalmazza, akkor az is tudható, hogy a dokumentum mely részét reprezentálja az adott képfájl, és így tovább. Mindezt azért tudjuk, mert – történelmi és kulturális meghatározottságunk révén – ismerjük a dokumentumtípusra vonatkozó konvenciókat és azoknak meghatározó szerkezeti elemeit. Ha visszatérünk azonban az inka csomóírás – a kipu – többször említett példájához, akkor ráébredünk, hogy egy ilyen jellegű „dokumentum” adott szegmenséről szinte semmit sem tudnánk megállapítani, hacsak nem vagyunk régészek, kriptológusok, vagy az ősi inka társadalmi elit képviselői.

Inka kipu. FORRÁS: http://hu.wikipedia.org/w/index.php?title=F%C3%A1jl:Inca_Quipu.jpg&filetimestamp=20071028175355

Inka kipu.
FORRÁS

Mivel maga a kipu is információhordozó, példája jól demonstrálja, miként közelítenénk meg egy digitális objektumot megfelelő metaadatok nélkül. Nem lenne elegendő információnk a következőkről:

A fenti példa meglehetősen bizarr, de talán megérthető belőle, hogy egy nem kellően metaadatolt gyűjtemény állományai a csomóírásos objektumhoz hasonló rejtjelezési problémákat fognak felvetni. Csakhogy az adatfájlokat nem rejtélyes, unikális artefaktumokként szemléljük majd, hanem értékelhetetlen digitális melléktermékként.

A metaadatok segítségével gyakorlatilag minden tulajdonság, relatív jellemző és tartalmi elem kifejezhető. Valamennyi objektumnak több megfogalmazható tulajdonsága van annál, mint amennyit bármilyen szituációban el tudnánk vagy akarnánk mondani róla. Nagyon fontos, és nem mindig egyszerű feladat annak eldöntése, hogy pontosan mely tulajdonságokat rögzítjük, és hogyan fejezzük ki azokat.

A könyvtár intézménye a metaadatok legrégebbi és legtermészetesebb előfordulási közege, ezért itt nyilván nem kell kitérnünk arra, hogy mennyire fontos a metaadatok jólformáltsága. A könyvtári adatszabványok sikeresen szabályozzák az adatok kinyerésének és ábrázolásának módját. Pontosan meghatározzák a következőket:

A metaadatok azonban nem csupán a közgyűjteményi világ sajátosságai, nagyon is hétköznapi eszközök. Mikor megcímzünk egy levelet, ráhímezzük a gyerekek tornazsákjára az óvodai jelet, felhelyezzük a rendszámtáblát a gépkocsira, akkor azokat a tárgyakat metaadatokkal látjuk el: valamiféle egyezményes kódrendszer elemeit használva közöljük az adott objektum bizonyos tulajdonságát. Ahogy a mindennapok részévé vált a digitális tartalom, ugyanúgy általánossá vált az igény arra, hogy el is igazodjunk ebben a tartalomban. Egy olyan instrumentális aspektusa alakult ki az életünknek, amely az állandó címkézések híján nem tud funkcionálni. Webcímek, illetve keresőfelületek segítségével érjük el a szükséges információkat, különböző másodlagos kódok útján (azonosítók, e-mail címek, virtuális identitások) kommunikálunk embertársainkkal, a térképek helyett globálisan kiosztott koordináták alapján tájékozódunk. A hétköznapi tevékenységeink során nemcsak használunk, hanem magunk is megállapítunk, készítünk és rögzítünk tartalomra vonatkozó adatokat, például a következő formában:

Napjainkban a metaadatok használata az írásbeliség másodlagos rétegét képezi. Ez megnöveli az elvárásokat a könyvtári tartalomhoz csatolt metaadatok minősége, kezelhetősége és gyors elérése iránt. Ez az igény pedig pozitív hatással van a leírás módszertanára, és rengeteg testre szabott eszköz készült és készül a különböző típusú adatok rögzítésére és terjesztésére. A változatosságot csak növeli, hogy a metaadatokat gépi környezetek is olvassák, emiatt sokféle célkörnyezethez kell alkalmazkodniuk.

A képi alapú digitalizálás kontextusában alkalmazott metaadatokat négy, egymásba fonódó szempontrendszerrel jellemezhetjük:

Szakirodalom:

1.3.3.1 A metaadatok jellemzése a funkcionalitás szempontjából
1.3.3.1.1 Leíró metaadatok

Amikor metaadatokra gondolunk, akkor általában ilyen jellegű információra asszociálunk: a könyvtárak által készített bibliográfiai leírások, a festmények mellett elhelyezett képaláírások, a könyvek címoldalán, illetve a weblapok felső részében közölt kiemelt címek, a tanulmányokhoz közölt idegen nyelvű összefoglalók, a blog-bejegyzésekhez, online képgalériákhoz mellékelhető tartalmi címkék. A leíró metaadat a tartalom azonosítását, értelmezését és visszakeresését teszi lehetővé.

Jellemző leíró adat a dokumentum címe, szerzője, a keletkezés ideje, képeknél az ábrázolt objektum megnevezése, a tartalom megjelölése. Leíró adatok származhatnak

1.3.3.1.2 Technikai metaadatok

Egy adott objektumnak lehetnek annak tartalmától és szerkezetétől független jellemzői is, amelyek azt képviselik, hogy milyen feltételek szükségesek az objektum tartalmának eléréséhez, mozgatásához vagy egyéb jellegű használatához.

Ezeket összefoglaló jelleggel technikai adatoknak nevezhetjük. Különösen fontosak a digitális dokumentumok esetében, amelyek használatához általában nem elegendő azok raktári azonosítója alapján megtalálni a keresett példányt, és leemelni a polcról.

Technikai adat lehet például a fájl formátuma, a lehetséges funkcionalitások felsorolása, a fájlformátum használt verziója, illetve arra vonatkozó információ, hogy milyen eszköz kell a megnyitásához. Ha egy állományról tudható, hogy JPEG formában érhető el, akkor tudjuk, hogy képkezelő szoftverre, vagy web-böngészőre lesz szükség a megnyitásához, és teljes szövegű keresést nem tudunk végezni benne.

Ide sorolhatjuk a jogosultságok megjelölését is. Előfordul például, hogy a digitalizált képeinket bárki megtekintheti, de csak korlátozásokkal, mert lementésük, illetve nyomtatásuk már nem megengedett.

A digitális tartalom egyik legnagyobb kihívása a szerzői jog, illetve az egyéb tulajdoni viszonyok védelme, erre számos megoldás létezik a másolás tiltásának megfogalmazásától egészen a tényleges – pl. jelszavas, időzáras vagy ismételt megnyitást korlátozó – funkcionális korlátozásokig.

A technikai metaadatok értelemszerűleg általában nem a felhasználónak szólnak. Ezek nagy része az állományok adminisztrációjának, a végső felhasználási formáig való eljuttatásának, illetve megőrzésének feltételeit írja le. A digitális tartalmat kezelő rendszerek tulajdonképpen a technikai metaadatok hálózatára épülnek, amelyben az egyes egységek, saját szerkezeti adataikkal, illetve a leíró információval külön vetületet képeznek.

1.3.3.1.3 Strukturális metaadatok

A strukturális metaadatok az egyes állományok közötti, illetve azon belüli viszonyokat írják le. Funkcionális szempontból ennél azonban tovább mennek, mivel ezek biztosítják a részegységek által alkotott objektum integritását – mint például a fűzés egy hagyományos könyv gerincében.

A strukturális metaadatok kifejezhetők például olyan metaformátumok szabványos apparátusával, mint a PDF, a METS/ALTO, vagy a különböző elemjelölő nyelvek (SGML, XML, HTML).

Ennek szemléltetésére az egyik legegyszerűbb példa, ha egy weblapon elhelyezett képgalériát látunk. Bár magát a tartalmat a képfájlok jelentik, a HTML-szabványban megfogalmazott navigációs felület teszi elérhetővé a képeket, meghatározza a sorrendjüket, vagy a köztük való navigálás módját, összeköti a képfájlokat a mellettük olvasható metaadatokkal. Ez esetben a HTML-kód egyrészt önálló információ, másrészt viszont az adott objektum – a képgaléria – létrejöttét és működését biztosító szerkezeti adat.

A strukturális metaadatok forrása lehet az állományokat kezelő digitális könyvtári rendszer is, amely minden egységet azonosít, és pontosan rögzíti azok helyét és funkcióját a tárolt objektumok rendszerében. Ez általában komplex objektumkezelő adatbázisok esetében fordul elő.

Szakirodalom:

1.3.3.2 A metaadatok lehetséges forrásai
1.3.3.2.1 Implicit (belső) metaadatok

Ezek az adatok az objektum saját elidegeníthetetlen tulajdonságaiból származnak. Ilyenek például a strukturális jellemzők, vagy a dokumentumba kódolt leíró adatok, mint az azokra nyomtatott cím, a festményeken található alkotói szignó. A digitális állományok keletkezésénél a beviteli eszközök is beleírják azokba saját paramétereiket. Valójában minden dokumentum nagyon sok implicit metaadattal rendelkezik, és ezek kezelésében az igazi kihívás azok kiválasztása, hogy melyeket kell ezekből más forrásban is elhelyezni, például a leíró adatok csoportjában. Egy digitális kép esetében például megállapítható az abban kódolt egyedi színárnyalatok pontos száma, mégis gyakrabban adják meg a színtárolásra választott színmélység adatát, mert tágabb kategória, így több adatkörnyezetben kezelhető.

1.3.3.2.2 Explicit (külső) metaadatok

Ezek az adatok olyan információt képviselnek, amelyek a dokumentumon kívülről, azt meghatározó speciális kontextusból származnak. Az ilyen adatok megállapítását általában különböző kompetenciák és eszközök teszik lehetővé. Egy fotó eredet-történetére például következtethetünk abból, hogy hol találtuk, vagy valaki rögzítette rajta a tudnivalókat – például ráírta a hátuljára.

A dokumentumok tematikus jellemzőit pedig gyakran előre meghatározott szemantikus, vagy faktográfiai fogalomkészletek – tárgyszójegyzékek, ontológiák – alapján határozzuk meg.

A külső metaadatok hozzáadó intellektuális tevékenység eredményeképp jönnek létre. Vagy külső forrásból kell meghatározni, vagy az explicit adatok ellenőrzésével, válogatásával és szakszerű átkódolásával kell megadni azokat.

1.3.3.3 A metaadatok helye a leírt objektumhoz viszonyítva
1.3.3.3.1 Beágyazott metaadatok

Egyes információk a dokumentum szerkezetébe ágyazódva léteznek, és a dokumentum esetleges mozgatásával követik is azt: ilyenek a beágyazott metaadatok. Mivel a digitális források duplikálása, más helyre vagy hordozóra másolása nagyon egyszerű, célszerű minél több adatot magukban az adatállományokban elhelyezni. Így az akkor is azonosítható lesz, ha az adott digitális dokumentumot eltávolítottuk eredeti környezetéből. Ma az online elérhető digitális tartalom legnagyobb része nem közvetlenül a létrehozó által biztosított felületen, hanem különböző keresőmotorokon, vagy a szociális média által biztosított tartalmi hálókon keresztül jut el a felhasználókhoz. Így egy önálló képfájl vagy PDF-állomány eredetére és tartalmára vonatkozó adatok csak akkor lesznek elérhetők, ha magában a dokumentumban is elhelyeztük – és a felhasználó tudja, hol kell keresni azokat.

A digitalizálásnál használandó adatformátumok kiválasztásánál olyanokat célszerű előnyben részesíteni, amelyek az adatok széles körét képesek jól elérhető formában tárolni. A PDF „adatlapjában” tárolt egyszerű információkat a legtöbb keresőmotor képes kiolvasni, az elterjedt képformátumok, illetve zenei fájlok adatait az újabb operációs rendszerek fájlkezelői is képesek kezelni.

A beágyazott metaadatok fő problémája az, hogy általában nagyon korlátozott, mit, és milyen formában ágyazhatunk be. A másik nehézséget az jelenti, hogy nem mindig egyértelmű az így elhelyezett adatok elérésének módja, főleg a képeknél, ahol a látható vízjelen vagy képszerkesztő szoftverrel ráégetett címkén kívül kevés leíró információ látható rögtön szabad szemmel. A dokumentum környezetében, ahhoz csatolva viszont sokkal változatosabb és könnyebben hozzáférhető adatot helyezhetünk el.

1.3.3.3.2 Hozzáfűzött metaadatok

A digitális objektumok ritkán állnak egyetlen önálló egységből. Egy képi alapon digitalizált dokumentumot képviselő strukturális egész általában több képfájlból és az azokat összefűző adatelemekből áll. Ezek lehetnek egyrészt a már említett strukturális metaadatok is, de beépülhetnek ide egyéb adatokat tároló fájlok is. A legjellemzőbb eset, ha a strukturált adatformában – például XML-állományban – szabványosan elkészített leírást helyezünk el, és azokat egyértelmű eszközzel a leírt objektumhoz kapcsoljuk, például úgy, hogy ugyanazt az elérési utat és fájlnevet rendeljük mindkettőhöz, vagy közvetlen hivatkozást helyezünk el egyik dokumentumon belül a másikra.

Ha digitális gyűjteménykezelő rendszert használunk, akkor mind a tartalmat képviselő állományaink, mind a metainformációk adatbázisban tárolódnak. Ez a megoldás biztosítja a metaadatok legjobb kihasználását, mivel dinamikus lekérdezéseket tesz lehetővé, amelyekkel a tartalom különböző jellemző szempontjai alapján képezhet tömböket, így annak minél több rétegéhez biztosít hozzáférést.

Szakirodalom:

1.3.3.4 A metaadatok lehetséges adatformátumai
1.3.3.4.1 Nem strukturált metaadatok

Mint arról fentebb már volt szó, metaadat az élet bármilyen területén keletkezhet. A mindennapi helyzetekben, pillanatnyi szükségszerűségből, egyszerű eszközökkel előállított információ lehet döntő fontosságú az adott dokumentum azonosításához vagy eléréséhez, lehet azonban használhatatlan adatfolyam, azaz kommunikációs zaj is.

Előfordulhat, hogy egy ismeretlen eredetű fotó hátoldalára kézzel írt szöveg az egyetlen információ az adott képről; az olvasó által egy könyv margóira írt tartalmi észrevételek azonban sokszor irrelevánsak, sőt lehetnek kifejezetten zavaróak is.

A digitalizálás során készített metaadatok is akkor töltik be megfelelően szerepüket, ha a megfelelő helyen, jól értelmezett formában készülnek. Azt is figyelembe kell venni, hogy a digitális adatokat nemcsak emberek, hanem gépi rendszerek is olvassák, amelyek a szabad formátumú adatokat nem tudják hatékonyan kezelni. Egy képfájl mellett egyszerű szövegfájlban vagy a weblapon, annak környezetében elhelyezett leírást jól használják az emberi felhasználók, de a legtöbb mesterséges intelligencia nem.

A metaadatok egyik fontos funkciója a jellemzett források azonosítása és elérhetővé tétele mellett azok mobilitása, átalakíthatósága vagy mozgatása egyik funkcióból vagy rendszerkörnyezetből a másikba. Ennek megvalósításához fontos a szabványos adatsémák használata.

1.3.3.4.2 Adatsémák

Míg közgyűjteményi téren az adatok készítésére és tárolására szolgáló szabványok a munkafolyamatok alapvető eszközei, a digitális tartalomipar kialakulásával és szélesedésével a nagy tömegben keletkező adatállományok kezelésére egyre több információs séma születik. Amellett, hogy szinte áttekinthetetlenül nagy számban léteznek, halmazuk nagyon megosztott a különböző felhasználási lehetőségek és célterületek egymást átfedő szempontjai szerint. A rendelkezésre álló adatsémák lehetnek:

Nagyon fontos, de körültekintéssel kezelendő kérdés a használt adatséma szabványossága. Vannak olyan adatmodellek, amelyek régóta jelen vannak a közgyűjteményi életben, kellően (el)ismertek és elterjedtek, használatuk mégis egyre nagyobb kihívást jelent a digitális források esetében. Magyar viszonylatban ilyen például a HUNMARC szabvány, amely elvileg a könyvtári szféra univerzális adatkezelő eszközeként kezdte pályáját, manapság azonban egyre több probléma van a helyi implementációkkal, az újonnan megjelent tartalmi típusok kezelésével, az egyéb adatszabványokkal való kommunikációval, illetve a naprakészséget biztosító, állandó karbantartó háttérrel. Nem csak a HUNMARC van ilyen helyzetben: a MARC 21-ben gyökerező lokális szabványok közül nem egy szorul háttérbe a gyorsabban alkalmazkodó, jobb apparátussal rendelkező anya-szabvány javára.

Egy séma „szabványosságának” értékeléséhez nem elég tehát a specifikáció hatósági bejegyzése, hanem a következő tulajdonságok értékelése alapján javasolt a döntés:

1.3.3.5 Szemantikus modellek, ontológiák

Nem minden kifejezhető jellemző olvasható le közvetlenül az érintett objektumról. Számos adat forrása az objektumon kívüli tudás lesz. Amikor ilyen jellegű tulajdonságokat írunk le, akkor a dokumentumot más hasonló objektumokkal helyezzük egy halmazba, amelyek osztoznak az adott jellemzőben. Ennek az a feltétele, hogy az adott jellemzőt mindig egy előre meghatározott formában fejezzük ki, vagy az adott kifejezési eszközben kódoljuk. A fizikai méretadatokat egyezményes mértékegységekben adjuk meg, az időadatokat szabályos dátumformában közöljük. A közreműködő személyek nevét azok egységesített formájában rögzítve biztosítjuk, hogy minden, a személyhez köthető objektum leírása hivatkozhasson rá.

Az egységesítés további területe a dokumentumokban őrzött tartalom feltárását elősegítő szemantikus modellek kiépítése. Ezek nemcsak a tartalom pontosabb meghatározását, hanem az azzal összefüggő fogalmi elemekkel fennálló viszonyait is ábrázolják. Ezúton a metaadatok segítségével lehetővé válik a leírt objektumok által őrzött tartalmi elemek kognitív hálózatba ágyazása.

Az élettan (biodiverzitás) tematikájára épülő digitális gyűjtemények a legvégsőkig kihasználják ezt a lehetőséget. Az metaadatokban közölt tematikus információk az adott tudományterület szemantikai apparátusára épülő taxonómiai elemekkel fejezik ki az élővilág adott dokumentumban tárgyalt elemét. A tematikus címke, tárgyszó vagy egyéb leíró elem megadásánál azonban lehetővé teszik a továbblépést a következő, vagy tágabb, illetve bővebb szemantikai kategóriára az adott fogalmi rendszeren belül. Ezzel a tematikus keresést a megismerés folyamata felé terelik.

Ebbe a csoportba a következő modelleket sorolhatjuk:

Szakirodalom:

1.3.3.6 Migrációs platformok

Előfordulhat, hogy az egyes gyűjteményekkel kapcsolatban feltárt és őrzött, különböző funkciójú, forrású és elérhető adatokat – bizonyos szempontú szelekció után – egyetlen sémában kell összefoglalni. Ez olyan esetben történhet, ha például egy adott gyűjtemény másik környezetbe költözik – például egyik tartalomkezelő rendszerből a másikba –; vagy ha a teljes gyűjteményt magába olvasztja egy másik. Az is lehetséges, hogy csak a leíró adatokat adja át intézményünk egy, az összes hasonló gyűjtemény adatait begyűjtő metarendszernek.

Az ilyen migrációs műveletek automatizálásához elengedhetetlen, hogy az összes különböző adatot egyetlen, minden adatelemet és azok összes formai megkötését értelmezni képes környezetbe konvertáljuk. Ilyen környezetek a következők lehetnek:

1.3.3.7 A képi digitalizálási folyamatok szempontjából könyvtári területen ajánlott adatsémák

Az összes releváns adatséma ismertetése nem fér bele e dokumentum kereteibe. Többségükről nem is tudnánk felelősséggel nyilatkozni, hiszen a hazai szakmai horizontról csak egy részükről nyerhető értékelhető, primer információ. Ezen felül az ismertetésben inkább a képi információ leírására alkalmas specifikációkra koncentrálunk.

Sajnos, a közgyűjteményi munka gyakorlati körülményei – és nehézségei – gyakran elszigetelnek az egységesítés és egyszerűsítés irányába mutató trendektől. Előfordul, hogy a meglévő lehetőségek implementálásánál egyszerűbb vagy vonzóbb megoldás egy új megközelítés megálmodása, és ezzel újabb specifikáció – vagy annak „látszó tárgy” – megtervezése. Az alábbi ábra jól érzékeltet a jelenlegi helyzetet az adatszabványok univerzumán belül.

1.3.3.7.1 Seeing Standards

Seeing Standards

Seeing Standards. (Nagyobb változatért az eredeti forrásra kell látogatni.)

A Jenn Riley és Devin Becker által összeállított „Seeing Standards” című lista 2010-ben készült, és az akkori horizonton relevánsnak tűnő 105 szabványt rendszerezi infografika, illetve szöveges kézikönyv formában.

Nyilvánvaló, hogy a rendelkezésre álló szabványokból túl sok van, és az is megjósolható, hogy – éppen változatosság csökkentése érdekében – továbbiak fognak keletkezni.

How Standards Proliferate? Forrás: http://xkcd.com/927/; via: http://fileformats.wordpress.com/2011/07/20/xkcd/

How Standards Proliferate? Forrás; via

1.3.3.7.2 Dublin Core

A Dublin Core (DC) adatsémát kifejezetten elektronikus források feltárására fejlesztették ki, és máig a legelterjedtebb és az egyéb adatprofilokkal legsikeresebben kommunikáló szabvány. Sikerességének egyik mutatója, hogy a leíró adatok tekintetében a legtöbbször Dublin Core formátumban találkozunk beágyazott, illetve rendszerek között kommunikált adattal.

A Dublin Core alapvető szerkezete nagyon egyszerű, 1999-es létrejötte óta ugyanazt a tizenöt alapvető adatcsoportot használja.

A Dublin Core elemkészlete:

Komondor-kutyák az Abruzzi hegyekben

Komondor-kutyák az Abruzzi hegyekben

A fent látható kép analóg (1. kép) és digitális (2. kép) leírása Dublin Core-ban:

Elem Leírás 1. kép: metszet 2. kép: digitális kép
Title (Cím) A dokumentumot azonosító megnevezés Komondor-kutyák az Abruzzi hegyekben Komondor-kutyák az Abruzzi hegyekben
Creator (Alkotó) A dokumentum tartalmát létrehozó entitás Bucsánszky Alajos Bucsánszky Alajos
Subject (Témakör) A dokumentum tartalmának tematikája Kutya, komondor, Canis lupus familiaris, pásztorkutya, Abruzzo, Olaszország Kutya, komondor, Canis lupus familiaris, pásztorkutya, Abruzzo, Olaszország
Description (Leírás) A dokumentum tartalmának leírása Három komondor, magashegyi tájban, háttérben birkanyáj és pásztorok Három komondor, magashegyi tájban, háttérben birkanyáj és pásztorok
Publisher (Kiadó) A dokumentum elérhetővé tételéért felelős entitás Schmid Antal Országos Széchényi Könyvtár
Contributor (Közreműködő) A dokumentum tartalmának létrejöttében közreműködő entitás Balásfalvi Orosz József [szerkesztő] Renkecz Anita [digitalizáló]
Date (Dátum) A dokumentummal kapcsolatos esemény időpontja 1834 [készülés időpontja] 2011.06.02. / 18:47:37 [digitális szurrogátum mentése]
Type (Típus) A dokumentum tartalmának típusa Állókép, szöveg Állókép, szöveg
Format (Formátum) A tartalom fizikai jellege metszet JPEG-formátumú kép
Identifier (Azonosító) A dokumentumot környezetében egyértelműen azonosító adat Hu B1 H1079 36/37. old. hu_b1_H1079_­1834-35_05_­suppl05.jpg
Source (Forrás) Utalás a forrásra, melyből az adott dokumentum származik Fillértár 5. szám (1834. márc. 29.) DMEK­012201 (az OSZK digitális gyűjtemény)
Language (Nyelv) A dokumentum tartalmának nyelve magyar magyar
Relation (Kapcsolat) Utalás kapcsolódó dokumentumra 2. kép 1. kép
Coverage (Kiterjedés) A dokumentum tartalmának bármilyen szempontú kiterjedése 152 x 128 mm 1,33 MB
Rights (Szerzői jogok) Információ a dokumentummal kapcsolatos szerzői jogi megkötésekről Szerzői jog elévült Tulajdonos: Országos Széchényi Könyvtár

A Dublin Core fejlesztésénél a legfontosabb szempont a következetesen fenntartható egyszerűség volt. Ezzel egy erőforráskímélő, könnyen implementálható adatséma jött létre. E szerkezetnek további forradalmi előnye a skálázhatóság, azaz hogy ugyanazzal a sémával gyűjtemények több különböző rétege leírható. A DC-elemekkel feltárhatók összefoglaló jelleggel teljes gyűjtemények, részdokumentumok, illetve akár egyedi képállományok is. Ezek minden egyes réteg esetén önálló leírást jelentenek. A Dublin Core alkalmazásánál külön rekordot kell készíteni egy adott dokumentum különböző változataiból is. Mindkét esetben a különböző szempontból összetartozó elemek leírásai összeköthetők a Relation adatelem segítségével.

A Dublin Core honosítását a Nemzeti Digitális Adattár készítette el, nem sokkal indulása után. Az adatbázis máig ezt a specifikációt használja, azaz a csatlakozó adatszolgáltatóknak ebben a formában kell átadniuk a metaadatokat. Az elkészült magyar változatok:

A Dublin Core elterjedtségének másik oka a nagyfokú rugalmasság. A szabvány elviekben ugyanis gyakorlatilag tetszőleges finomítási lehetőségeket tesz lehetővé a tizenöt adatelemen belül. Ezen változatok összefoglaló neve: Minősített (Qualified) Dublin Core.

A fő adatelemek alá sorolható minősítők mellett megengedett azok kiegészítése is továbbiakkal. Ez azonban az interoperabilitás esélyeit rontja, ha az adatok rendszerszintű migrálására kerül sor, mert ismeretlen elemek között kell megfeleléseket képezni. Sokkal könnyebb elvégezni az adatsémák lefordítását (mapping), ha csak az elemek másodlagos tulajdonságai szabályozottak lokálisan.

A legtöbb elterjedt adatszabványhoz hasonlóan, a Dublin Core adatok legtermészetesebb disztribúciós formája az XML-nyelv.

A Dublin Core – a várakozásokkal ellentétben – nem lett végül az internet meghatározó metaadat-sémája. A web-tartalmak formáját meghatározó újabb szabványok kezdik kiközösíteni, és a szemantikus web kialakulását segítő mikroadat (Microdata) eszközök bevezetését támogatják. Ez nem jelenti azt, hogy a hálózati adatcserében nem használható a DC, csupán a HTML-jellegű formátumban publikált dokumentumokban kell eltekinteni a használatától.

1.3.3.7.3 VRA

A Visual Resources Association az Egyesült Államokban alakult, könyvtárosokból és vizuális médiával foglalkozó szakemberekből álló testület. Az általuk kifejlesztett és karbantartott adatséma a Visual Resources Association Core (VRA), amely a Dublin Core alapelveihez és felépítéséhez hasonló, de kifejezetten a vizuális objektumok feltárására készült. Ennek segítségével a képi médiára jellemző tulajdonságok ábrázolhatók, mégpedig úgy, hogy az egyes elemekben közölt adatok – rekordonként külön-külön – érzékenyek az adott vizuális alkotás különböző változataira jellemző tulajdonságokra.

A VRA tárgyának az emberi kultúra által létrehozott vizuális alkotásokat és az azokhoz köthető képobjektumokat tekinti, tehát adott alkotás esetében eleve többféle reprezentációval számol. Adatsémájával rögzíthetjük egy eredeti kép (festmény vagy fotográfia) adatait az adott formátum paramétereinek megfelelően, majd mindezt megtehetjük annak nyomtatott reprodukciójával vagy diaformátumú fotójával, illetve digitális változatával.

A Dublin Core-hoz hasonlóan a VRA 17 eredeti adateleme tovább finomítható, ezzel minősített (qualified) VRA-sémák hozhatók létre. A VRA rekordoknál is az XML a leggyakoribb tároló formátum.

VRA leíró elemek és attribútumaik:

Element (Elem) Rövid meghatározás „A” leírás: Mű „B” leírás: Leképezés 1 „C” leírás: Leképezés 2
[Leírás típusa] Lehet Work (mű), collection (gyűjtemény), vagy image (leképezés) Leképezés Leképezés
Agent (Közreműködő) Az alkotásban, tervezésben, létre­hozásban közre­működő személyek és csoportok Ismeretlen pálos szerzetes, Ráfael Csaba [fényképész] Országos Széchényi Könyvtár, Pytheas Kft. [digitalizáló]
culturalContext (Kultúrkör) A műhöz vagy a le­képezéshez kapcsolódó kultúrkör Reneszánsz, katolikus egyház, pálos rend, nagyvázsonyi pálos kolostor, Kinizsi-család, kódex u.a. u.a.
Date (Dátum) Az alkotás, tervezés, létrehozás időpontja 1492–1494 (készítés) 1990-es évek (fotózás) 2005-08-04 (digitalizálás)
Description (Leírás) Szöveges megjegyzés a műről vagy a leképezésről A számos iniciálét és lapszéldíszt tartalmazó kézirat második oldalán a szöveg első hét sora melletti téglányban holdsarló fölött Szűz Mária mint Napbaöltözött Asszony látható, glóriával, kezében a gyermek Jézussal. Az oldal alján a Kinizsiek és a Magyar-család címere látható. u.a. u.a.
Inscription (Felirat) A képen készülése során, vagy később elhelyezett jelek, illetve szövegrészek „IEwethek erewlyewnk Iſtennek wygadyonk my ydweſſeeges wronknak: Elewl wegyewk ew orczayath haala adaaſban ees ſolthary dycherethbeen wygadyonk neky : Bodoghſagos zyz marianak thyztheſſegebeen: Vygaſaagos dycheretheth mondyonk wrnak Merth nagy wr aaz yſten: ees nagy kyraal mynden yſteneknek” u.a. u.a.
Location (Hely) A mű vagy leképezés lelőhelye Országos Széchényi Könyvtár, Kézirattár Országos Széchényi Könyvtár, Kézirattár Országos Széchényi Könyvtár
Material (Alapanyag) Az anyag, amiből a mű vagy a leképezés készült Pergamen, tinta Diapozitív Digitális média
Measurements (Méretadatok) Méret, alak, lépték, dimenziók, forma, tárolási konfiguráció 150x113 mm 70x103 mm 800x933 pixel, 512,82 KB
Relation (Kapcsolat) A művet és a leképezést beazonosító, annak egyéb változataihoz való viszonyát leíró kifejezések A mű a „Festetics-kódex” néven ismert, „MNy 73, Facs. 1885” jelzetű kódex második lapjának verzóján található. A műről színes diapozitív fotó („B” leképezés) és digitális változat is létezik („C” leképezés) Ez a leképezés illuminált kódexlapról („A” Mű) készült, melynek digitális változata is készült(„C” leképezés). „A” Mű (illuminált kódexlap) egyik digitális változata. A műről diapozitív fotó változat is létezik („B” leképezés).
Rights (Szerzői jog) Szerzői jogi rendelkezések Országos Széchényi Könyvtár u.a. u.a.
Source (Adatforrás) A leírt információt biztosító forrás Magyar Nyelvemlékek honlap; Festetics-kódex. 1494 előtt. Közzéteszi N. Abaffy Csilla. Budapest, 1996. (Régi Magyar Nyelvemlékek, 20.) u.a. u.a.
stateEdition (Változat) Több változatban létező mű vagy leképezés adott verzióját azonosító információ n/a n/a JPEG-változat
stylePeriod (Stílus/korszak) Meghatározó stílus, történelmi korszak, irányzat, melynek jelleg­zetességei feltűnnek a műben vagy a leképezésben 15. század, reneszánsz 15. század, reneszánsz 15. század, reneszánsz
Subject (Téma) A művet vagy a leképezést leíró, azonosító vagy értelmező kifejezések imádságoskönyv, zsoltár, Szűz Mária, Jézus Krisztus, Szűz Mária kis zsolozsmája (Officium parvum Beatae Mariae Virginis), Kinizsi Pálné Magyar Benigna u.a. u.a.
Technique (Technika) A készítési folyamatban használt eljárások Bastarda írás, illuminálás Fényképezőgép (ismeretlen típus) I2S CopiBook (digitalizáló berendezés)
textRef (Utaló) A műhöz vagy a le­képezéshez kapcsolódó egyedi, szöveges azonosító MNy 73, Facs. 1558 fol. 2v; Festetics kódex, fol. 2v Facs. 1558 fol. 2v; Festetics kódex, fol. 2v hub1_festetics­_mny73_p002b.jpg; Festetics kódex, fol. 2v
Title (Cím) Cím vagy azonosító frázis Festetics-kódex, 2 lap verzó u.a. u.a.
Worktype (Típus) A leírt mű vagy leképezés típusa illuminált kódexlap színes fénykép digitális kép
1.3.3.7.4 SEPIADES

A SEPIADES (SEPIA Data Element Set) adatséma az Európai Unió által támogatott SEPIA (Safeguarding European Photographic Images for Access) projekt keretében jött létre. Célja a fotográfiákat tartalmazó gyűjtemények feltárását és megőrzését segítő adatelemek biztosítása. A Dublin Core-tól és a VRA-tól eltérően nem társít külön rekordot az adott kép minden, különböző hordozón vagy formátumban elérhető változatához, hanem egy leírási objektumként kezeli az adott alkotást, minden reprezentációjával együtt. Az egyes reprezentációs formákra specifikusan jellemző tulajdonságoknak mind helye van az adatelemek között, valamint külön rekordszegmens áll rendelkezésre a kép vizuális tartalmának – tehát az ábrázolt tematikának – leírására. A SEPIADES elsődleges célja azonban teljes fotógyűjtemények archiválásának vezérlése, így teljes gyűjtemények adminisztratív adatainak kezelésére is alkalmas.

A SEPIADES rekord egy nézete. FORRÁS: http://www.ica.org/download.php?id=1266

A SEPIADES rekord egy nézete. FORRÁS

A SEPIA projekt keretében az adatséma mellett készült a SEPIADES-rekordok bevitelére és visszakeresésére használható, nyílt forráskódú alkalmazás, amelynek segítségével bárki leírhatja gyűjteményét, és azokat Dublin Core-ba kódolt XML-formátumban le is mentheti.

1.3.3.7.5 MARC

A MARC (MAchine Readable Cataloging) eleinte kifejezetten a könyvtári bibliográfiai feltárás és adatszolgáltatás számára készült formátum. Kezdeti változataiban nagyon dominánsak voltak az eredeti funkcionalitás – tehát a hagyományos könyvtári dokumentumtípusok – által meghatározott jellemzők. Ezt a tulajdonságát lokalizált változatai (HUNMARC, USMARC) örökölték, ám ez problémákat jelent, főleg a különböző digitális elérési módok, az egyes verziók közötti kapcsolatok és az újonnan megjelenő szemantikus és formai jellemzők kezelése terén. Hazánkban a legtöbb hagyományos dokumentumokat kezelő, illetve hibrid rendszerek nagy része lokális MARC alapon működik, vagy legalább támogatja azt. Ez igaz a kifejezetten digitális dokumentumokat kezelő szoftverek (Jadox, DigiTool) helyi implementációira is.

A MARC használatára nézve a Magyar Országos Közös Katalógus (MOKKA) projekt keretében készült honosított útmutató, amely a MOKKA projekthonlapon található.

A MARC adatsémák mindegyike a Library of Congress által fejlesztett és felügyelt MARC 21-es modellen alapul. Ez a szabvány nemcsak naprakész és jól karbantartott, de funkcionálisan is rendszeresen bővül, ezzel egyre inkább alkalmasabbá válik a digitális források feltárására.

A MARC szabványok egyik komoly erőssége a kontrollált adatkészletek – például egységesített nevek, nyelvi, földrajzi kódok – kezelése. A MARC 21 különösen nyitottnak mutatkozik az ilyen ontológiák befogadása iránt. Emellett a lokalizált MARC-ok mindmáig a MARC 21-hez térnek vissza az elérhetőségi (holding) adatok közlésénél. Ez a digitális forrásoknál különösen kényes pont, mivel azok a további lehetséges változatok és formátumok és az azok közötti viszonyok ábrázolásának igénye egyre nagyobb kihívást jelent.

A MARC eredeti formájában a gépi értelmezésre optimalizált adatfolyam volt. Manapság azonban sokszor van szükség az adatok közvetlen betekintéssel való értelmezésére, ezért sokkal célszerűbb forrás-szinten is olvasható megjelenítési formátumokat alkalmazni – ilyen például az adatkészletek XML-ben való megfogalmazása, amely az adatok rendszerek közötti átadását is megkönnyíti. Ezért a nehézkesen kezelhető, csak bináris visszafejtéssel olvasható MARC adatformátum mellett megjelent a MODS (Metadata Object Description Schema, „Metaadat-objektum leíró séma”). Ez lényegében a MARC által kifejezhető, részletgazdag és szabályozott adatok XML-formátumban való megjelenítése és kezelése. A MARC-ban való adatrögzítéshez eddig komplikált, gyakran költséges könyvtári rendszerekre volt szükség, amelyek előállították a bináris rekordformátumot. Ebben a formában az ilyen adatok egy XML-szerkesztő és validáló eszközzel is adminisztrálhatók, miáltal a séma szélesebb körben elérhetővé válik. Az XML-kódolás továbbá megkönnyíti a más adatszabványokkal való kooperációt is, és lehetővé teszi, hogy adott gyűjtemény különböző szintjeit jellemző metaadatokat különböző formában kódoljuk. Például:

Az adattárolást és az adatcserét XML-ben megoldva mindhárom adatréteg bevonható egy metarendszer felügyelete alá.

MODS rekordminta részlete. FORRÁS: http://presentations.ala.org/images/9/98/Leonard.pdf

MODS rekordminta részlete. FORRÁS

1.3.3.7.6 FRBR

Az Functional Requirements for Bibliographic Records (FRBR) olyan szemantikai modell, amely azt ábrázolja, hogyan viszonyul egy felhasználó a bibliográfiai adatbázisokban adott keresőfeltétel alapján megtalált rekordok halmazához.

Az olvasók általában nem bibliográfiai rekordokat és az azokat azonosító dokumentumokat keresik, hanem a vonatkozó tartalmat, bármilyen formában. A hagyományos bibliográfiai szemlélet tipológiai megkötései kisebb átjárást tettek lehetővé a valamilyen szempontból funkcionálisan rokon tételek között.

Az FRBR három csoportba sorolja a funkcionális modell szereplőit:

  1. Intellektuális alkotások négy lehetséges szintje: (Work), kifejezési forma (Expression), megjelenési forma (Manifestation), példány (Item);
  2. Személy és testület;
  3. Fogalom, tárgy, esemény, helyszín.

Az FRBR elméleti alapjai ütemesen nőnek, és bár létezik a modellnek egy HUNMARC-ra készített kísérleti levetítése, tényleges implementációja nem látható.

Szakirodalom:

1.3.3.7.7 A digitális megőrzés környezeteihez definiált adatsémák (NISO, PREMIS)

Az USA-ban működő National Information Standards Organization szervezet által készített szabvány a ANSI/NISO Z39.87 - Data Dictionary - Technical Metadata for Digital Still Images, amely a digitális képeket jellemző technikai metaadatok listáját tartalmazza. Nem igazi metaadat-séma, hanem az összes lehetséges adattípust számba vevő lista. Az ajánlás alapján a MARC szabványokat felügyelő testület készítette el az XML-formátumban kódolható sémát, ennek neve MIX (NISO Metadata for Images in XML).

Az OAIS-modell az első koncepcionális vázlat a hosszú távú digitális megőrzést lehetővé tevő rendszerek tervezéséhez. A PREMIS egy ilyen rendszer esetében implementálható, kifejezetten adminisztratív jellegű metaadat-szabvány.

A modell szerint az archiválási funkciók vezérlése érdekében a következőkről kell adatokat rögzíteni:

  1. intellektuális alkotás (Intellectual Entity),
  2. ahhoz kapcsolódó digitális objektumok (Objects), a megőrzés érdekében történt események – pl. beszerzés, másolat készítése, restaurálás stb. (Events),
  3. közreműködők – szerzői jogok birtokosa, digitalizáló, a megőrzést végző intézmény stb. (Agents),
  4. jogi információ – hozzáférési, felhasználási korlátozások (Rights).

A PREMIS annyira adminisztratív szemléletű, hogy csak a 2-4. pont számára biztosít adatelemeket, a források feltárására a vonatkozó leíró adatszabványokat ajánlja. A többi adatelemhez is inkább funkcionális és tartalmi útmutatást biztosít, mint szigorúan vett adatformátumot. Az ajánlott adatelemek beépíthetők a választott objektum-kezelő rendszer vagy tároló objektum szerkezetébe, illetve rögzíthető egyszerűen XML-formátumban.

1.3.3.7.8 METS

A METS (Metadata Encoding & Transmission Standard) a legösszetettebb szabvány, amely a leíró, technikai, adminisztratív és strukturális metaadatokat ki tudja fejezni, szöveges és képi dokumentumok esetében egyaránt. Eredetileg nagy gyűjtemények teljes körű feltárására, szükség szerinti migrációjára tervezték, a Making of America II. projekt gyakorlati tapasztalatainak felhasználásával.

A METS annyira sokoldalú – vagy inkább részletes –, hogy a digitális gyűjteménykezelés minden funkcionális szegmensében alkalmazható. A METS objektumok szerepelhetnek a gyűjteménybe vételezésnél, a megőrzési folyamatok tárgyaként és a szolgáltatásban is. A később tárgyalandó OAIS-modell terminusaiban fogalmazva: betölthetik a Submission Information Package (SIP), az Archival Information Package (AIP) vagy Dissemination Information Package (DIP) szerepét is.

Egy METS objektum 7 főbb részből áll:

A METS problémája, hogy alkalmazására gyakorlatilag nem léteznek egyszerű, kisebb formátumú eszközök, ez gátolja a terjedését a kisebb gyűjtemények világában. Nemzetközi szinten a METS-et alkalmazó projektek listája itt található.

Szakirodalom:

1.3.3.7.9 Beágyazott képi metaadatok: EXIF, IPTC, XMP

1.3.3.7.9.1 EXIF

Az EXIF (Exchangeable Image File Format) a legelterjedtebb beágyazott metaadat-szabvány a digitális képek világában. A beviteli eszközök (szkennerek és digitális fényképezőgépek) ebben a formában rögzítik a kép technikai információit.

Ezek kifejezetten technikai adatok, mint például

Ld. még: 3.4.2.8.1

1.3.3.7.9.2 IPTC

Az IPTC (International Press Telecommunications Council) adatok eredetileg arra szolgálnak, hogy a digitális fényképezőgéppel dolgozó alkotók leíró adatokat ágyazhassanak a képbe. A rögzíthető információk főbb csoportjai:

1.3.3.7.9.3 XMP

Az XMP-t (Extensible Metadata Platform) nem adatséma, hanem az Adobe által fejlesztett adatcsere-szabvány, amely a beágyazott metaadatok testre szabását teszi lehetővé. Segítségével az alapértelmezett technikai adatok mellett leíró adatok illeszthetők az állományokba, szabványos vagy akár tetszőleges adatsémák beágyazásával. Az XMP használata nem korlátozódik szigorúan a képekre, a PDF-ek esetében is használható.

Az XMP-adatokat általában XML-ben kódolják, és Dublin Core adatsémát használnak a szerkesztéshez.

Az XMP-adatok használatának egyik nagy kihívása a metaadatok automatikus elhelyezése nagy tömegű digitális állományban. Ennek ideális módja lehetne az adatfájlok szabványos formában, külső forrásból történő szerkesztése, majd automatikus importálása a képi fájlokba. A legjobb megoldás a strukturált metaadatok XML formátumban való létrehozása, szerkesztése és validálása, majd tömeges importálása a digitális állományokba. Erre nézve léteznek kísérletek, de a szükséges szoftvereszközök költséges mivolta okán egyelőre nem tekinthető bevált gyakorlatnak. Ennek elvileg lehetséges megoldása az XML-to-XMP nevű alkalmazás.

A beágyazott metaadatokat természetesen nem támogatja minden fájl-specifikáció. Mint a formátumok jellemzésénél már utaltunk rá, a könyvtári digitalizálásban az olyan szabványokkal érdemes foglalkozni, amelyeknél ez az opció rendelkezésre áll.

Egyre több megoldás van ezeknek az adatoknak szoftveres elérésére, ilyenek például az intelligensebb képszerkesztők és fájlkezelők. Az EXIF adatok manuális szerkesztésének általában nincs értelme, többnyire csak törölni lehet azt a fájlokból, bár ez sosem ajánlatos.

Beágyazott metaadatokat kezelő szoftverek:

Ld. még: 3.4.2.8.2

1.3.4 A digitális gyűjtemény mint rendszer (DAM)

Digitális gyűjteménynek olyan objektumhalmazt nevezhetünk, amelyet a fentebb tárgyalt két fő komponens funkcionális egységet alkot:

A jól felépített digitális gyűjtemény egyrészt önmagába záródó, tehát minden alkotóeleméről belső kapcsolatok révén eljuthatunk a másikba, másrészt nyílt is, amennyiben akadálymentesen kommunikál a felhasználóival, illetve a környezetében található egyéb rendszerekkel. A digitális gyűjteményeket kezelő szoftverek és összetettebb rendszerek összefoglaló kategóriája a Digital Asset Management (DAM) architektúra.

A digitális gyűjtemény által ellátandó feladatok:

A gyűjtemények felépítésének kulcsfontosságú tényezői:

A fentiekből látható, hogy a digitális tartalom létrehozása önmagában nem elegendő a gyűjtemény építéséhez, hiszen minél összetettebb és nagyobb terjedelmű egy állomány, annál több eszköz szükséges a fenntarthatósághoz.

A digitális gyűjtemény egy lehetséges modellje: FORRÁS: http://www.jiscdigitalmedia.ac.uk/stillimages/advice/generic-image-digitisation-workflow/

A digitális gyűjtemény egy lehetséges modellje. [FORRÁS]
Ez a modell nem tökéletes, mivel többféle master állományról beszél, valamint legacy formátumok masterré alakítását is megengedi.

1.3.4.1 OAIS

A digitális gyűjtemény kezelésének szabvány státuszú modellje az OAIS-modell (ISO:14721:2003). Ez a modell a hagyományos könyvtári munkafolyamatokhoz hasonló következetességű, és teljes körű workflowra építve terjeszti ki az alapvető közgyűjteményi funkciókat a digitális dokumentumok világára.

Az OAIS világképe szerint a digitális objektumok a következő szereplők által alkotott rendszerben léteznek:

Ezek a szereplők a következő műveletekben funkcionálnak:

Az OAIS rendszeren belül a digitális objektumok különböző funkcionális alakot vehetnek fel.

Ezt a terminológiát és funkcionális modellt jól kezeli a METS szabvány.

Az OAIS modell megismeréséhez a legjárhatóbb út a CASPAR (Cultural, Artistic and Scientific Knowledge for Preservation, Access and Retrieval) program által fenntartott közösségen és az azon belül készült szakmai forrásokon át vezet. Ez a projekt kifejezetten a gyűjteményi modell implementációjának gyakorlati aspektusait kidolgozandó indult, és számos eszközt biztosít ahhoz.

Az OAIS a CASPAR világában. FORRÁS: http://www.casparpreserves.eu/caspar-project.html

Az OAIS a CASPAR világában. FORRÁS

Az OAIS modellel összhangban, annak terminológiájára építve készült a TRAC (Trustworthy Repositories Audit & Certification: Criteria and Checklist) kritériumgyűjtemény, amelyet a National Archives and Records Administration (NARA) akciócsoport állított össze az Egyesült Államokban. A TRAC digitális gyűjtemények auditálására használható, abból a szempontból, hogy mennyire felelnek meg a szabványban lefektetett funkcionalitásnak. Miután hazánkban sok intézmény még a DAM szoftver bevezetése, illetve fejlesztése előtt áll, megfontolandó ennek a kritériumgyűjteménynek használata.

Szakirodalom:

1.3.4.2 Digitális gyűjteménykezelő rendszerek
1.3.4.2.1 Nemzetközi téren elterjedt eszközök

A digitális gyűjtemény-kezelő szoftvereknek egyre szélesebb skálája érhető el, változatos képességi szintekkel, és ehhez mérten változó költségvonzatokkal. Többségükre jellemző, hogy nem kész szoftvert, hanem részletekbe menően kalibrálandó, absztrakt környezetet alkotnak. Sokuk nyílt forráskódú, ingyenes termék, amelyek implementálása azonban nem olcsó, mivel programozói kompetenciát és nagy teljesítményű fizikai erőforrásokat igényelnek.

Az alábbi felsorolásban olyan eszközök szerepelnek, amelyek megvalósítják – illetve legalább elméletileg elérhetővé teszik – a digitális gyűjteménykezelés minden aspektusát: létrehozás, ingest, adminisztráció, megőrzés, jogkezelés, szolgáltatás.

Magyar viszonylatban a fentiek közül a DSpace rendszer alkalmazására találunk példát:

1.3.4.2.2 Hazai eszközök

Magyarországon jelenleg két olyan eszköz van forgalomban, amely számításba jöhet a digitális gyűjtemények teljes körű kezelése terén.

1.3.4.2.2.1 JaDoX

Egyikük a Monguz Kft. által fejlesztett JaDoX, amely piacvezető helyzetben van, jelenleg a 3.0-és verziója van forgalomban. A JaDoX alapvetően egy gyűjteménykezelő szerverből és a szolgáltatást lebonyolító web-felületből áll.

A JaDoX-ot általában a szolgáltatási oldaláról ismerjük. Marketingje is ezekre a funkciókra helyezi a hangsúlyt: „keresés, böngészés, kapcsolódás egyéb rendszerekhez”. A háttérben azonban a szolgáltatás alkatához és lehetőségeihez mérten kialakított megőrzési és migrációs architektúra áll. A JaDoX nem tekinthető moduláris szoftvernek abban a tekintetben, hogy kész „csomagokat” kínálna a különböző feladatkörökre. Az egyes feladat-rétegek egyedileg alakulnak ki, mivel a hazai piac igényei még nagyon vegyesek.

Példaként említhető JaDoX-implementációk:

1.3.5 Befejezés

A képi alapú digitalizálás elméleti hátterének tárgyalását ezzel befejeztük. A fentiekben igyekeztünk a folyamat teljes terjedelmét és minden aspektusát érinteni, legalább alapszinten. A dokumentum további fejezetei szűkebb területre, a képekkel való munkára fognak koncentrálni.