Világszerte egyre több múzeum, illetve levéltár határozza el, hogy
digitálisan archiválja összegyűjtött anyagát
(Forrás:
FigyelőNet)
Elektronikus úton
szélesebb közönséghez juthatnak el, olyan alkotások is, amelyek más
módon nem. Digitalizálás során az információt a számítógép számára
olvasható formába hozzuk. A digitális könyvtárak, levéltárak és múzeumok
nagy számban tesznek hozzáférhetővé képzőművészeti alkotásokat,
irodalmi műveket és tudományos publikációkat. Ezekhez a művekhez az
interneten ki-ki a Föld bármely pontjáról hozzáférhet és olyan
dokumentumokat is láthat, amelyeknek az eredeti példányait már nem adják
kézbe. Hazai viszonylatban érdemes megemlíteni a Magyar Elektronikus
Könyvtárat, amely 1994 óta teszi közkinccsé a műveket.
Egy-egy ilyen digitalizálási folyamatban nagyon nagy
mennyiségű anyagot kell feldolgozni. Vegyük példaként a holland Royal
Dutch Library gyűjteményét: a szakértők több mint 3,3 millió könyvet,
folyóiratot, kéziratot, illetve egyéb speciális írásos anyagot dolgoztak
fel ezzel a módszerrel.
A munkát
az IBM végezte, sok más hasonló projekt, például az orosz Ermitázs és a
dán Statens Museum for Kunst gyűjteményeinek rögzítése mellett. Ez
utóbbi múzeumban például több mint ötezer festményt digitalizált. Mivel a
készítendő adatbázis nagyon sokféle lehet, a legjobb megoldás egy
professzionális archiváló szoftvert használni; az IBM a Content Manager
termékcsaládra támaszkodik.
A
digitalizálás igen költséges vállalkozás, nagyon sok előkészítő munkát
és hatalmas tárkapacitást igényel. A következőkben Kovács Lászlónak, az
IBM munkatársának segítségével egy szöveges alapú tár feldolgozásának
technikáját mutatjuk be.
A papír
alapú állományok digitalizálása az előválogatással kezdődik: ki kell
válogatni a feldolgozásra szánt anyagokat és előkészíteni őket a további
műveletekhez – például el kell távolítani róluk az esetleges
szennyeződéseket, idegen anyagokat. A szakértők ezután méret és (vagy)
tartalom alapján kialakítják a megfelelő logikai csoportokat.
A következő lépés a nagy
teljesítményű lapolvasókkal végzendő szkennelés. A lapolvasók működési
elvükben erősen eltérhetnek egymástól; aszerint kell választanunk
közülük, hogy mit akarunk beolvasni. A lapáthúzós szkennerrel gyorsabb
az iratanyagot digitalizálni, állományvédelmi szempontból azonban
kockázatos lehet ezt használni, mert a mechanikája begyűrheti az
olvasott anyagot.
A műszaki
szkenner a lapáthúzós szkenner elvén működik, de jóval nagyobb méretű
dokumentumokat lehet vele beolvastatni, ha kell, 2400 pont/hüvelykes
felbontással; főleg tervrajzok, térképek digitalizálására használják.
Ezekben a lapolvasókban is károsodhat az irat, bár van olyan változatuk
is, amelyben nem az beolvasandó dokumentum mozog, hanem az olvasófej
fölötte.
Egy harmadik
szkennerfajtával, a dobszkennerrel 11 ezer pont/hüvelykes felbontás sem
lehetetlen; a dokumentumot egy forgó dobra rögzítik és belülről
világítják meg. A könyvtári, levéltári munkára a legjobbak a
könyvszkennerek; a mikrofilm-felvételezőéhez hasonló elv szerint
működnek, vagyis felülről vagy oldalról világítják meg a dokumentumot és
egy fent elhelyezett kamerával rögzítik a képét. Az iratot, könyvet nem
éri közvetlen mechanikus hatás, ez állományvédelmi szempontból fontos –
bár az eredeti kép visszafordíthatatlan romlásnak indulhat a lapolvasó
üveglapjának tisztítására használt vegyszerek, valamint a kép többszöri
átvilágítása miatt, ennek a kiküszöbölésére nagy gondot kell tehát
fordítani.
A könyvszkennerek A/2-es
vagy még nagyobb méretű dokumentumok olvasására is alkalmasak, és
beépített könyvbölcső jóvoltából a könyv gerincét kisebb megterhelés éri
a beolvasáskor, mint más lapolvasókban. Németországban már
automatikusan lapozó könyvszkennert is kifejlesztettek – azzal jóval
gyorsabb a munka.
A szkennelés után
információkat (indexet, metaadatot) rendelnek az egyes képekhez
(például cím, szerző, dátum, leírás, kivonat), amelyek alapján később
azonosíthatók. Ez az információ-hozzárendelés történhet kézileg és
automatikusan is. A kézi megoldáshoz persze több ember és idő kell,
különösen, ha nagy anyagmennyiséget kell feldolgozni, érdemes tehát az
automatikus rendszerezést választani; ez utóbbiban többféle technika is
segítségül hívható, például az optikai karakterfelismerés (intelligens
karakterfelismerés).
Az automatikus
megoldásban használatos szoftverek “felismerésbiztonsági
szintet” rendelnek a képhez, s az szűrőként szolgálhat a következő
lépésben – a kézi ellenőrzésben. Elég csak azokat a képeket ellenőrizni,
amelyeknek a biztonsági szintjét a szoftver egy általunk tetszőlegesen
kiválasztott értéknél kisebbnek ítélte meg.
Ezután a dokumentum elektronikus képe és a hozzá
rendelt metaadatok automatikusan kerülnek a tartalomkezelő rendszerbe.
Az IBM Content Manager termékcsalád elemeiből például korlátlanul
méretezhető, nagy megbízhatóságú tartalomtár alakítható ki.
A rendszer lényegében két
kiszolgálóoldali komponensből épül fel. Az egyik, a Library kiszolgáló a
központi nyilvántartó: megvan benne a visszakereséshez szükséges
valamennyi információ, metaadat és minden jogosultsági beállítás. A
másik komponens, a Resource Manager magukat az állományokat tárolja,
hierarchikus tárolókezeléssel, vagyis az állományok a visszakeresési
gyakoriságnak és az elvárt válaszidőknek megfelelő tárolási szintre
kerülnek. A leggyorsabb tárolási szint a lemezterület, az állományok
automatikusan kerülhetnek át innen a lassúbb, de költséghatékonyabb
szintre, például mágnesszalagra vagy optikai alapú tárolóeszközre.
A rendszer azáltal méretezhető,
hogy dinamikusan bővíteni lehet a Resource Managerekhez rendelt
tárolóeszközöket, vagy több Resource Managert használni ugyanabban a
rendszerben. Például a földrajzilag elosztott rendszerekben több helyen –
s ha kell, több példányban – tárolhatók az állományok, s a rendszer
mindig optimális válaszidővel elégítheti ki a visszakeresési igényeket.
A következő lépéssorozat: lehetővé
tenni az igény szerinti tartalomkeresést, amely egyre összetettebb
feladat lesz. Szöveges tartalmat a már említett indexek vagy metaadatok
alapján lehet keresni, sőt lehet keresni a teljes szövegben is. A
keresés legkifinomultabb formája az információbányászat: a rendszer a
tartalmuk alapján automatikusan megvizsgálja a dokumentumokat, és
például csoportokba rendezi őket, kivonatot készít, logikai
kapcsolatokat alakít ki közöttük, egymáshoz rendeli őket. Ehhez persze
meg kell kapnia a szükséges definíciókat, és példadokumentumokkal be is
kell tanítani. A Content Manager termékcsalád megfelelő komponensében
megvannak ezek a funkciók is.
Alternatív tartalomra, például képre keresni még
érdekesebb feladat. A szentpétervári Ermitázsban például többféle módon
is lehet. Az egyszerűbb mód a Qbic (Query by Image Content ) Colour
Search: ebben megadhatjuk, hogy a keresett képen függőleges irányban
milyen eloszlásúak legyenek a színek. Az összetettebb keresési mód a
Qbic Layout Search: különböző geometriai alakzatokat rajzolhatunk az
egyelőre képzeletbeli képre, tetszőleges színekben és szabad
elrendezésben, s a szoftver majd kikeresi a megadott keresési
feltételhez legközelebb álló képeket. Ha például naplementét ábrázoló
képet szeretnénk látni, akkor a kép aljára valamilyen sötétebb, a
tetejére meg világosabb – lehetőleg sárga, vörös – alakzatot érdemes
rajzolni.