1. modul: Alapozó ismeretek


Bevezető gondolatok

Ez a modul az interneten születő és terjedő digitális kultúra legalább részleges megőrzésének fontosságára hívja fel a figyelmet. Megfogalmazza a memóriaintézmények (pl. könyvtárak, levéltárak, múzeumok, audiovizuális archívumok) felelősségét és feladatait ezen a téren. Egy rövid körképet ad a külföldi gyakorlatról és jogi szabályozásról, bemutat néhány fontosabb webarchívumot, valamint ismerteti az Országos Széchényi Könyvtár eddigi eredményeit és jövőbeli terveit. A szakterület elméleti megalapozása céljából különböző szempontok szerint osztályozza az internetarchívumokat.

Célok, megszerezhető kompetenciák:

A modul célja, hogy a tanulóban felkeltse az érdeklődést a digitális születő, a korábbi papír-alapúnál sokkal tünékenyebb kultúra megőrzése iránt, és kialakítson benne egy általános képet a külföldi és hazai internetarchiválási törekvésekről. Továbbá bevezeti azokat a szakkifejezéseket, amelyek ismeretére a későbbi modulok során szükség lesz. A megoldandó feladatok elvégzésével alapszinten lehet megismerni néhány webarchívumot, a bennük való keresést és navigációt.

Szükséges eszközök, források:

Asztali számítógép vagy laptop internet kapcsolattal és webböngészővel.

Feldolgozási idő:

7×45 perc

Témakörök:

Ajánlott irodalom:


1. Újabb sötét középkor fenyeget?

1.1. A digitálisan születő és az interneten terjedő kultúra megőrzésének fontossága

Digitális világunk az egyén és a társadalom életének minden szegmensét áthatja. Az interneten tárolt és azon keresztül közvetített kultúra sokkal változékonyabb és tünékenyebb, mint a korábbi papíralapú. <1.1.1_lostsites.pptx> A megszűnt weboldalakat jelző hibaüzenet [404-es error][1] a legnézettebb online tartalom és sajátos népművészeti ággá vált. <1.1.1_404error.pptx> Ha nem teszünk valamit digitális kultúránk legalább egy részének a hosszú távú fennmaradásáért, akkor egy új dark age jöhet: a jövőből megismerhetetlenek, értelmezhetetlenek lesznek korunk eseményei és folyamatai, amelyek elsősorban vagy már kizárólag a világhálón zajlanak. De az online források instabilitása a jelenben is egyre nagyobb gond például a tudományos hivatkozásoknál, vagy az oktatásba való beépítésüknél. A linkek romlása [link rot][2], illetve a mögöttük levő tartalom megváltozása [content drift][3] megbízhatatlanná teszi a világhálót. Az élő web [live web][4] egy jelen idejű médium. Ahhoz, hogy múltja is legyen, idődimenziót kell adni neki, ami jelenleg úgy oldható meg, hogy egyes részeiről pillanatképeket készítünk és ezeket archiváljuk [memento][5].

Ajánlott források: 1. Wikipedia: Link rot, 2. Archive Team: Rescued Sites, 3. Archive Team: Lost Sites, 4. Renny Gleeson: 404, the story of a page not found, 5. Moldován István: Az internet archiválása mint közgyűjteményi feladat - Bevezetés

2. Ki őrzi meg az internetet?

2.1. A közgyűjtemények feladata az internetes kultúra megőrzésében

Bár vannak olyan nonprofit szervezetek, mint az Internet Archive <1.2.1_ia.png>, önkéntes szerveződések, mint az Archive Team <1.2.1_at.png>, továbbá online tartalmak lementésére és tárolására szakosodott cégek [web archiving service], és az is előfordul, hogy maga a tartalmat létrehozó vagy azt szolgáltató intézmény/szervezet/vállalat őrzi meg az élő webről lekerülő anyagot, de válogatott és rendszerezett, hosszú távú, gondozott webarchívumokat leginkább a közgyűjtemények tudnak működtetni, melyeknek amúgy is évszázados feladatuk a kulturális örökség megőrzése és a hozzáférés biztosítása. Ebben a tevékenységben előnyös tud lenni, ha együttműködnek más típusú szervezetekkel és cégekkel, mert a digitális univerzum mind méretében, mint pedig változékonyságában akkora kihívást jelent archiválhatóság és szolgáltatható állapotban tartás szempontjából, amivel ezek a memóriaintézmények korábban nem találkoztak. És természetesen emiatt érdemes egymás közt is kooperációkat kiépíteni, megosztani a feladatot a különböző típusú könyvtárak [webrary],[6] a levéltárak, valamint a múzeumok között. Nem véletlen tehát, hogy több országban konzorciumok keretében végzik ezt a tevékenységet, erre a feladatra dedikált szakemberekkel [web curator][7].

Ajánlott források: 1. UNESCO Charta a digitális örökség védelméről, 2. Drótos László - Németh Márton: Webmúzeum, webkönyvtár, weblevéltár

2.2. Az OSZK feladata és eddigi eredményei

Hazánkban meglehetősen későn, 2006-ban (több mint 10 évvel a web magyarországi megjelenése után) született az első elképzelés a nemzeti könyvtárban a Magyar Internet Archívum létrehozására, de további 10 évet kellett várni, mire megteremtődtek a feltételek, hogy legalább kísérleti jelleggel elinduljon egy projekt a webarchiválás területének kutatása és egy üzemszerűen működő, fenntartható archívum létrehozása céljából. (A digitálisan született egyedi dokumentumok gyűjtése viszont már jóval régebb óta folyik az OSZK-ban a MEK, az EPA és a DKA szolgáltatások keretében, így ezek tapasztalatai hasznosíthatók.) A projekt honlapján <1.2.2_mia.png> megtalálhatók az aktuális hírek, a témához kapcsolódó publikációk, a 2017 és 2018 őszi workshop előadásai, egy wiki és egy levelezőcsoport, valamint egy nyilvános demó archívum. <1.2.2_demo.png> A cél az lenne, hogy az Országos Széchényi Könyvtár által fenntartott infrastruktúrán és egy kidolgozott know-how alapján minél többen kapcsolódjanak be intézményi ill. egyéni szinten a magyar webtér értékes részeinek kiválogatásába, lementésébe, metaadatokkal való ellátásába és az archívumra épülő szolgáltatások kialakításába.

Ajánlott források: 1. Drótos László: Mi a MIA?, 2. „404 Not Found - Ki őrzi meg az internetet?” workshop, 3. Drótos László – Németh Márton: Az OSZK-ban folyó kísérleti webarchiválási projekt első évének tapasztalatai

2.3. Az online digitális tartalmak megőrzésére vonatkozó törvényi szabályozás

Az egyes országokban különböző módon szabályozzák (vagy nem szabályozzák) a tartalomszolgáltatók és a könyvtárak, levéltárak jogait és kötelességeit az interneten nyilvánosan közzétett tartalmak megőrzésével kapcsolatban. Van, ahol a köteles példányra vonatkozó vagy más könyvtári/levéltári törvényben egészen részletesen definiálják a gyűjtőkört, valamint a begyűjtés és szolgáltatás/hozzáférés szabályait, sőt akár olyan kitételeket is tartalmazhat a jogszabály, hogy ha egy webanyag nem tölthető le automatikus módszerekkel, akkor annak az archívumba való beküldéséről a tartalom tulajdonosának kell gondoskodnia, és az esetleges plusz költségeket is neki kell kifizetnie. Arra is van példa, hogy a kormányzati intézményeket kötelezik arra, hogy a weboldalaiknak, illetve az azokon közzétett dokumentumoknak akkor is nyilvánosan elérhetőeknek kell maradniuk, amikor már érvényüket vesztve lekerülnek az eredeti webszerverről, ezért ilyenkor pl. a parlamenti könyvtár vagy a nemzeti levéltár webarchívuma veszi át őket. Néhány országban külön szabályozzák és külön gyűjtik (pl. a nemzeti audiovizuális archívumban) az internetről letölthető ill. az interneten keresztül sugárzott video- és hanganyagokat, amelyek archiválásával a legtöbb könyvtár és levéltár nem, vagy csak kis mértékben foglalkozik. Ahol nincsen kellően részletes szabályozás, ott sokszor a köteles példány törvény általános rendelkezései, illetőleg az elektronikus dokumentumokra vonatkozó pontjai alapján végzik a webarchiválást a nemzeti könyvtárak. Magyarországon is ez a helyzet jelenleg, mert bár felmerült, hogy a webarchiválást nevesítik a köteles példány törvény aktuális módosítása során, de ez a terület végül nem került be a szövegbe, viszont 2018 nyarán elindult egy, a webarchiválást szabályozó önálló törvény és/vagy miniszteri rendelet tervezetének előkészítése. Ami a hozzáférést illeti, ezen a téren is vegyes a kép: vagy egy sötét archívumba [dark archive][8] kerül a lementett tartalom, amit legfeljebb csak kutatók használhatnak indokolt esetben; vagy csak helyben, ill. zárt könyvtári hálózaton, esetleg a partnerintézményeknél – erre a célra dedikált, letöltési lehetőség nélküli – gépeken lehet hozzáférni; de arra is van példa, hogy minden olyan webhely mementói nyilvánosan elérhetők az interneten, amelyeknek a tartalomgazdái ehhez hozzájárultak, vagy ez ellen nem emeltek kifogást [opt-out][9].

Ajánlott források: 1. Ludmila Cerbová: A cseh web és a kötelespéldány-rendelet, 2. Németh Márton: Netarkivet.dk - dán netarchívum: gyűjtőkör és szervezeti keretek, 3. Németh Márton: Webarchiválás Észtországban 4. Németh Márton: A nemzeti webarchívum és a helyi NIC (Network Information Center) együttműködése néhány európai országban

3. Milyenek az internetarchívumok?

3.1. Internetes tartalmak archiválási módszerei és az archívumok fajtái

Az internetes tartalmak archívumait többféle szempont szerint is csoportosíthatjuk. A begyűjtés történhet szoftveres robottal [crawler][10] való aratással [harvest][11], letöltő alkalmazással, online beküldéssel, vagy akár offline beadással is. Az első két módszernél egy kliens program kéri le a szerverről a tartalmat [client-side web archiving], a harmadiknál a szerver maga küldi azt be az archívumba valamilyen előre egyeztetett megoldással [server-side web archiving] [transaction-based web archiving], míg a negyediknél emberi közreműködéssel, pl. merevlemezen vagy memóriakártyán szállítva jut el az anyag az archívumba. Az archivált tartalom tárolására is több megoldás van: fájlrendszerbe mentés, archív állományba mentés, egységes formátumba mentés, adatbázisba mentés. A gyűjtőkör lehet szelektív [focused crawl]: tágabb vagy szűkebb témakörök, események, internetes műfajok; vagy pedig teljes körű [broad crawl]: világ- vagy világrész-méretű, nemzeti szintű, valamilyen felsőbb domén szintű. Az archiváló kiléte és az archiválás célja szerint megkülönböztetünk magán, céges, intézményi vagy szervezeti, valamint országos vagy nemzeti archívumokat. Végül pedig az idődimenzió alapján is osztályozhatjuk őket: beszélhetünk ismétlődő mentésekből építkező és minden korábbi állapotot hosszú távon megőrző gyűjteményekről; ismétlődő mentésekre alapozott, de csak az utolsó állapotot tároló rendszerekről; valamint kisebb egyedi [micro archiving] vagy alkalmi mentésekről [archive-on-demand] (pl. a stabil hivatkozhatóság céljából). A tartalom lementése természetesen csak egy, és nem is a legelső fázisa a nagyobb webarchívumok munkafolyamatainak: megelőzi egy válogatási és (esetleg) engedélykérési tevékenység, majd az archiválás után a mentett tartalom minőségellenőrzése és szolgáltatható állapotba hozása (pl. hibajavítás, metaadatolás, indexelés) következik. Mindezekről a következő modulokban részletesen is szó lesz. <1.3.1_work_flow.pptx> <1.3.1_work_flow.png>

Ajánlott forrás: MIA Wiki: Archívumtípusok

3.2. Külföldi projektek, külföldi webarchívumok

Az online világ kezdeti tartalomszolgáltatásaiból (pl. BBS, WAIS, Gopher) nem sok minden maradt meg, de a World Wide Web első publikus webszervere (restaurálás után) még mindig megnézhető az info.cern.ch címen. <1.3.2_cern.png> Négy évvel ennek megszületése után, 1996-ban megalakult az Internet Archive nevű non-profit szervezet <1.3.2_ia_3d>, azzal a céllal, hogy létrehozza a digitális világ alexandriai könyvtárát, egyebek mellett mára már 330 milliárdnál is több lementett weboldallal, melyek a Wayback Machine <1.3.2_wbm.png> szolgáltatásán keresztül úgy böngészhetők, mintha az élő webet használnánk. <1.3.2_wayback_machine.mp4> Az elmúlt 20 évben sorra indultak el további webarchívumok és egyéb, az internetes tartalmak megőrzésével kapcsolatos projektek könyvtárakban, egyetemeken, kutatóintézetekben stb. Ezek egy része eleve csak korlátozott időre szólt, másokat pedig egy idő után újragondoltak és -terveztek, így már több második-generációs webarchívummal is lehet találkozni. Jelenleg mintegy 40 nemzeti webarchívum létezik harmincegynéhány országban (mert egyes helyeken a nagyobb nemzetiségeknek külön archívumuk van). Ezek közül érdemes kiemelni és kipróbálni a brit <1.3.2_ukwa.mp4>, a dán, a portugál, a holland, az amerikai és az ausztrál szolgáltatásokat. <1.3.2_pandora.mp4> Az internet-archiváló projekteket az International Internet Preservation Consortium nevű nemzetközi szervezet <1.3.2_iipc.png> fogja össze 2003 óta, melynek már több mint 45 országból vannak tagjai. 2018 januárjában magyar részről az OSZK is csatlakozott az IIPC-hez.

Ajánlott források: 1. MIA Wiki: Projektek, 2. Wikipedia: List of Web archiving initiatives, 3. IIPC members, 4. Németh Márton: Hasznos linkek a külföldi webarchiválási projektek bemutatásához

Összefoglalás:

Digitális kultúránk megőrzésében a közgyűjteményeknek is komoly felelőssége van. Az első webarchívumok a kilencvenes évek második felében indultak, azóta már jó néhány projekt szerveződött erre a feladatra, melyek többféle technikával, különböző gyűjtőkörrel és eltérő jogszabályi háttérrel dolgoznak. Az OSZK 2017 elején indított egy két éves kísérleti projektet egy magyar internet archívum megteremtése céljából és belépett az IIPC szervezetbe.


Önellenőrző kérdések:

Megoldandó feladatok:

  1. Keresse meg munkahelye honlapjának egyik régebbi (viszonylag) jól sikerült mentését az Internet Archive-ban, majd a Wayback Machine fejlécében levő „About this capture” gombra kattintva nézze meg, hogy a nyitóoldal egyes elemeinek mentési időpontja mennyivel tér el plusz vagy mínusz irányban a kiválasztott dátumtól.

  2. A Wayback Machine-nek ezt a sajátosságát úgy hívják szaknyelven, hogy temporal inconsistency. Melyik szócikkben fordul elő ez a fogalom a MIA Wikiben?

  3. Nézze meg az http://oldweb.today böngésző emulációs oldalon az 1997 októberében megjelent Internet Explorer 4.0 Windows-os verziójával a www.oszk.hu oldal 1998. 06. 25. dátumú mentését az Internet Archívumból és a „Szolgáltatások” menüpontra kattintva navigáljon el a „Hungarika WWW” aloldalra, majd ott keresse meg a finnországi hungarika anyagokat őrző könyvtárak közül a helsinki egyetem könyvtárának angol nyelvű weblapját.

  4. A Pandora archívumban keresse meg az ausztráliai Victoria államban élő magyar közösség 2000-ben archivált weblapját, és a rajta található copyright információ, valamint az Internet Archívumban levő későbbi mentések alapján próbálja megbecsülni, hogy mettől meddig létezhetett ez a honlap?


JEGYZETEK

1 A webszerver által visszaadott hibakód, amikor nem találja a böngésző által kért fájlt.

2 Az internetes hivatkozások mögül eltűnő tartalom problémája.

3 Az internetes hivatkozások mögött megváltozó tartalom problémája.

4 A jelen időpillanatban a weben levő tartalom.

5 Egy webes tartalom elmentett változata.

6 Könyvtári gyűjtemény jellegű webarchívum.

7 Webarchívumot gondozó szakember.

8 A közönség számára semmilyen formában nem hozzáférhető archívum.

9 Eltávolítási lehetőség egy archívumból vagy nyilvántartásból.

10 A weboldalakban levő linkeket követő szoftver.

11 Webtartalmak tömeges letöltése a linkek követésével.




Kezdőlap Előre