2. modul: Webarchiválás Windows alatt


Bevezető gondolatok

Ez a modul Windows operációs rendszerű gépeken (is) használható archiváló szoftvereket és szolgáltatásokat ismertet, amelyekkel különböző módokon menthetők el weboldalak vagy komplett webhelyek. Vannak köztük az elterjedt Firefox ill. Chrome böngészőkbe beépülő modulok, önállóan futtatható szoftverek, és olyan ingyenes vagy fizetős online szolgáltatások is, melyek használatához szintén csak egy böngészőre és általában regisztrációra van szükség. Ezek az eszközök különböző formátumokba mentenek és vagy a felhasználó saját gépén, vagy pedig egy távoli szerveren, felhőszolgáltatásként tárolják az archív fájlokat. A különféle megoldások eltérő célokra optimálisak: pl. a képként vagy PDF-be való mentés egy screen capture programmal inkább csak gyors megoldásnak, esetleg bizonyítéknak, ill. a böngészőben látható külalak minél pontosabb megőrzésére jó; egy offline browserrel mentve már az eredeti weboldalak közötti hipertext kapcsolatok is megmaradnak és visszanézhetők; az azonnali felhőbe mentést biztosító archive-on-demand megoldások elsősorban a publikációkban, oktatóanyagokban való stabil hivatkozhatóságot segítik elő; míg egy professzionális, előfizetéses webarchiváló szolgáltatással szabványos formátumban tárolt, hosszú távon is fennmaradó, metaadatolható, kereshető webarchívumot hozhatunk létre.

Célok, megszerezhető kompetenciák:

A modul célja, hogy a tanulót megismertesse azokkal a lehetőségekkel, amelyek speciálisabb informatikai ismeretek nélkül, egy Windows alatt futó program vagy böngészőkiegészítő telepítése után, vagy egy internetes szolgáltatást igénybe véve lehetővé teszik webes tartalmak különböző formátumokban való archiválását. A tananyag elsajátítása és a megoldandó feladatok elvégzése után a tanuló képes lesz önállóan weboldalakat és más online elérhető dokumentumokat, illetve webhelyrészeket vagy akár teljes webhelyeket lementeni saját célra vagy egy intézményi gyűjteményhez.

Szükséges eszközök, források:

A Windows 7. , 8. vagy 10. verzióját futtató asztali számítógép vagy laptop internet kapcsolattal, továbbá a legújabb Chrome és/vagy Firefox böngésző..

Feldolgozási idő:

7×45 perc

Témakörök:

  • Internetes tartalmak mentésére használható ingyenes Windows szoftverek
  • Weboldal- illetve webhely-archiváló online szolgáltatások
  • Ajánlott irodalom:


    1. Internetes tartalmak mentésére használható ingyenes szoftverek

    1.1. Weboldalkép készítők

    A screen capture (magyarul: képlopó) programoknak van egy olyan válfaja vagy működési módja, amellyel nemcsak a képernyőn éppen látható tartalom, hanem egy teljes weboldal elmenthető egy PNG, vagy JPG, esetleg PDF fájlba. A fejlettebbekkel az is megoldható, hogy pl. egy szövegfájlban megadott URL címlista alapján automatikusan készítsenek ilyen képernyőfotókat egy sor weboldalról – akár időzítve, ismétlődően is. Ennek a megoldásnak nagy előnye, hogy a weboldalnak azt az állapotát és külalakját tudjuk így megőrizni, ahogy az a kép készítésekor az akkor érvényes böngészőben megjelent, szemben azokkal a módszerekkel, amelyek a weboldalakat alkotó fájlokat mentik le és ezekből próbálják később rekonstruálni őket. Utóbbi esetben ugyanis gyakori (és egyre gyakoribb), hogy a komplex, dinamikusan generált weboldalak csak töredékesen kerülnek a webarchívumba és később visszanézve őket hiányosan, illetve eltorzulva jelennek meg. A weboldalképek készítésekor ritkábbak az ilyen megjelenítési problémák, viszont természetesen ezeknél elvész az interaktivitás és a szövegben való kereshetőség (bár a PDF-be mentés esetén utóbbi megmarad és a belső linkek is működőképesek maradhatnak). Mindezen előnyök és hátrányok miatt az oldalkép készítő programokat gyakran kiegészítésként használják a webarchívumoknál a külalak rögzítésére.

    A Grab Them All (röviden: GTA) [wiki szócikk] egy ingyenes Firefox bővítmény, ami az új Firefox Quantummal nem kompatibilis, így a portable Firefox 52.7.4-es vagy régebbi, ú.n. ESR verzióját kell használni hozzá, amiben ki kell kapcsolni az automatikus frissítést. Tömegesen tud PNG vagy JPG képeket csinálni egy TXT fájlból (pl. OSZK_webhelyek.txt) vett URL címekről és az is beállítható, hogy az egyes képek elkészítése előtt mennyi időt várjon arra, hogy az oldal biztosan betöltődjön a böngészőbe. A javascriptek végrehajtásához is megadható egy várakozási idő, amit azért is érdemes 5-10 másodpercre állítani, hogy legyen időnk az esetleges felugró ablakokat bezárni. Teljes oldalkép készítésekor elég csak a szélesség értékét meghatároznunk, de mivel ez nem a kép, hanem a GTA ablak szélessége, a margók és a görgetősáv méretét is figyelembe kell venni. <2.1.1_gta.mp4> <2.1.1_gta_oszk.pptx>

    A Nimbus Screen Capture [wiki szócikk] (más néven: Nimbus Screenshot & Screen Video Recorder) szintén ingyen telepíthető kiegészítő Chrome, Firefox és egyéb böngészőkhöz. Hasonlóan működik, mint a billentyűzeten levő Print Screen gomb, de automatikusan végiglapozza az éppen nézett weboldalt és összefűzi az egyes képernyődarabokat egy PNG vagy JPG képpé, amit azután még szerkeszthetünk és feltölthetünk egy felhőtárhelyre is. Mivel más technikát használ, mint a Grab Them All, ezért más, általában jobb eredményt ad, viszont nem adható meg neki előre egy URL címlista. További hibája, hogy a nagy méretű oldalakkal nem mindig boldogul: vagy nem tudja a teljes oldalt „lefényképezni”, vagy nem tudja elmenteni. Előbbi esetben a hiányzó részt A kiválasztott + görgetés opcióval lehet eltenni egy külön fájlba, utóbbi esetben pedig a szerkesztő felületen levő képet vágólapra másolva, majd egy képkezelő programba (pl. Irfanview) beillesztve tudjuk elmenteni. <2.1.1_nimbus.mp4>

    Hasonló funkciókat kínál a FireShot (más néven: Full Web Page Screenshots) [wiki szócikk] kiegészítő, amely szintén többféle böngészőhöz telepíthető és az ingyenes verziója a PNG és JPG mellett PDF-be is tud menteni, bár szintén csak képként, viszont az oldalon levő linkek kattinthatóak maradnak (de természetesen ezek az élő webre mutatnak és az ingyenes változatnál csak néhány másodperces várakozás után nyílnak meg). <2.1.1_fireshot.pdf> A fizetős FireShot Pro egy képszerkesztőt is tartalmaz, továbbá többoldalas PDF fájlok is létrehozhatók vele, több böngészőfül egyszerre menthető, és az oldalképek közvetlenül feltölthetők különböző felhőtárhelyekre. Említést érdemel még a GoFullPage (korábbi nevén Full Page Screen Capture) Chrome bővítmény, ami szintén tud PDF-be is menteni és a fizetős Premium változat még arra is ügyel, hogy a sorokat ne vágja el az oldaltöréseknél. Maga a Firefox is tartalmaz oldalkép készítő funkciót, ami a Ctrl+Shift+S billentyűparanccsal vagy a böngésző tetején az URL címet tartalmazó sor végén levő ... (három pont ikon) menüt lenyitva érhető el. <2.1.1_firefox1.png> Választhatunk a teljes oldalkép vagy csak az éppen látható terület lefotózása közül, a képet pedig vágólapra másolhatjuk vagy PNG fájlba menthetjük. <2.1.1_firefox2.png> (Korábban a screenshots.firefox.com szerverre is fel lehetett tölteni, de ezt az ingyenes felhőtárhelyet a cég 2019 nyarán megszüntette.) Ezzel a módszerrel sem lehet akármekkora hosszúságú oldalakat lefotózni, de azért elég nagy méretű képek készíthetők így is. <2.1.1_firefox3.png>

    Az Adobe cég (nem ingyenes) Acrobat nevű PDF szerkesztő programjában levő Web Capture [wiki szócikk] funkció már egy átmenet a weboldalkép készítő és a weboldal/webhely lementő eszközök között. <2.1.1_acrobat1.png> <2.1.1_acrobat2.png> A megadott URL címen található weboldalból tud JPG, PNG és PDF fájlt is készíteni, de azt is megadhatjuk, hogy kövesse az oldalon talált linkeket egy bizonyos mélységig és ezeket is tegye bele a fájlba. PDF-be mentés esetén a linkek is működőképesek maradnak, és az így generált, könyvjelzőzött és felcímkézett PDF-ek később bővíthetők újabb weboldalakkal, sőt az Acrobat frissíteni is tudja őket, amennyiben az eredeti szerveren megváltoztak időközben. <2.1.1_acrobat3.png> Ennek a módszernek az a fő hátránya, hogy mivel nem egy valódi, fejlett böngészőn keresztül történik a mentés, a bonyolultabb weboldalak külalakja és elrendezése csúnyán szétesik. <2.1.1_acrobat1.pdf> <2.1.1_acrobat2.pdf>

    Ajánlott források: 1. Weboldalak átalakítása PDF dokumentummá, 2. Drótos László (ref.) Webtörténetírás az Internet Archive-ból készített képernyővideókkal

    1.2. Böngészőbe beépülő archiváló modulok

    Az élő web böngészésére szolgáló programok (pl. Internet Explorer, Microsoft Edge, Mozilla Firefox, Chrome, Safari, Opera) kiegészíthetők olyan beépülő (plug-in) modulokkal, amelyek lehetővé teszik a weboldalak lementését későbbi, akár internet kapcsolat nélkül való olvasáshoz, megtekintéshez. Az, hogy mit (csak a szöveget, vagy a médiaelemeket és esetleg az eredeti külalakot is) és milyen formátumban ment ez az offline reader modul, nagyban meghatározza annak felhasználhatóságát a személyes célú, rövid távú megőrzésen túlmutató archiválási feladatokra. Azok a megoldások, amelyek szabványos archív formátumot és másokkal is megosztható felhőtárhelyet használnak, akár beépíthetők egy intézményi webarchívum eszköztárába is.

    A Pocket [wiki szócikk] eredetileg (Read It Later néven) egy külön telepíthető Firefox kiegészítő volt, amellyel elmenthettük az éppen nézett oldalt későbbi olvasáshoz. 2015-ben a modul bekerült a böngésző alapfunkciói közé. <2.1.2_pocket1.png> és már Chrome bővítmény, valamint mobil applikáció is van hozzá. A mentett oldalak (csak olvasási nézet!) vagy egyéb fájlok a Firefox vagy Google fiókhoz kötött felhőtárhelyre kerülnek (app.getpocket.com), szinkronizálódnak a különböző eszközeink között, címkézhetők és megoszthatók, és keresni is tudunk mások nyilvános Pocket anyagai között, így egyben könyvjelző megosztó alkalmazás is. <2.1.2_pocket2.png> A fejlett keresővel rendelkező, előfizetős Pocket Premium szolgáltatás esetében a Permanent Library nevű funkció hosszú távú megőrzést biztosít olyankor is, amikor az eredeti weboldal már nem elérhető vagy megváltozott.

    A ScrapBook X [wiki szócikk] egy régóta fejlesztett, sokat tudó és magyar fordítással is ellátott Firefox kiegészítő, mellyel egy felhasználóbarát felületen tudunk weboldalakat, vagy akár teljes vagy részleges webhelyeket elmenteni a gépünkre, majd pedig ezeket a mentéseket szerkeszteni, összefűzni, sőt teljes szöveggel keresni is lehet. További bővítmények is telepíthetők hozzá, és így például a nyílt Mozilla Archive Format [MAFF] formátumba is konvertálhatók a mentések, amely tulajdonképpen a weblapokból és az azokhoz tartozó egyéb fájlokból készített ZIP csomag. Sajnos a Firefox új Quantum verziójával nem működik együtt, úgyhogy a használatához a Firefox ESR változatot kell telepíteni. <2.1.2_scrapbook1.png> <2.1.2_scrapbook2.png> A fejlesztője 2017 őszén Web ScrapBook [wiki szócikk] néven új projektet indított egy Quantum- és Chromium-kompatibilis kiegészítő elkészítése céljából, de ennek kevésbé felhasználóbarát felülete van. Viszont a fájlok a saját gépünk helyett egy backend szerverre is lementhetők, így intézményi szintű gyűjtemény is építhető vele. <2.1.2_webscrapbook1.png> <2.1.2_webscrapbook2.png>

    Chrome böngészőhöz készült kiegészítő a WARCreate [wiki szócikk], amivel az éppen nézett weboldalt szabványos, a nagy webarchívumok által is használt Web ARChive [WARC] fájlként tudjuk elmenteni, ami lényegében egy „konténer” formátum, melybe egy weboldal minden eleme és azok technikai metaadatai is belepakolhatók. <2.1.2_warcreate.png> A WARC fájl Windows alatt a Webrecorder Player [wiki szócikk] vagy a ReplayWeb.Page [wiki szócikk] programmal nézhető meg, de akár be is küldhető például egy intézményi archívumba, ahol indexelés után a PyWb [wiki szócikk] megjelenítő felülettel is böngészhető.

    A Mink [wiki szócikk] szintén egy Chrome bővítmény, ami a Memento Project [wiki szócikk] által bevezetett HTTP protokoll-bővítés segítségével automatikusan lekérdez néhány nagy webarchívumot, hogy az éppen nézett weboldalról vannak-e és ha igen, akkor mikori mentések, majd ezek megtekintését egy lenyíló listában felajánlja. <2.1.2_mink1.png> Az „Archive Page To...” gomb megnyomásával pedig kezdeményezhetjük az oldal aktuális állapotának lementését az Internet Archive "Save page now..." vagy az archive.is szolgáltatással, de akár egyszerre mindkét webarchívumba is elmenthetjük azt. <2.1.2_mink2.png>

    Ajánlott források: 1. Regisztráció a Pocket szolgáltatásra Firefox fiókkal, 2. Dr. Kosztyánné dr. Mátrai Rita: Kommunikáció és informatika alapjai. 6. téma: az internet archiválása

    1.3. Önálló alkalmazások

    A böngészőkiegészítők mellett számos, önállóan futtatható, ingyenes vagy fizetős webhely-letöltő program [offline browser] közül is választhatunk. Ezek az előzőekben ismertetett plug-in moduloknál általában több, esetenként jóval több funkciót biztosítanak: pl. a linkeket követő robotot [crawler][1] futtatnak, így nemcsak egyedi oldalak, hanem teljes webhelyek vagy azok kijelölt részei is lementhetők velük; a letöltési folyamat különféle szempontok szerint paraméterezhető, időzíthető és menet közben is felügyelhető; a mentett tartalmak gyűjteményekbe szervezhetők, kereshetők, frissíthetők stb. A letöltött weboldalak nézegetéséhez vagy egy saját, beépített megjelenítőt használnak, vagy a gépen található valamelyik böngészőt nyitják meg.

    A HTTrack [wiki szócikk] (teljes név: HTTrack Website Copier, Windows változat: WinHTTrack) az egyik legrégibb és legjobb ilyen ingyenes szoftver, melynek magyarított felülete is van. <2.1.3_httrack.mp4> Számos paraméterezési lehetőséget biztosít, így jól szabályozható vele, hogy a kiindulásként megadott URL címről [seed][2] elindulva milyen mélységig kövesse a linkeket, milyen típusú fájlokat töltsön le és milyeneket ne; egyszerre hány szálon és milyen sebességgel történjen a mentés; és hogyan alakítsa lokálissá a linkeket, hogy az archivált anyag internet kapcsolat nélkül is navigálható legyen. <2.1.3_httrack1.png> <2.1.3_httrack2.png> Nincs saját böngésző felület benne, de minden mentéshez csinál egy egységes HTML kezdőlapot, amit a gépünkön levő böngészők valamelyikével megnyitva rövidesen átkerülünk a mentett verzió nyitóoldalára. <2.1.3_httrack3.png> Könnyű megtanulhatósága és rugalmas konfigurálási lehetőségei miatt néhány külföldi webarchiváló projektnél is használják, illetve használták, mert a legtöbb helyen már áttértek a nagyobb teljesítményű és szabványos WARC fájlokat előállító Heritrix aratószoftverre, bár pl. az ausztrál PANDAS [wiki szócikk] rendszer még mindig erre épül.

    A WAIL [wiki szócikk] is elsősorban személyes webarchiválásra szolgáló szoftver, de mivel WARC formátumba ment, ezért egy intézményi archívumnál is hasznos eszköz lehet, különösen mivel ugyanazt a Heritrix [wiki szócikk] aratószoftvert használja, mint a nagy, professzionális rendszerek. Külön érdekessége, hogy Twitter csatornák mentésére is fel van készítve, továbbá 2017-ben az előző részben már ismertetett WARCreate egy módosított változatát is beleépítette a fejlesztője, így a „Page...” kezdetű konfigurációs beállítások esetében a weboldalak letöltése a Chrome böngészőmotorján keresztül történik, amivel a mai, dinamikusan generált, bonyolult felépítésű weboldalak jobb minőségben menthetők, mint a Heritrix-szel. <2.1.3_wail1.png> Az egyes mentések részgyűjteményekbe szervezhetők és később újraarathatók. <2.1.3_wail2.png> 64 bites Windows 7 vagy későbbi verzió alatt működik, és csak akkor, ha a C: winchester gyökérkönyvtárában levő WAIL/ mappába tesszük és rendszergazdai jogosultsággal futtatjuk (de még így is előfordul, hogy kétszer-háromszor is el kell indítani). <2.1.3_wail.mp4> A WARC fájlok a Dokumentumok/ nevű Windows mappánkba kerülnek és visszanézhetők a WAIL-be beépített Wayback [wiki szócikk] megjelenítővel, vagy a WAIL-től függetlenül elindítható, a következő fejezetben ismertetett Webrecorder Playerrel [wiki szócikk].

    Ajánlott források: 1. MIA Wiki: Offline browser szoftverek, 2. Wikipédia : HTTrack

    2. Weboldal- illetve webhely-archiváló online szolgáltatások

    A saját gépünkre telepíthető böngészőkiegészítők vagy önállóan futtatható programok mellett vagy helyett használhatunk többféle online szolgáltatást is arra, hogy egy-egy weboldalt vagy az interneten elérhető egyéb digitális dokumentumot (pl. képet, videót, PDF-ben közzétett publikációt), vagy akár komplett webhelyeket archiváljunk. Ezek az igény esetén archiváló [archive-on-demand] szolgáltatások lehetnek ingyenesek vagy fizetősek; regisztrációval vagy akár anélkül is használhatók; a mentéseket tárolhatják a szolgáltató szerverén vagy egyéb felhőtárhelyen, de megengedhetik azt is, hogy a saját gépünkre is letöltsük őket.

    A Save Page Now [wiki szócikk] az Internet Archive Wayback Machine [wiki szócikk] oldalán levő funkció, ahol – mindenféle regisztrálás nélkül – megadhatunk egy URL címet <2.2.1_save_page_now1.png> és az ott található weboldalt vagy más fájlt a rendszer azonnal archiválja (ha nincs ennek valamilyen technikai akadálya), majd visszaad egy stabil URL-t, ami a mentett verzióra mutat. <2.2.1_save_page_now2.png> Ezt máris megoszthatjuk másokkal is, de egy idő után a Wayback Machine-ban mindenki számára elérhető lesz a mentés.

    Hasonló szolgáltatást nyújt az archive.is [wiki szócikk] oldal, ahol szintén rendkívül egyszerűen: egy URL-t megadva vagy egy könyvjelző-alkalmazásra (bookmarklet) kattintva menthetünk el egy weblapot, vagy nézhetjük vissza az általunk vagy mások által korábban készített mentéseket. <2.2.1_archive_is1.png> Ez a rendszer egy (elég rossz minőségű) képernyőfotót is készít az oldalról, és azt is lehetővé teszi, hogy egy ZIP csomagban letöltsük a gépünkre a mentett weboldalt és az azt alkotó egyéb fájlokat. <2.2.1_archive_is2.png>

    Főként a publikációkban online forrásokra hivatkozó szerzőknek és szerkesztőknek szánt, gyors archiválást és stabil URL-t biztosító rendszer a WebCite [wiki szócikk]. Sok külföldi folyóirat-szerkesztőség és könyvtár tagja már a WebCite Konzorciumnak, de tagság és regisztráció nélkül is használhatjuk a szolgáltatást, csupán az e-mail címünket kell közölnünk, ahová a mentett változat URL-jét küldik. <2.2.1_webcite.mp4> Érdekesség, hogy alapvető metaadatokat (pl. szerző, cím, kiadó, kiadási dátum, témakör) is megadhatunk a menteni kívánt weboldalról vagy egyéb dokumentumról, amelyek szintén a korrekt idézést segítik. <2.2.1_webcite1.png> Egy könyvjelző-alkalmazás segítségével a böngészőnkbe is beépíthetjük a WebCite szolgáltatását, így egy-két kattintással tudjuk archiválni az éppen nézett weblapot <2.2.1_webcite2.png> és már jön is az e-mail a stabil hivatkozással. <2.2.1_webcite3.png> (2019 augusztusától a WebCite archiváló funkciója ismeretlen okból és ideig szünetel!)

    Szintén a publikációk hivatkozásjegyzékében egyre több gondot okozó link-romlás [link rot][3] ellen kitalált, (főként amerikai) könyvtári konzorciumi háttérrel működő rendszer a Perma.cc [wiki szócikk]. Ez bár egy bizonyos határig ingyenes, de regisztrációhoz kötött szolgáltatás. <2.2.1_perma_cc1.png> <2.2.1_perma_cc2.png> Mivel a böngésző eszköztárára húzható bookmarklet mellett programozható csatoló (API) is van hozzá, beépíthető például repozitóriumokba vagy e-folyóiratok szerkesztőségi rendszerébe, hogy a publikációkban található linkek által hivatkozott dokumentumok automatikusan archiválásra kerüljenek.

    Egy másfajta problémára, a sok interaktív funkciót és beágyazott médiaelemet tartalmazó webes tartalmak (pl. közösségi oldalak, digitális művészeti alkotások) megőrzésére kidolgozott ingyenes megoldás a Windows alá is telepíthető Webrecorder Desktop és annak online változata, a Conifer [wiki szócikk], melyhez egy beépített, valamint egy különálló ReplayWeb.Page [wiki szócikk] (korábban: Webrecorder Player [wiki szócikk]) nevű offline lejátszó is tartozik. <2.2.1_replay_webpage.png> A Webrecorder/Conifer úgy működik, mint egy videomagnó: amikor megnyomjuk a „felvétel” (Capture) gombot, elkezdi rögzíteni a böngészési folyamatot, lement mindent, amit megnézünk a weben, sőt, ha az Autopilot gombot megnyomjuk, akkor magától végigpörgeti az aktuális weboldalt, hogy azok az oldalelemek (pl. képek) is bekerüljenek az archívumba, amelyek csak akkor töltődnek le a webszerverről, ha a felhasználó lejjebb görget. Ezzel a módszerrel olyan oldalakról (pl. Facebook, Instagram, munkahelyi intranet) is lehet mentéseket készíteni, amelyekkel a Heritrix-szerű robotok nem igazán boldogulnak, sőt amelyekre esetleg be sem tudnak lépni a jelszavas védelem vagy a robotok teljes körű kitiltása miatt. <2.2.1_webrecorder.mp4> A Conifer szolgáltatás esetében ha csinálunk magunknak egy felhasználói fiókot, akkor a mentéseinket megoszthatjuk másokkal vagy teljesen nyilvánossá is tehetjük, és letölthetjük őket WARC formátumban offline böngészéshez. <2.2.1_conifer1.png> <2.2.1_coniferr2.png> <2.2.1_coniferr3.png> A visszanézés közben természetesen nem kell megismételnünk az eredeti böngészési folyamatot, bármelyik linkre bármilyen sorrendben rákattinthatunk, de csak azok a linkek fognak működni, amelyeket a felvétel rögzítése során megnéztünk. <2.2.1_coniferr4.png> (2021 elején a Webrecorder Desktop fejlesztése lezárult, helyette a Chrome kiegészítőként és önálló alkalmazásként is használható ArchiveWeb.page [wiki szócikk], nevű eszközt ajánlják, amely a ReplayWeb.Page megjelenítővel gyorsabban betölthető zip-csomagolású WACZ formátumba is tud menteni.)

    Az eddig ismertetett különféle megoldások személyes célú archiválásra, vagy esetleg kisebb intézményi webarchívumok létrehozására alkalmasak, de nagy volumenű, professzionális szintű, előfizetéses alapon működő webarchiváló szolgáltatást is kínál néhány cég a világon. Ezek közül a legismertebb az Internet Archive 2006-ban indított Archive-It [wiki szócikk] rendszere, melynek ügyfelei közt számos könyvtár is található. A megrendelő a böngészőjében megnyitott adminisztrátori felületen tudja az aratásokat menedzselni, ütemezni, metaadatolni, s a lementett webhelyekből gyűjteményeket alakíthat ki. <2.2.1_archive-it1.png> Ezek a gyűjtemények azután vagy nyilvánosan, vagy zárt körben (pl. csak a könyvtár dedikált gépeiről) böngészhetők és kereshetők. Az archív anyagból kutatási célokra leszűrt adathalmazokat is lehet készíteni és letölteni, <2.2.1_archive-it2.png> de maga a teljes archívum is lementhető WARC fájlok formájában az ügyfél saját tárhelyére pl. hosszú távú megőrzés céljából.

    Ajánlott források: 1. Berta Sándor: A halott linkek nyomában, 2. Sylvie Rollason-Cass: Archive-It Video Curriculum

    Összefoglalás:

    Weboldalakat többféle formában és többféle eszközzel lehet archiválni. Használhatunk olyan programokat, amelyek csak az oldalak képét mentik el, megőrizve így azok tartalmát és külalakját, de az interaktív és a hipertext funkciók, valamint a szöveg kereshetősége és kimásolhatósága elvész. A böngészőkbe beépülő modulok vagy önálló alkalmazások, illetve az online szolgáltatások már az eredeti weboldalt és annak alkotóelemeit mentik el – több-kevesebb hibával, hiánnyal. A fejlettebbek a linkeket is követik, így egész webhelyek vagy webhelyrészek is letölthetők velük. Többségükkel csak alkalmi mentések, kisebb gyűjtemények hozhatók létre, de amennyiben támogatják a nemzetközileg szabványos WARC tárolási formátumot, vagy eleve valamelyik nagy webarchívumba mentenek, akkor hosszú távon is megmaradhatnak a velük készített másolatok. Nagy méretű, üzemszerűen működtethető archiválás vagy egy ezzel foglalkozó cég/szervezet segítségével (általában előfizetéses alapon), vagy egy saját, Linux-szerveren működő rendszer kialakításával valósítható meg. Utóbbiról a következő fejezetben lesz szó.


    Önellenőrző kérdések:

    Megoldandó feladatok:

    1. Készítsen a teljes oldalt tartalmazó képernyőfotókat a http://mekosztaly.oszk.hu/mia weblapról a Nimbus Screenshot és a FireShot segítségével, majd mentse el őket PNG és JPG formátumokban is (és ha van a gépen Firefox, akkor annak a beépített funkciójával is csináljon egy PNG fájlt). Ezután felnagyítva hasonlítsa össze az egyes képeket, hogy melyiken mennyire olvashatók az apró betűs szövegrészek. Nézze meg a programok beállításait, hogy lehet-e jobb minőségű mentéseket készíteni?

    2. Telepítse a Chrome böngészőhöz a WARCreate modult, majd mentse el vele a MIA Wikiből a https://webarchivum.oszk.hu/mediawiki/index.php/WARC szócikket és nézze meg a mentést az előzetesen feltelepített ReplayWeb.page programmal. Próbálja ki, hogy működnek-e szócikkben levő linkek?

    3. Ugyanezt a szócikket mentse el az ArchiveWeb.page programmal is, de úgy, hogy a felvétel leállítása előtt a szócikkben levő néhány belső, majd egy-két külső linkre is kattintson rá. Ezután nézze vissza a mentést és tetszőleges sorrendben kattintson újra ezekre a linkekre, hogy ellenőrizze, mennyire sikerült a szócikkekből hivatkozott oldalak mentése.

    4. Csináljon egy mentést az archive.is rendszerrel a https://hirek.oldal.info/receptek oldalról, majd miután elkészült, nézze meg a képernyőfotót is a „Screenshot” fülre kattintva, továbbá az archív példány URL címét és a különféle megosztási lehetőségeket a „share” link alatt, valamint az oldal korábbi mentéseit a „history” alatt. A legrégebbi mentést töltse le a „download.zip” feliratra kattintva, majd csomagolja ki (pl. a Windows Intézőben a jobb egérgombbal megjelenő „Az összes kibontása...” menüponttal) és nyissa meg az index.html fájlt.

    5. Indítsa el az előre feltelepített HTTrack szoftvert és hozzon létre vele egy „nyelvemlek” nevű projektet, ami a http://nyelvemlekek.oszk.hu/ oldal mentését tartalmazza majd. A következő képernyőn a „Webcímek” mezőbe másolja be ezt az URL-t. Ezután az alatta levő „Beállítások” gombra kattintva a „Korlátozások” fülön 3-as értéket állítson be max. mélységnek és 0-át maximális külső mélységnek, az átviteli sebességet pedig vegye maximumra, akárcsak a csatlakozások számát a „Forgalom szabályozás” fülön. A „Keresési szabályok” alatt pedig zárja ki a pdf, mp3 és mp4 típusú fájlok letöltését a "Hivatkozás kizárása" gombbal a "Fájlnév kiterjesztéssel" opciót választva és megadva ezeket a fájlvégződéseket (kézzel is beírhatók egy sorba szóközökkel). A "Hivatkozás" fülön pipálja ki az első két opciót ("Minden URL felfogása..." és "Hivatkozáshoz kapcsolódó nem HTML fájlok letöltése..."). Végül a "Tovább" és a "Befejezés" gombok megnyomásával indítsa el a robotot. Miután befejeződött a mentés, nézze meg a Hibanaplóban (hts-log.txt), hogy mennyi idő alatt hány fájlt, mekkora összméretben töltött le a program, és hogy melyik linket nem sikerült lementenie ("Not Found" (404)), majd a „Tükrözött weblap böngésző” gombbal nyissa meg az archivált anyagot. Végül nézze meg az Intézővel vagy a Commanderrel a gépén a "nyelvemlek" mappa alatt levő alkönyvtárakat, hogy vajon melyikben vannak a nyelvemlékeket ábrázoló JPG képek?


    JEGYZETEK

    1 A weboldalakban levő linkeket követő szoftver.

    2 Annak a weboldalnak az URL címe, ahonnan elindul a crawler.

    3 Az internetes hivatkozások mögül eltűnő tartalom problémája.




    Hátra Kezdőlap Előre