2. modul: Webarchiválás Windows alatt


Bevezető gondolatok

Ez a modul Windows operációs rendszerű gépeken (is) használható archiváló szoftvereket és szolgáltatásokat ismertet, amelyekkel különböző módokon menthetők el weboldalak vagy komplett webhelyek. Vannak köztük az elterjedt Firefox ill. Chrome böngészőkbe beépülő modulok, önállóan futtatható szoftverek, és olyan ingyenes vagy fizetős online szolgáltatások is, melyek használatához szintén csak egy böngészőre és általában regisztrációra van szükség. Ezek az eszközök különböző formátumokba mentenek és vagy a felhasználó saját gépén, vagy pedig egy távoli szerveren, felhőszolgáltatásként tárolják az archív fájlokat. A különféle megoldások eltérő célokra optimálisak: pl. a képként vagy PDF-be való mentés egy screen capture programmal inkább csak gyors megoldásnak, esetleg bizonyítéknak, ill. a böngészőben látható külalak minél pontosabb megőrzésére jó; egy offline browserrel mentve már az eredeti weboldalak közötti hipertext kapcsolatok is megmaradnak és visszanézhetők; az azonnali felhőbe mentést biztosító archive-on-demand megoldások elsősorban a publikációkban, oktatóanyagokban való stabil hivatkozhatóságot segítik elő; míg egy professzionális, előfizetéses webarchiváló szolgáltatással szabványos formátumban tárolt, hosszú távon is fennmaradó, metaadatolható, kereshető webarchívumot hozhatunk létre.

Célok, megszerezhető kompetenciák:

A modul célja, hogy a tanulót megismertesse azokkal a lehetőségekkel, amelyek speciálisabb informatikai ismeretek nélkül, egy Windows alatt futó program vagy böngészőkiegészítő telepítése után, vagy egy internetes szolgáltatást igénybe véve lehetővé teszik webes tartalmak különböző formátumokban való archiválását. A tananyag elsajátítása és a megoldandó feladatok elvégzése után a tanuló képes lesz önállóan weboldalakat és más online elérhető dokumentumokat, illetve webhelyrészeket vagy akár teljes webhelyeket lementeni saját célra vagy egy intézményi gyűjteményhez.

Szükséges eszközök, források:

A Windows 7. , 8. vagy 10. verzióját futtató asztali számítógép vagy laptop internet kapcsolattal, továbbá a legújabb Chrome böngésző és lehetőleg a Firefox 52.7.4-es ESR portable verziója, amiben ki kell kapcsolni az automatikus frissítést.

Feldolgozási idő:

7×45 perc

Témakörök:

  • Internetes tartalmak mentésére használható ingyenes Windows szoftverek
  • Weboldal- illetve webhely-archiváló online szolgáltatások

  • 1. Internetes tartalmak mentésére használható ingyenes szoftverek

    1.1. Weboldalkép készítők

    A screen capture (magyarul: képlopó) programoknak van egy olyan válfaja vagy működési módja, amellyel nemcsak a képernyőn éppen látható tartalom, hanem egy teljes weboldal elmenthető egy PNG, vagy JPG, esetleg PDF fájlba. A fejlettebbekkel az is megoldható, hogy pl. egy szövegfájlban megadott URL címlista alapján automatikusan készítsenek ilyen képernyőfotókat egy sor weboldalról – akár időzítve, ismétlődően is. Ennek a megoldásnak nagy előnye, hogy a weboldalnak azt az állapotát és külalakját tudjuk így megőrizni, ahogy az a kép készítésekor az akkor érvényes böngészőben megjelent, szemben azokkal a módszerekkel, amelyek a weboldalakat alkotó fájlokat mentik le és ezekből próbálják később rekonstruálni őket. Utóbbi esetben ugyanis gyakori (és egyre gyakoribb), hogy a komplex, dinamikusan generált weboldalak csak töredékesen kerülnek a webarchívumba és később visszanézve őket hiányosan, illetve eltorzulva jelennek meg. A weboldalképek készítésekor ritkábbak az ilyen megjelenítési problémák, viszont természetesen ezeknél elvész az interaktivitás és a szövegben való kereshetőség (bár a PDF-be mentés esetén utóbbi megmarad és a belső linkek is működőképesek maradhatnak). Mindezen előnyök és hátrányok miatt az oldalkép készítő programokat gyakran kiegészítésként használják a webarchívumoknál a külalak rögzítésére.

    A Grab Them All [wiki szócikk] egy ingyenes Firefox bővítmény, ami az új Firefox Quantummal (egyelőre) nem kompatibilis, így a Firefox 52.7.4-es vagy régebbi, ú.n. ESR verzióját kell használni hozzá. Tömegesen tud PNG vagy JPG képeket csinálni egy TXT fájlból vett URL címekről és az is beállítható, hogy az egyes képek elkészítése előtt mennyi időt várjon arra, hogy az oldal biztosan betöltődjön a böngészőbe. <2.1.1_gta.mp4> <2.1.1_gta_oszk.pptx>

    A Nimbus Screen Capture [wiki szócikk] (más néven: Nimbus Screenshot & Screen Video Recorder) szintén ingyen telepíthető kiegészítő Chrome, Firefox és egyéb böngészőkhöz. Hasonlóan működik, mint a billentyűzeten levő Print Screen gomb, de automatikusan végiglapozza az éppen nézett weboldalt és összefűzi az egyes képernyődarabokat egy PNG vagy JPG képpé, amit azután még szerkeszthetünk és feltölthetünk egy felhőtárhelyre is. Mivel más technikát használ, mint a Grab Them All, ezért más, általában jobb eredményt ad, viszont nem adható meg neki előre egy URL címlista. <2.1.1_nimbus.mp4>

    Hasonló funkciókat kínál a FireShot (más néven: Full Web Page Screenshots) [wiki szócikk] kiegészítő, amely szintén többféle böngészőhöz telepíthető és az ingyenes verziója a PNG és JPG mellett PDF-be is tud menteni, bár szintén csak képként, viszont az oldalon levő linkek kattinthatóak maradnak (de természetesen ezek az élő webre mutatnak és az ingyenes változatnál csak néhány másodperces várakozás után nyílnak meg). <2.1.1_fireshot.pdf> A fizetős FireShot Pro egy képszerkesztőt is tartalmaz, továbbá többoldalas PDF fájlok is létrehozhatók vele, több böngészőfül egyszerre menthető, és az oldalképek közvetlenül feltölthetők különböző felhőtárhelyekre.

    Maga a Firefox is tartalmaz oldalkép készítő funkciót, ami egyrészt a webfejlesztő eszközök bekapcsolásával, vagyis az F12 billentyűvel érhető el, ahol is az F1 gombot megnyomva kapcsolható be a „Képernyőkép készítése a teljes oldalról” opcióval az erre a célra szolgáló fényképezőgép ikon. <2.1.1_firefox1.png> Másrészt a Shift+F2 gombokkal előhívható parancssorba is beírható egy screenshot [filename] [options] szerkezetű parancs, ahol a filename annak a .png végződésű fájlnak a neve, amibe a képet menteni szeretnénk, az options résznél választható opciók közül pedig a --fullpage az, amivel a teljes megnyitott weboldalt lefotózhatjuk. <2.1.1_firefox2.png> (A kép mindkét esetben a letöltéseket tartalmazó mappába kerül.) A 2018 szeptemberében megjelent 62-es verziójú Firefox-ból kivették a parancssort, így az új böngészőkben ez a második módszer többé már nem használható. Bekerült viszont a Firefox Quantumba egy „Készítsen képernyőképet” menüpont, ami az URL címet mutató sor végén levő ... (három pont) ikonra kattintva hívható elő. A nevével ellentétben ez is alkalmas a teljes weboldal lefotózására. <2.1.1_firefox3.png> <2.1.1_firefox4.png> A képet PNG formátumban menthetjük le vagy feltölthetjük a screenshots.firefox.com szerveren levő felhőtárhelyre, ahol szerkesztési és megosztási funkciók is használhatók, viszont ide legfeljebb 10.000 pont magas képeket enged feltenni a rendszer (az ennél hosszabbakat automatikusan megvágja), és ha nem állítjuk be a „nem jár le” opciót, akkor a kép max. 1 hónap után törlődik.

    Az Adobe cég (nem ingyenes) Acrobat nevű PDF szerkesztő programjában levő Web Capture [wiki szócikk] funkció már egy átmenet a weboldalkép készítő és a weboldal/webhely lementő eszközök között. <2.1.1_acrobat1.png> A megadott URL címen található weboldalból tud JPG, PNG és PDF fájlt is készíteni, de azt is megadhatjuk, hogy kövesse az oldalon talált linkeket egy bizonyos mélységig és ezeket is tegye bele a fájlba. PDF-be mentés esetén a linkek is működőképesek maradnak, és az így generált, könyvjelzőzött és felcímkézett PDF-ek később bővíthetők újabb weboldalakkal, sőt az Acrobat frissíteni is tudja őket, amennyiben az eredeti szerveren megváltoztak időközben. <2.1.1_acrobat2.png> Ennek a módszernek az a fő hátránya, hogy mivel nem egy valódi és fejlett böngészőn keresztül történik a mentés, a bonyolultabb weboldalak külalakja és elrendezése gyakran szétesik. <2.1.1_acrobat.pdf>

    Ajánlott források: 1. Weboldalak átalakítása PDF dokumentummá, 2. Drótos László (ref.) Webtörténetírás az Internet Archive-ból készített képernyővideókkal

    1.2. Böngészőbe beépülő archiváló modulok

    Az élő web böngészésére szolgáló programok (pl. Internet Explorer, Microsoft Edge, Mozilla Firefox, Chrome, Safari, Opera) kiegészíthetők olyan beépülő (plug-in) modulokkal, amelyek lehetővé teszik a weboldalak lementését későbbi, akár internet kapcsolat nélkül való olvasáshoz, megtekintéshez. Az, hogy mit (csak a szöveget, vagy a médiaelemeket és esetleg az eredeti külalakot is) és milyen formátumban ment ez az offline reader modul, nagyban meghatározza annak felhasználhatóságát a személyes célú, rövid távú megőrzésen túlmutató archiválási feladatokra. Azok a megoldások, amelyek szabványos archív formátumot és másokkal is megosztható felhőtárhelyet használnak, akár beépíthetők egy intézményi webarchívum eszköztárába is.

    A Pocket [wiki szócikk] eredetileg (Read It Later néven) egy külön telepíthető Firefox kiegészítő volt, amellyel elmenthettük az éppen nézett oldalt későbbi olvasáshoz. 2015-ben a modul bekerült a böngésző alapfunkciói közé. <2.1.2_pocket1.png> A mentett oldalak Firefox vagy Google fiókhoz kötött felhőtárhelyre kerülnek, szinkronizálódnak a különböző eszközeink között, címkézhetők és megoszthatók, és keresni is tudunk mások nyilvános Pocket anyagai között, így egyben könyvjelző megosztó alkalmazás is. <2.1.2_pocket2.png> A fejlett keresővel rendelkező, előfizetős Pocket Premium szolgáltatás esetében a Permanent Library nevű funkció hosszú távú megőrzést biztosít olyankor is, amikor az eredeti weboldal már nem elérhető vagy megváltozott.

    A ScrapBook X [wiki szócikk] egy régóta fejlesztett, sokat tudó és magyar fordítással is ellátott Firefox kiegészítő, mellyel egy felhasználóbarát felületen tudunk weboldalakat, vagy akár teljes vagy részleges webhelyeket elmenteni a gépünkre, majd pedig ezeket a mentéseket szerkeszteni, összefűzni, sőt teljes szöveggel keresni is lehet. További bővítmények is telepíthetők hozzá, és így például a nyílt Mozilla Archive Format [MAFF] formátumba is konvertálhatók a mentések, amely tulajdonképpen a weblapokból és az azokhoz tartozó egyéb fájlokból készített ZIP csomag. Sajnos a Firefox új Quantum verziójával nem működik együtt, úgyhogy a használatához a Firefox ESR változatot kell telepíteni. <2.1.2_scrapbook1.png> <2.1.2_scrapbook2.png> A fejlesztője 2017 őszén Web ScrapBook [wiki szócikk] néven új projektet indított egy Quantum-kompatibilis kiegészítő elkészítése céljából, de 2018 augusztusában ez még nagyon kezdetleges állapotban volt és egyszerre csak egy weboldal letöltésére használható. <2.1.2_webscrapbook1.png> <2.1.2_webscrapbook2.png>

    Chrome böngészőhöz készült kiegészítő a WARCreate [wiki szócikk], amivel az éppen nézett weboldalt szabványos, a nagy webarchívumok által is használt Web ARChive [WARC] fájlként tudjuk elmenteni, ami lényegében egy „konténer” formátum, melybe egy weboldal minden eleme és azok technikai metaadatai is belepakolhatók. <2.1.2_warcreate.png> A WARC fájl Windows alatt a Webrecorder Player [wiki szócikk] programmal nézhető meg, de akár be is küldhető például egy intézményi archívumba, ahol indexelés után a Wayback [wiki szócikk] megjelenítő felülettel is böngészhető.

    A Mink [wiki szócikk] szintén egy Chrome bővítmény, ami a Memento Project [wiki szócikk] által bevezetett HTTP protokoll-bővítés segítségével automatikusan lekérdez néhány nagy webarchívumot, hogy az éppen nézett weboldalról vannak-e és ha igen, akkor mikori mentések, majd ezek megtekintését egy lenyíló listában felajánlja. <2.1.2_mink1.png> Az „Archive Page To...” gomb megnyomásával pedig kezdeményezhetjük az oldal aktuális állapotának lementését az Internet Archive, vagy az archive.is, vagy pedig a WebCite szolgáltatással, de akár egyszerre mindhárom webarchívumba is elmenthetjük azt. <2.1.2_mink2.png>

    Ajánlott források: 1. Regisztráció a Pocket szolgáltatásra Firefox fiókkal, 2. Dr. Kosztyánné dr. Mátrai Rita: Kommunikáció és informatika alapjai. 6. téma: az internet archiválása

    1.3. Önálló alkalmazások

    A böngészőkiegészítők mellett számos, önállóan futtatható, ingyenes vagy fizetős webhely-letöltő program [offline browser] közül is választhatunk. Ezek az előzőekben ismertetett plug-in moduloknál általában több, esetenként jóval több funkciót biztosítanak: pl. a linkeket követő robotot [crawler][1] futtatnak, így nemcsak egyedi oldalak, hanem teljes webhelyek vagy azok kijelölt részei is lementhetők velük; a letöltési folyamat különféle szempontok szerint paraméterezhető, időzíthető és menet közben is felügyelhető; a mentett tartalmak gyűjteményekbe szervezhetők, kereshetők, frissíthetők stb. A letöltött weboldalak nézegetéséhez vagy egy saját, beépített megjelenítőt használnak, vagy a gépen található valamelyik böngészőt nyitják meg.

    A HTTrack [wiki szócikk] (teljes név: HTTrack Website Copier, Windows változat: WinHTTrack) az egyik legrégibb és legjobb ilyen ingyenes szoftver, melynek magyarított felülete is van. <2.1.3_httrack.mp4> Számos paraméterezési lehetőséget biztosít, így jól szabályozható vele, hogy a kiindulásként megadott URL címről [seed][2] elindulva milyen mélységig kövesse a linkeket, milyen típusú fájlokat töltsön le és milyeneket ne; egyszerre hány szálon és milyen sebességgel történjen a mentés; és hogyan alakítsa lokálissá a linkeket, hogy az archivált anyag internet kapcsolat nélkül is navigálható legyen. <2.1.3_httrack1.png> <2.1.3_httrack2.png> Nincs saját böngésző felület benne, de minden mentéshez csinál egy egységes HTML kezdőlapot, amit a gépünkön levő böngészők valamelyikével megnyitva rövidesen átkerülünk a mentett verzió nyitóoldalára. <2.1.3_httrack3.png> Könnyű megtanulhatósága és rugalmas konfigurálási lehetőségei miatt néhány külföldi webarchiváló projektnél is használják, illetve használták, mert a legtöbb helyen már áttértek a nagyobb teljesítményű és szabványos WARC fájlokat előállító Heritrix aratószoftverre, bár pl. az ausztrál PANDAS [wiki szócikk] rendszer még mindig erre épül.

    A WAIL [wiki szócikk] is elsősorban személyes webarchiválásra szolgáló szoftver, de mivel WARC formátumba ment, ezért egy intézményi archívumnál is hasznos eszköz lehet, különösen mivel ugyanazt a Heritrix [wiki szócikk] aratószoftvert használja, mint a nagy, professzionális rendszerek. Külön érdekessége, hogy Twitter csatornák mentésére is fel van készítve, továbbá 2017-ben az előző részben már ismertetett WARCreate egy módosított változatát is beleépítette a fejlesztője, így a „Page...” kezdetű konfigurációs beállítások esetében a weboldalak letöltése a Chrome böngészőmotorján keresztül történik, amivel a mai, dinamikusan generált, bonyolult felépítésű weboldalak jobb minőségben menthetők, mint a Heritrix-szel. <2.1.3_wail1.png> Az egyes mentések részgyűjteményekbe szervezhetők és később újraarathatók. <2.1.3_wail2.png> 64 bites Windows 7 vagy későbbi verzió alatt működik, és csak akkor, ha a C: winchester gyökérkönyvtárában levő WAIL/ mappába tesszük és rendszergazdai jogosultsággal futtatjuk (de még így is előfordul, hogy kétszer-háromszor is el kell indítani). <2.1.3_wail.mp4> A WARC fájlok a Dokumentumok/ nevű Windows mappánkba kerülnek és visszanézhetők a WAIL-be beépített Wayback [wiki szócikk] megjelenítővel, vagy a WAIL-től függetlenül elindítható, a következő fejezetben ismertetett Webrecorder Playerrel [wiki szócikk].

    Ajánlott források: 1. MIA Wiki: Offline browser szoftverek, 2. Wikipédia : HTTrack

    2. Weboldal- illetve webhely-archiváló online szolgáltatások

    A saját gépünkre telepíthető böngészőkiegészítők vagy önállóan futtatható programok mellett vagy helyett használhatunk többféle online szolgáltatást is arra, hogy egy-egy weboldalt vagy az interneten elérhető egyéb digitális dokumentumot (pl. képet, videót, PDF-ben közzétett publikációt), vagy akár komplett webhelyeket archiváljunk. Ezek az igény esetén archiváló [archive-on-demand] szolgáltatások lehetnek ingyenesek vagy fizetősek; regisztrációval vagy akár anélkül is használhatók; a mentéseket tárolhatják a szolgáltató szerverén vagy egyéb felhőtárhelyen, de megengedhetik azt is, hogy a saját gépünkre is letöltsük őket.

    A Save Page Now [wiki szócikk] az Internet Archive Wayback Machine [wiki szócikk] oldalán levő funkció, ahol – mindenféle regisztrálás nélkül – megadhatunk egy URL címet <2.2.1_save_page_now1.png> és az ott található weboldalt vagy más fájlt a rendszer azonnal archiválja (ha nincs ennek valamilyen technikai akadálya), majd visszaad egy stabil URL-t, ami a mentett verzióra mutat. <2.2.1_save_page_now2.png> Ezt máris megoszthatjuk másokkal is, de egy idő után a Wayback Machine-ban mindenki számára elérhető lesz a mentés.

    Hasonló szolgáltatást nyújt az archive.is [wiki szócikk] oldal, ahol szintén rendkívül egyszerűen: egy URL-t megadva vagy egy könyvjelző-alkalmazásra (bookmarklet) kattintva menthetünk el egy weblapot, vagy nézhetjük vissza az általunk vagy mások által korábban készített mentéseket. <2.2.1_archive_is1.png> Ez a rendszer egy (elég rossz minőségű) képernyőfotót is készít az oldalról, és azt is lehetővé teszi, hogy egy ZIP csomagban letöltsük a gépünkre a mentett weboldalt és az azt alkotó egyéb fájlokat. <2.2.1_archive_is2.png>

    Főként a publikációkban online forrásokra hivatkozó szerzőknek és szerkesztőknek szánt, gyors archiválást és stabil URL-t biztosító rendszer a WebCite [wiki szócikk]. Sok külföldi folyóirat-szerkesztőség és könyvtár tagja már a WebCite Konzorciumnak, de tagság és regisztráció nélkül is használhatjuk a szolgáltatást, csupán az e-mail címünket kell közölnünk, ahová a mentett változat URL-jét küldik. <2.2.1_webcite.mp4> Érdekesség, hogy alapvető metaadatokat (pl. szerző, cím, kiadó, kiadási dátum, témakör) is megadhatunk a menteni kívánt weboldalról vagy egyéb dokumentumról, amelyek szintén a korrekt idézést segítik. <2.2.1_webcite1.png> Egy könyvjelző-alkalmazás segítségével a böngészőnkbe is beépíthetjük a WebCite szolgáltatását, így egy-két kattintással tudjuk archiválni az éppen nézett weblapot <2.2.1_webcite2.png> és már jön is az e-mail a stabil hivatkozással. <2.2.1_webcite3.png>

    Szintén a publikációk hivatkozásjegyzékében egyre több gondot okozó link-romlás [link rot][3] ellen kitalált, (főként amerikai) könyvtári konzorciumi háttérrel működő rendszer a Perma.cc [wiki szócikk]. Ez bár egy bizonyos határig ingyenes, de regisztrációhoz kötött szolgáltatás. <2.2.1_perma_cc1.png> <2.2.1_perma_cc2.png> Mivel a böngésző eszköztárára húzható bookmarklet mellett programozható csatoló (API) is van hozzá, beépíthető például repozitóriumokba vagy e-folyóiratok szerkesztőségi rendszerébe, hogy a publikációkban található linkek által hivatkozott dokumentumok automatikusan archiválásra kerüljenek.

    Egy másfajta problémára, a sok interaktív funkciót és beágyazott médiaelemet tartalmazó webes tartalmak (pl. közösségi oldalak, digitális művészeti alkotások) megőrzésére kidolgozott ingyenes megoldás a Webrecorder [wiki szócikk] szoftver, amelyhez egy online szolgáltatófelület és felhőtárhely (webrecorder.io), valamint egy Webrecorder Player [wiki szócikk] nevű offline lejátszó is tartozik. <2.2.1_webrecorder_player.png> A Webrecorder úgy működik, mint egy videomagnó: amikor megnyomjuk a „felvétel” (Record) gombot, elkezdi rögzíteni a böngészési folyamatot, lement mindent, amit megnézünk a weben, sőt, ha az Autoscroll gombot megnyomjuk, akkor magától végigpörgeti az aktuális weboldalt, hogy azok az oldalelemek (pl. képek) is bekerüljenek az archívumba, amelyek csak akkor töltődnek le a webszerverről, ha a felhasználó lejjebb görget. Ezzel a módszerrel olyan oldalakról (pl. Facebook, Instagram, munkahelyi intranet) is lehet mentéseket készíteni, amelyekkel a Heritrix-szerű robotok nem igazán boldogulnak, sőt amelyekre esetleg be sem tudnak lépni a jelszavas védelem vagy a robotok teljes körű kitiltása miatt. <2.2.1_webrecorder.mp4> A Webrecorder szolgáltatás regisztrálás nélkül is használható ideiglenes mentésekre, de ha csinálunk magunknak egy felhasználói fiókot, akkor plusz funkciókhoz is hozzáférünk: a mentéseket gyűjteményekbe szervezhetjük, megoszthatjuk ismerősökkel vagy teljesen nyilvánossá is tehetjük, és letölthetjük őket WARC formátumban offline böngészéshez. <2.2.1_webrecorder1.png> <2.2.1_webrecorder2.png> A visszanézés közben természetesen nem kell megismételnünk az eredeti böngészési folyamatot, bármelyik linkre bármilyen sorrendben rákattinthatunk, de csak azok a linkek fognak működni, amelyeket a felvétel rögzítése során megnéztünk. <2.2.1_webrecorder3.png>

    Az eddig ismertetett különféle megoldások személyes célú archiválásra, vagy esetleg kisebb intézményi webarchívumok létrehozására alkalmasak, de nagy volumenű, professzionális szintű, előfizetéses alapon működő webarchiváló szolgáltatást is kínál néhány cég a világon. Ezek közül a legismertebb az Internet Archive 2006-ban indított Archive-It [wiki szócikk] rendszere, melynek ügyfelei közt számos könyvtár is található. A megrendelő a böngészőjében megnyitott adminisztrátori felületen tudja az aratásokat menedzselni, ütemezni, metaadatolni, s a lementett webhelyekből gyűjteményeket alakíthat ki. <2.2.1_archive-it1.png> Ezek a gyűjtemények azután vagy nyilvánosan, vagy zárt körben (pl. csak a könyvtár dedikált gépeiről) böngészhetők és kereshetők. Az archív anyagból kutatási célokra leszűrt adathalmazokat is lehet készíteni és letölteni, <2.2.1_archive-it2.png> de maga a teljes archívum is lementhető WARC fájlok formájában az ügyfél saját tárhelyére pl. hosszú távú megőrzés céljából.

    Ajánlott források: 1. Berta Sándor: A halott linkek nyomában, 2. Sylvie Rollason-Cass: Archive-It Video Curriculum

    Összefoglalás:

    Weboldalakat többféle formában és többféle eszközzel lehet archiválni. Használhatunk olyan programokat, amelyek csak az oldalak képét mentik el, megőrizve így azok tartalmát és külalakját, de az interaktív és a hipertext funkciók, valamint a szöveg kereshetősége és kimásolhatósága elvész. A böngészőkbe beépülő modulok vagy önálló alkalmazások, illetve az online szolgáltatások már az eredeti weboldalt és annak alkotóelemeit mentik el – több-kevesebb hibával, hiánnyal. A fejlettebbek a linkeket is követik, így egész webhelyek vagy webhelyrészek is letölthetők velük. Többségükkel csak alkalmi mentések, kisebb gyűjtemények hozhatók létre, de amennyiben támogatják a nemzetközileg szabványos WARC tárolási formátumot, vagy eleve valamelyik nagy webarchívumba mentenek, akkor hosszú távon is megmaradhatnak a velük készített másolatok. Nagy méretű, üzemszerűen működtethető archiválás vagy egy ezzel foglalkozó cég/szervezet segítségével (általában előfizetéses alapon), vagy egy saját, Linux-szerveren működő rendszer kialakításával valósítható meg. Utóbbiról a következő fejezetben lesz szó.


    Önellenőrző kérdések:

    Megoldandó feladatok:

    1. Készítsen a teljes oldalt tartalmazó képernyőfotókat a http://mekosztaly.oszk.hu/mia weblapról a Nimbus Screenshot és a FireShot (és ha megoldható, akkor a Grab Them All vagy az Acrobat Web Capture) segítségével, majd mentse el őket PNG és JPG formátumokban is. Ezután felnagyítva hasonlítsa össze az egyes képeket, hogy melyiken mennyire olvashatók az apró betűs szövegrészek. Nézze meg a programok beállításait, hogy lehet-e jobb minőségű mentéseket készíteni?

    2. Telepítse a Chrome böngészőhöz a WARCreate modult, majd mentse el vele a MIA Wikiből a http://mekosztaly.oszk.hu/mediawiki/index.php/WARC szócikket és nézze meg a mentést az előzőleg szintén feltelepített Webrecorder Playerrel. Próbálja ki, hogy működnek-e szócikkben levő linkek?

    3. Regisztrálás nélkül ugyanezt a szócikket mentse el a webrecorder.io szolgáltatással is, de úgy, hogy a felvétel leállítása előtt a szócikkben levő néhány belső, majd egy-két külső linkre is kattintson rá. Ezután nézze vissza az online felületen a mentést és tetszőleges sorrendben kattintson újra ezekre a linkekre, hogy ellenőrizze, mennyire sikerült a szócikkekből hivatkozott oldalak mentése.

    4. Csináljon egy mentést az archive.is rendszerrel a https://hirek.oldal.info/receptek oldalról, majd miután elkészült, nézze meg a képernyőfotót is a „Screenshot” fülre kattintva, továbbá az archív példány URL címét és a különféle megosztási lehetőségeket a „share” link alatt, valamint az oldal korábbi mentéseit a „history” alatt. Ezután töltse le a mentést a „download.zip” feliratra kattintva, majd csomagolja ki (pl. a Windows Intézőben a jobb egérgombbal megjelenő „Az összes kibontása...” menüponttal) és nyissa meg az index.html fájlt.

    5. Telepítse fel a HTTrack szoftvert és hozzon létre vele egy „404” nevű projektet, ami a http://mekosztaly.oszk.hu/mia/404_workshop.html oldal mentését tartalmazza majd. A következő képernyőn a „Webcímek” mezőbe másolja be ezt az URL-t. Ezután az alatta levő „Beállítások” gombra kattintva a „Korlátozások” fülön 3-as értéket állítson be max. mélységnek és 2-est maximális külső mélységnek, az átviteli sebességet pedig vegye maximumra, akárcsak a csatlakozások számát a „Forgalom szabályozás” fülön. A „Keresési szabályok” alatt pedig zárja ki a Videotoriumot, vagyis a videotorium.hu kiszolgálót (-https://videotorium.hu/*), hogy az előadások videóit ne próbálja meg letölteni a HTTrack. Miután befejeződött a mentés, nézze meg a Hibanaplóban, hogy mennyi idő alatt hány fájlt, mekkora összméretben töltött le a program, és hogy melyik linket nem sikerült lementenie ("Forbidden" (403) error), majd a „Tükrözött weblap böngésző” gombbal nézze meg az archivált anyagot és kattintson a Forbidden üzenetet eredményező linkre is. Végül nézze meg az Intézővel vagy a Commanderrel a gépén a 404/ mappa alatt levő alkönyvtárakat, hogy melyikben vannak az előadások PowerPoint prezentációi?


    JEGYZETEK

    1 A weboldalakban levő linkeket követő szoftver.

    2 Annak a weboldalnak az URL címe, ahonnan elindul a crawler.

    3 Az internetes hivatkozások mögül eltűnő tartalom problémája.




    Hátra Kezdőlap Előre