MIA WIKI (kiexportált változat)

A Magyar Internet Archívumhoz készülő tudásbázis a webarchiválással kapcsolatos ismeretekről

Lezárt változat! A folyamatosan frissített MIA WIKI a http://mekosztaly.oszk.hu/miawiki címen található.

Szerkesztő: Drótos László
Utolsó módosítás: 2017.07.26.
Szócikkek száma: 536
Külső linkek száma: 1043

A jelenleg létező kategóriák és aloldalak:



Cím szerint indexelve

2007 Gopherspace Mirror

John Goerzen programozó (többek közt a PyGopherd nevű modern gopher szerver és a Debian projekt fejlesztője) 2007-ben - látva, hogy sorra tűnnek el az 1990-es évek népszerű gopher szerverei - megírt egy Gopherbot crawlert, amivel júniusban lementette a gopher-tér akkor még létező maradványait. Kb. 780 ezer fájlt tudott letölteni 40 gigabájt összméretben, amit 15 gigabájtra lehetett tömöríteni. Kezdetben DVD-n terjesztette, majd 2010-ben feltöltötte az Internet Archive-ba, egy videóinterjúval együtt, amin a gopher két fejlesztője beszél a kezdetekről.


404 error

A HTTP szerver által adott "Not Found" hibaüzenet kódja, amikor a szerver nem találja azt a dokumentumot, amit a kliens az URL címmel kért. Az ok vagy az, hogy hibás a megadott URL, vagy az, hogy az adott címen már nem érhető el semmi vagy mert törölték (bár ilyenkor igazából a "410 Gone" üzenetet kellene visszaküldeni), vagy mert máshová került (erre pedig a "301 Moved Permanently" üzenet szolgálna, vagy egyszerűen az új helyre kellene átirányítani a klienst, de ezek plusz konfigurálást igényelnének, amit a webmesterek sokszor nem csinálnak meg), vagy mert egy proxy szerver akkor is 404-es hibát küld, ha a távoli szerver nem elérhető (pedig ilyenkor az 500-as kódokat kellene használni), vagy mert egyes internetszolgáltatók blokkoló rendszere is 404-es hibát ad vissza olyankor, ha a kliens illegális/cenzúrázott tartalmat próbál lekérni (ilyenkor a "403 forbidden" üzenet lenne a logikusabb). További bonyodalmakat okoz az, hogy egyes webszerverek (szándékosan, vagy rossz beállítás miatt) nem 404-es hibakódot küldenek vissza (hanem pl. "200 OK"-t) olyankor is, ha nem találnak az adott URL címen semmit, a klienst viszont vagy a 404-es hibát közlő weboldalra vagy a webhely kezdőlapjára irányítják. Ez az ú.n. "soft 404"-es hiba, ami nagyon megzavarja az indexelő és az archiváló crawlereket, mivel azt hiszik, hogy létezik valami az adott URL-en.

A 404-es hibát közlő weboldal a legtöbb webszerveren átszerkeszthető, így a webmester több információt is el tud rajta helyezni (pl. linket a webhely főoldalára, honlaptérképet vagy belső keresőt, amivel a felhasználó megpróbálhatja megtalálni az eltűnt weboldalt, vagy valami magyarázkodást/vicces szöveget a sima "File Not Found" üzenet helyett). Az Internet Explorer és a Chrome böngésző viszont csak akkor jeleníti meg az ilyen módosított hibaoldalt, ha 512 bájtnál nagyobb, egyébként a saját "felhasználóbarát" hibaüzenetét írja ki.

A 404-es hiba az egyik leggyakoribb és legbosszantóbb probléma, amivel az internetet használók naponta találkoznak, de jó megoldást tudnak/tudnának adni rá a webarchívumok, amelyek a HTTP protokoll kiterjesztésével és vagy a szerver (pl. Internet Archive 404 Handler) vagy a kliens (pl. Synchronicity) oldalon némi programmódosítással képesek ilyen esetben az adott URL-en korábban létezett dokumentum egy elmentett példányát visszaküldeni a kliensnek (és felajánlani a korábbi mentések böngészésének lehetőségét is).


A1 Website Download

2006 óta fejlesztett webhely letöltő offline browser Windowsra és Mac OS X rendszerre (shareware program 30 napos ingyenes próbaidőszakkal). Fájlrendszerbe ment, relatívvá átírt linkekkel. Sokféle paraméterezési lehetősége van, és a CSS-ben ill. Javascriptben talált linkekkel is elboldogul. Van egy A1 Website Scraper nevű változata is web scraping-hez.


Acrobat Web Capture

Az Acrobat PDF szerkesztő program File/Create, Tools/Create PDF, ill. Tools/Organize Pages/Insert vagy korábban az Advanced/Web Capture menüpontjai alatt elérhető funkció, amivel weboldalakat vagy webhelyeket tölthetünk be az Acrobatba, majd elmenthetjük őket pl. PDF, HTML, TXT, GIF, JPG, PNG formátumokba. A letöltés mélysége beállítható, illetve weboldalanként is megadható, hogy mely linkeket kövesse, valamint az adott szerverre vagy alkönyvtárra is korlátozható a robot útvonala. Utólag is lehet még oldalakat hozzáadni a letöltéshez: egy linkre jobb egérgombbal kattintva és az Append To Document menüpontot választva. A Settings vagy Advanced Settings alatt sokféle beállítási lehetőség van, pl. generálhatunk könyvjelzőket, amik az egyes weboldalakra mutatnak (és ezekre jobb gombbal kattintva szintén elérhetők a web capture funkciók), címkézett (tagged) PDF-et kérhetünk, ami megőrzi az eredeti HTML struktúrát, valamint elmenthetjük a beágyazott médiát is. Az Acrobat később frissíteni is tudja az így PDF-be mentett mentett weboldalakat.


Alexandria Project

Az European Research Council által támogatott, 2014 óta működő német projekt a webarchívumok anyagának indexelésére, visszakeresésére, kutatására és elemzésére alkalmas új technológiák kifejlesztése céljából. Például olyan, az időbeliséget is figyelembe vevő, illetve külső információforrásokat is hasznosító keresőket fejlesztenek, mint az Archive Search és a Tempas.


Alexa Internet

Jelenleg az Amazon cégcsoportba tartozó kaliforniai vállalkozás, amelynek fő profilja az internetes oldalak forgalmának mérése és rangsorolása. A crawler-ük által felderített weblapokat le is mentik és továbbadják az Internet Archive Wayback Machine szolgáltatásának. (De a Library of Congress-nek is átadták 1998-ban az akkor még csak 2 terabájtos archív anyagot.)


ALPSP, 9th Publishing and the Internet Seminar : Archiving - whose problem is it?

A szakkiadókat tömörítő ALPSP (Association of Learned and Professional Society Publishers) 2002. november 29-én Londonban tartott 9. szemináriuma, mely az online publikációk megőrzésével foglalkozott és a DPC-vel közösen szervezték.


Amber

A Harvard Berkman Center 2016-os kiadású, ingyenes kiegészítője Wordpress és Drupal site-ok (pl. blogok) számára, melyekkel a belinkelt oldalak lementhetők, így megakadályozható a link rot és egyben a cenzúra is. A mentések alapesetben a site saját tárterületére történnek, de választható az Internet Archive, a Perma.cc, vagy az Amazon felhője is.


Angol nyelvű szakirodalom



AOLA (Austrian Online Archive)

Az osztrák nemzeti könyvtár és a bécsi műszaki egyetem szoftvertechnológiával foglalkozó tanszékének közös webarchiváló projektje. Az 1999-ben indult előkészületek után az első pilot fázis 2001 márciusában zajlott. A NEDLIB Harvesterrel átlag napi 1 gigabájtot arattak az .at és válogatva más domainek alól, 1210 webhelyről 666 ezer URL címet mentettek le, 8,3 gigabájt méretben. Mivel a crawlerrel problémák voltak, ezért javították a kódját, majd a második fázisban 2001 júniusában áttértek a Combine Harvesterre, amivel napi 7 gigabájtot tudtak leszedni, majd leállították, amikor elérte a 150 gigabájtot (21 ezer site, 2,7 millió oldal). Szalagra mentették az anyagot és nem volt nyilvánosan elérhető. A projekt az év végével lezárult, és csak 2008-ban kezdtek el újra foglalkozni a feladattal, az új médiatörvény megjelenése előtt. Ekkor indult a Web@rchiv Österreich fejlesztése.


Apache Nutch

Eredetileg webes keresőgéphez szánt, de ma már inkább webarchiváláshoz használt, Java-ban írt, open source crawler, ami nagyon jól skálázható és bővíthető, és akár egy 100 darabos klaszteren is futtatható, nagy teljesítményű aratógépként. Az 1.x jelű verziója a Hadoop adatszerkezetre épül, míg a 2.x alá bármilyen NoSQL adattároló megoldás tehető. Összekapcsolható sokféle további eszközzel, pl. az Apache Tika metaadat- és szövegkiemelővel, vagy a Solr keresővel. 2014-ben a Common Crawl a Nutch-t kezdte el használni a tömeges aratásaihoz.


Apache Tika

Az Apache Software Foundation által (korábban az Apache Nutch, ill. a Lucene alprojektjeként) fejlesztett eszköz, ami megtalálja és kigyűjti a metaadatokat, valamint a szöveget több mint ezerféle fájlformátumból, alkalmassá téve így a fájlokat a visszakeresésre, a tartalomelemzésre stb. Jól használható webarchívumoknál is a nagy tömegű heterogén fájlhalmazok teljes szövegű indexeléshez való előkészítésére, ill. automatikus metaadatolására.


ARC fájlformátum

Az Internet Archive által 1996-ban bevezetett formátum a Heritrix crawlerrel begyűjtött fájlok gazdaságos tárolására. A különböző típusú kisebb-nagyobb fájlokat egy-egy nagy (pl. 100 MB-os) csomagba gyűjtik, melyben az eredeti URL címük - néhány technikai metaadattal kiegészítve - is belekerül. A visszakeresést segítendő ezek a metaadatok (sőt akár továbbiak is) egy, az ARC fájlt kiegészítő szöveges DAT fájlban is eltárolódnak. Továbbfejlesztett változata a WARC.


ArcContent

Egy komplett rendszer WARC fájlokban archivált szöveges tartalmaknak különböző szűrőkön keresztül való kinyerésére, tárolására és többféle megjelenítésére, hozzáférhetővé tételére (pl. kutatási célokra). A tárolás Cassandra adatbázisban történik, a hozzáférés során XML vagy JSON formátumban adja vissza a rendszer a kívánt tartalmat, melynek megjelenítéséhez külső alkalmazások illeszthetők.


Archiefweb.eu

Holland cég, mely elsősorban vállalatoknak és kormányzati szerveknek, ill. önkormányzatoknak végez webarchiválást. 2003-ban kezdtek a témával foglalkozni, azóta egy saját rendszert fejlesztettek ki, amely a honlapok mellett webkettes tartalmakat (Twitter, Facebook és Google+) is képes szabványos WARC fájlokban megőrizni és megjeleníteni, továbbá teljes szöveggel kereshetővé tenni. Több száz ügyfelük van és évente több mint 260 ezer mentést végeznek csak Hollandiában. Együttműködnek a British Library-val és az Internet Archive-val is. Az állami szervek honlapjainak napi mentéseit nyilvánosan szolgáltatják.


ARCHINET

Az izraeli nemzeti könyvtár 2013 szeptemberében indított webarchívuma. Egy 2007-es törvény alapján Heritrix-szel aratják az .il domaint évente kétszer (kb. 250 ezer site-ot, de csak egy adott mélységig), emellett a Wayback ill. a WCT szoftvereket is használják. Az archívum csak a könyvtárban férhető hozzá (a Merhav nevű közös keresővel), nyilvános felülete nincs.


Archipol

A holland DNPP (Documentatiecentrum Nederlandse Politieke Partijen) és a groningeni egyetem könyvtárának 2000-ben (egy 2 éves pilot fázissal) indított projektje a hollandiai politikai pártok, jelöltek és szervezetek honlapjainak archiválására. Évente egy önmagában teljes értékű mentést is eltesznek minden webhelyről. 2011-ig kb. ezer site-ot töltöttek le, és ekkorra már áttértek a WCT használatára a korábbi, a HTTrack-ból és egy saját fejlesztésű keretrendszerből álló megoldásról. Érdekes szolgáltatása, hogy a két mentés közt történt változtatások is összehasonlíthatók. A hozzáféréshez jelszót kell igényelni.


Archive-access-cvs

A webarchívumokban tárolt ARC és WARC fájlok tartalmának kezelésére szolgáló szoftvereszközök fejlesztőinek fóruma. Bárki feliratkozhat és a lista archívuma is nyilvános. (Utóbbi alapján úgy tűnik, hogy 2012 óta már nem aktív a csoport.)


Archive-access-discuss

A webarchívumokban tárolt ARC és WARC fájlok tartalmának kezelésére szolgáló szoftvereszközökkel kapcsolatos kommunikációs fórum. Bárki feliratkozhat és a lista archívuma is nyilvános.


Archive-crawler

A Heritrix nyílt forráskódú crawler szoftverrel kapcsolatos témák fóruma. 2002 decemberében indult, 2017 márciusában 864 tagja volt. Bárki csatlakozhat és az archívuma is nyilvános.


Archive-crawler-cvs

A Heritrix fejlesztőinek fóruma. Bárki feliratkozhat és a lista archívuma is nyilvános.


Archive-friendly website

Olyan webhely, amely nemcsak crawler-friendly, vagyis robotokkal könnyen bejárható, hanem jó minőségben archiválható is: a lementett változat tartalmában, megjelenésében és funkcionalitásában kellően hű mása az eredetinek. Többek között ilyen szempontoknak érdemes megfelelni:

Az archiválhatósági jellemzők egy része könnyen ellenőrizhető egy website esetében olyan szolgáltatásokkal, mint például az Archive Ready.


Archive-It

Az Internet Archive 2006-ban indított előfizetéses archiváló szolgáltatása könyvtáraknak és más intézményeknek. Az Egyesült Államokon kívül további 16 országból több mint 400 megrendelője van. Az archiválandó webhelyek körét a megrendelő határozza meg és kap egy adminisztrátori valamint egy szolgáltatási felületet az IA szerverein tárolt lementett anyaghoz. ARS (Archive-It Research Services) néven kutatási célú halmazokat is készít az archívumokból kinyert adatokból.


Archive-on-demand

Olyan szolgáltatás, amely felmerülő igény esetén - lényegében azonnal - archivál valamilyen digitális tartalmat (pl. weboldalt, elektronikus publikációt, online videót). Léteznek ingyenes és fizetős, regisztrációhoz kötött vagy anélkül is használható, inkább egyéneknek és inkább intézményeknek/cégeknek szánt szolgáltatások internetes tartalmak archiválására, melyek a mentés és egy stabil URI cím hozzárendelése mellett további funkciókat is biztosítanak általában (pl. képernyőfotót csinálnak, az archivált anyagok menedzselhetők, kereshetők és WARC vagy ZIP fájlként letölthetők, az ismétlődő archiválás gyakorisága ütemezhető, korlátlan idejű megőrzést vállalnak, hitelesített másolatot is tudnak adni).


ArchiveFacebook

Egy Firefox kiegészítő, amellyel a felhasználók a Facebook anyagaikat (képek, tevékenységek, ismerősök listája, jegyzetek, események, account információk) archiválhatják a gépükre és visszanézhetik ugyanúgy, mint a Facebook-on. (Jelenleg már nem található meg az addons.mozilla.org-on a Firefox-kiegészítők közt.)


ArchivePig

Az ArchiveSpark projekt előzménye, amely az Apache Pig keretrendszert használja a WARC fájlok feldolgozásához.


ArchivePress

A British Library Digital Preservation Department és a University of London Computer Centre közös blogarchiváló kutatási projektje 2009-2010-ben. A webhelyek aratásánál alkalmazott bejárásos módszertől eltérően a blogok esetében az RSS feed-en ill. az API-n keresztül való begyűjtés lehetőségét vizsgálták és a blogbejegyzések mellett a beágyazott tartalmakat, a kommenteket és a metaadatokat is lementették WordPress platformokra, így őrizve meg a blogok eredeti szerkezetét, formáját és kapcsolatait. Ehhez sripteket és plug-in-eket fejlesztettek, amelyekkel a WordPress motor blog aggregátorként és archiváló eszközként használható.


ArchiveSocial

A North Carolina állambeli Durham városban működő, a közösségi média archiválására szakosodott cég. Elsősorban az ügyfeleik saját csatornáit mentik (metaadatokkal együtt, az API-kon keresztül, akár valós időben, illetve visszamenőleg is), jelenleg ezekről a platformokról: Facebook, Twitter, YouTube, LinkedIn, Instagram, Flickr, Pinterest és Google+, egyfajta elektronikus irattári szolgáltatást nyújtva. Az archivált anyag az ArchiveSocial tárhelyén böngészhető és kereshető, de PDF, Excel vagy HTML formátumban le is menthető az ügyfél számára. Digitális aláírással hitelesített másolatot is tudnak adni. Közintézmények számára "open archive" szolgáltatást is biztosítanak, ahol az archivált tartalom nyilvánosan hozzáférhető.


ArchiveSpark

Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgozásához, kielemzéséhez. A CDX indexfájlok alapján dönti el, hogy egy nagyobb WARC halmazból egyáltalán mit érdemes adatfeldolgozás céljából átadni a Spark rendszernek. (Egyik fejlesztője az Internet Archive programozója, aki az IA digitalizált könyvállományához is átdolgozta a szoftvert IABooksOnArchiveSpark néven.)


Archives Unleashed

Kanadai egyetemek által szervezett workshop-sorozat új eszközök és módszerek kifejlesztése céljából a webarchívumok tartalmának kutatásához. 2017 közepéig négy alkalommal és helyszínen rendezték meg: 2016. márc. 3-5. (University of Toronto), 2016. jún. 14-15. (Library of Congress), 2017. febr. 23-24. (Internet Archive) és 2017. jún. 11-13. (British Library).


ArchivetheNet

Korábban az Internet Memory Foundation, jelenleg az Internet Memory Research által fejlesztett komplett webarchiváló rendszer és SaaS (Software-as-a-Service) típusú szolgáltatás, többek között nemzeti könyvtárak és levéltárak számára, melynek első verziója még 2005-ben készült. A teljes folyamatot lefedi: a kiválasztástól és a crawler paraméterezésétől a gyűjteménykezelésen át a statisztikai kimutatásokig (továbbá külön minőségbiztosítási modul is adható hozzá). További funkciók: teljes szöveg indexelése, 404 hiba esetén automatikus átirányítás az élő webről az archív verzióra, kiegészítő modul a multimédia és a közösségi média letöltésére, spamszűrés (ez nagy méretű aratásoknál 20-30%-os tárhely megtakarítást jelent). Az archivált anyag a szolgáltató adatközpontjába kerül, de a megrendelő is letöltheti magának WARC fájlok formájában.


ArchiveThumbnails

A Columbia University Libraries által támogatott open source fejlesztés, mellyel egy webarchívumban tárolt mentések alapján megnézhető kis képernyőfotók formájában, hogy hogyan változott egy weboldal képe az idők során. Beépíthető a Wayback megjelenítőbe is egyfajta plusz szolgáltatásként.


ArchiveWeb

A hannoveri L3S Research Center szakemberei által a LearnWeb nevű oktatás- és kutatás-segítő platformra épített rendszer. A LearnWeb az élő weben levő információforrások (pl. YouTube, Flickr, Bing, Vimeo, SlideShare) közös kereshetőségét, a releváns találatok menedzselését, kommentelését és megosztását teszi lehetővé. Az ArchiveWeb esetében ezeket a funkciókat kiterjesztették az Archive-It szolgáltatással készült kb. 200 webarchívumra is. Az archívumok az élő webbel együtt kereshetők, a találatok csoportosíthatók, saját gyűjteményekbe szervezhetők, megjegyzésekkel és címkékkel láthatók el.


archive.is (korábban: archive.today)

Ingyenes weboldal archiváló szolgáltatás, ami egy bookmarklet segítségével böngészőbe is beépíthető. A felhasználó kezdeményezésére lementett weblapok stabil URL-eken hivatkozhatók (pl. http://archive.is/2013.04.17-12:08:20/http://blog.bo.lt/) és kereső is van hozzájuk. A lementett oldalakról 1024x768 pixeles képernyőfotó is készül (csak az oldal felső része). A maximális mérethatár 50 Mb (oldalanként, képekkel együtt), megőrzési határidőkorlát nincs. A szöveges tartalomról három másolatot tárol, de a képanyag is duplikálva van különböző európai adatközpontokban. A szolgáltatás alapja: Apache Hadoop és Apache Accumulo. A Memento Project tagja.


Archive Labs

Az Internet Archive különböző gyűjteményeinek közcélú hasznosításával, érdekes kísérleti projektekkel foglalkozó, önkéntesekből álló laza szerveződés.


Archive Ready

Egy ingyenes online szolgáltatás, mellyel ellenőrizhető, hogy egy website mennyire jól archiválható automatikus módszerekkel. API is van hozzá, de annak intenzív használata díjköteles.


Archive Search

A Bing találati listáját az Internet Archive-ban tárolt memento-kra mutató linkekkel kiegészítő, kísérleti fázisban levő - dán és német fejlesztésű - kereső. (Csak az angol és a német Wikipédiában szereplő tulajdonnevekre lehet keresni vele, de mivel a Wayback Machine-ban egyáltalán nincs teljes szövegű keresési lehetőség, ez a megoldás is jelentős előrelépés.) A találati listákban a piros linkek mutatnak az élő, a zöldek pedig az archivált oldalakra. A lista felett egy időskálán lehet évekre szűkíteni és ilyenkor csak olyan találatokat kapunk, amelyeket az adott években legalább egyszer archiváltak és az élő weben jelenleg is elérhetőek. A találati lista mellett kapcsolódó neveket is felajánl a rendszer, melyekre kattintva új keresések indíthatók.


Archive Team

2009-ben indult laza szerveződése olyan civileknek és szakembereknek, akik fontosnak tartják a digitális kultúra megőrzését. Elsősorban a személyes archiváláshoz nyújtanak segítséget információforrásokkal és előadásokkal, figyelik a veszélyeztetett (pl. bezárásra készülő) webhelyeket és online szolgáltatásokat, és ilyenkor mentési akciókat szerveznek (eddig pl. a GeoCities, a Yahoo! a Google Video, a Splinder, a Friendster, illetve különböző URL rövidítő szolgáltatások, illetve wikik esetében). Saját, több terabájtos gyűjteményeik vannak az Internet Archive-nál.


archive.today

Lásd: archive.is


Archiving Web Resources - Issues for cultural heritage institutions

A National Library of Australia által - többek közt az IIPC, az OCLC és a W3C támogatásával - szervezett nemzetközi konferencia 2004. november 9-11 között Canberrában. Ez volt az első webarchiváló témájú konferencia Ausztráliában, és elsősorban a nemzeti könyvtárak szempontjából közelítette meg a kérdést.


Archivo de la Web Espanola

A Biblioteca Nacional de España 2009-ben indult webarchívuma, melynek építésében regionális könyvtárak is részt vesznek. A teljes .es domaint 2009 és 2013 között 8 alkalommal az Internet Archive-val együtt aratták le. Két fókuszált mentést is csináltak ez alatt a Heritrix-szel, egyet a 2011 novemberi választásokról, egyet a humán területekről. 2014 végén az addig lementett tartalmat a spanyol nemzeti könyvtár a saját szervereire másolta a Red.es nevű állami informatikai vállalat segítségével, és elkezdték a NetarchiveSuite rendszert használni, mellyel több tematikus ill. esemény-alapú gyűjtést is csináltak azóta. 2015-től kb. 30 hírportált naponta mentenek, 2016-tól pedig évi egy .es domain aratást is terveznek. 2015 végén 117 terabájt volt az archív anyag mérete.

2009-től az általános kötelespéldány törvény alapján végezték a webarchiválást, 2015 októberében jelent meg az a rendelet, amely egyértelműen lehetővé tette, hogy a spanyol nemzeti könyvtár gyűjtse a webes tartalmakat és a copyright szabályok figyelembe vételével nyilvánosan szolgáltassa. De egyelőre még nincs belőle szolgáltatás, középtávon is valószínűleg csak helyben lesz elérhető.


Archívumtípusok

Az interneten található tartalom megőrzésének többféle módszere alakult ki, és előfordul, hogy ezek egy archívumon belül is keverednek, részhalmazokat alkotva a teljes gyűjteményen belül. A típusok csoportosíthatók:

Gyűjtőkör szerint

Az archiváló szerint

A tárolási mód szerint

A mentés módja szerint

Gyakoriság és idődimenzió szerint


Archiwum Internetu

Lengyelországban nem a nemzeti könyvtár, hanem a 2008-ban alapított Narodowe Archiwum Cyfrowe nevű központi digitális levéltár kezdett el webarchiválással foglalkozni, melynek fő profilja a digitalizálás és a levéltárak számára az információs infrastruktúra biztosítása. 2009 tavaszától kísérleteztek a Heritrix-szel és 2010 márciusában már meg is jelent egy béta állapotú nyilvános szolgáltatás a Wayback szoftverre alapozva. A jogi és technikai korlátok miatt azonban csak néhány tucat webhelyet mentettek, főleg kormányzati és levéltári honlapokat, kb. fél éves gyakorisággal. 2012-ben 0.5 terabájt volt az állomány mérete, amely akkor 41 webhelyet tartalmazott. Bár a tervek szerint a gyűjtőkört kiterjesztették volna a .gov.pl, majd a .pl domain alatti egyéb site-okra is, végül nem fejlődött tovább a projekt és 2016-ban már az archívum honlapja is elérhetetlenné vált.


ArcLink

A Wayback Machine-hoz fejlesztett kiegészítő, amivel az időbeli jellemzőket is tartalmazó link-gráfok nyerhetők ki a WARC fájlokban archivált weboldalakon levő belső és külső linkekből (beleértve a hozzájuk tartozó szövegeket is). Ezek az adatok azután eltárolhatók és szolgáltathatók (RDF/XML formátumban, API-n keresztül), és felhasználhatók például adott időpontokhoz tartozó PageRank számításhoz.


ARCOMEM (ARchive COmmunities MEMories)

2011-től 2014-ig tartott EU-s projekt a közösségi webhelyek megőrzésével kapcsolatban. Olyan területeket kutattak, mint például: hogyan segíthetnek a közösségi web tagjai a megőrzendő tartalmak kiválasztásában ill. archiválásában, hogyan gazdagíthatja a közösségi média anyaga a webarchívumokat, és milyen új módszerekkel lehet ezeket a webkettes helyeket bejárni, begyűjteni? A projektet a University of Sheffield vezette, néhány további résztvevő: Leibniz University Hannover, Internet Memory Foundation, Yahoo! Research, Deutsche Welle, valamint az osztrák és a görög parlament.


ArcSpread

Java-ban írt szoftver WARC fájlokból kinyert és egy SQLite adatbázisban tárolt adatok elemzéséhez egy táblázatkezelő-szerű felületen.


ArcThumb

Archívumokban tárolt weboldalakról bélyegképeket készítő rendszer (pl. a Memento TimeMap listák számára), amely képes a HTML kód két mentés közötti változásának mértéke és a crawler által generált log-fájlokban levő adatok alapján eldönteni, hogy mikor módosult olyan mértékben az adott weboldal, hogy az már a bélyegképen is észlelhető, vagyis mely memento-kból érdemes thumbnail-eket generálni.


Arquivo.pt

A portugál webarchívumot az FCCN (kb. az ottani NIIF) üzemelteti 2007-től. Az előzmények 2001-ig nyúlnak vissza, amikor egy tumba! nevű webes keresőt fejlesztett a lisszaboni egyetem egy munkacsoportja az FCCN támogatásával. Az ezzel a robottal 2002-2006 között gyűjtött anyagra épült a Tomba nevű prototípus archívum. Ennek a tapasztalatai alapján - de egy új technológiával - kezdték el az üzemszerű archívumot, és átvették bele a Tomba mellett a portugál nemzeti könyvtár RECOLHA nevű 2005-ös projektjének anyagát, néhány magángyűjteményt és az Internet Archive-ból a .pt domain 1996 és 2007 közötti halmazát (utóbbi 124 millió fáj, 1,9 terabájt volt). Az első teljes aratást 2008-ban indították (jelenleg évente 3-4 alkalommal futtatják, 7 nap alatt 90%-kal készen vannak, de lekorlátozzák a crawlert mélység, követett linkek száma és letöltött mennyiség szerint). 400 online kiadványt pedig naponta mentenek. E mellett eseményeket külön is archiválnak (pl. választások) és válogatnak külföldi szerverekről is portugál tartalmat.

2016 végén a teljes archívum (tömörített) mérete 151 terabájt volt (3,7 milliárd fájl). 85 szerver (1.328 vCPU) dolgozik egyszerre 11,5 terabájt RAM-mal, 1.2 petabájt háttértárral. A felhasznált open source szoftverek (pl. Heritrix) mellett rengeteg saját kódot is írtak különböző részfeladatokra (pl. a magánarchívumoktól kapott HTTrack mentéseket ARC fájlokká konvertáló Httrack2Arc-ot), és egy WAIR nevű teszt gyűjteményt is felállítottak kutatási és fejlesztési célra. A keresőfelület első verziója 2010-ben készült el, de csak 2012-től lett nyilvános. 2014-2015-ben jelentősen továbbfejlesztették a rendszert (Google-szerű teljes szövegű keresője van és egy saját, fejlett megjelenítő felülete). Az archívum az OpenSearch protokollt használva API-n keresztül is lekérdezhető, az eredményeket RSS 2.0 (XML) formátumban adják vissza.


Asian Tsunami Web Archive

A 2004 decemberében történt indiai-óceáni cunami katasztrófa tematikus webarchívuma, melyet a Singapore Internet Research Center az Internet Archive, valamint a WebArchivist.org segítségével hozott létre. 2005 január elejétől két hónap alatt kb. 1500 webhelyet mentettek le 40 országból heti gyakorisággal. Ma már elérhetetlen az archívum a http://tsunami.archive.org címen és állítólag nem is használták fel tudományos kutatáshoz.


AUEB Web Archive

Az Athens University of Economics and Business webarchívuma, melyet az egyetemi könyvtár és egy DB-NET nevű, adat- és webbányászattal foglalkozó munkacsoport kezdeményezett 2010 februárjában. Az egyetemhez köthető 78 webhelyet mentik havonta (kb. fél millió objektumnál járnak). A Heritrix, Wayback és NutchWax szoftvereket használják. Teljes szövegre ill. URL címre való keresés van, az archívum nyilvános.

2017 januárjától a görög nemzeti könyvtár kezdeményezésére elindult egy közös projekt a teljes nemzeti web archiválása és archivált tartalom statisztikai és szemantikai kielemzése céljából.


Awesome Memento

A Memento Project-hez készült különféle szoftverekről összeállított lista (kiegészítve a velük kapcsolatos szakirodalommal és blogpost-okkal), ilyen főbb kategóriákkal: böngészőkiegészítők, mobil alkalmazások, parancssori kliensek, szerver oldali kiegészítők, archívum megjelenítők.


BackStreet Browser

A Windows 95 időszaka óta folyamatosan fejlesztett nagy teljesítményű shareware offline browser. Több szálon tölt le egy időben és a megszakított folyamat folytatható, ill. egy korábbi mentés frissíthető. Lokalizált fájlrendszerbe vagy ZIP csomagba ment (a beépített böngészője az utóbbit előzetes kicsomagolás nélkül is megjeleníti), de opcionálisan az eredeti directory-struktúrát is meg tudja őrizni, így a lementett tartalom feltehető egy másik webszerverre.


BagIt fájlformátum

Hierarchikus szerkezetű csomagformátum, amely nagy számú fájl hatékony tárolására és átvitelére lett kidolgozva. (2007-ben a California Digital Library több terabájtnyi, főként archivált webanyagot akart a Library of Congress számára átküldeni és akkor találták ki ezt a megoldást.) Egy "bag" a verziószámot és a karakterkódolást definiáló bagit.txt, valamint a digitális objektumok mellett tag fájlokat is tartalmaz, melyek a tárolást és a hibamentes átvitelt segítik (pl. a csomagban levő fájlnevek és a hozzájuk tartozó checksum értékek). Lehet még benne egy fetch.txt fájl is olyan URL címekkel, melyekről a bag-hoz tartozó további állományok letölthetők (pl. a wget-tel). A BagIt formátumot egyre több digitális könyvtár és webarchívum használja, mert az alternatív megoldásokhoz képest egyszerűbb és gazdaságosabb. Számos szoftver és digitális megőrzésre kifejlesztett rendszer is támogatja, akár mint tárolási, akár mint átviteli célú konténer formátumot.


Bamboo

A National Library of Australia részére fejlesztett eszköz, amellyel a nemzeti könyvtár által vagy számára különböző rendszerekkel (pl. Internet Archive, Archive-It, Pandas), különböző munkafolyamatok során végzett aratások egy MySQL adatbázisban együttesen nyilvántarthatók, indexelhetők és statisztikailag feldolgozhatók.


BAnQ Web archive

A Bibliothèque et Archives Nationales du Québec 2009-ben indult webarchiváló projektje. Főleg francia és angol nyelvű forrásokat gyűjtenek, melyeknek közük van a kanadai Québec tartományhoz. Minden fájltípust mentenek, amit a crawler le tud tölteni. Az archívum egy része nyilvános (URL alapú hozzáférés és ábécé, valamint témakör szerinti böngészés van), a többi rész a könyvtárban helyben használható, de még ott is csak jelentős késéssel érhető el a lementés után. A nyilvános felületen 2017 áprilisában 300 intézmény kb. ezer webhelye volt megtekinthető a Wayback-kel, de a teljes gyűjtemény több ezer tételes.


BAT (BnFArcTools)

Az IIPC által támogatott, a francia nemzeti könyvtár által fejlesztett Perl programcsomag (API) az ARC, DAT és CDX fájlok kezeléséhez. Például: archív tartalom kinyerése adott kezdőponttól, keresés MIME típusra vagy URL címre (reguláris kifejezésekkel is).


BA Web Archive

Az egyiptomi Bibliotheca Alexandrina könyvtár International School of Information Science nevű részlegében elhelyezett másolata az Internet Archive 1996 és 2007 között gyűjtött anyagának, ami mintegy 1.5 petabájt. Az archívum nyilvános és a BA szerverein működő Wayback Machine-nal böngészhető URL cím alapján.


BCWeb (BnF Collecte du Web)

A francia nemzeti könyvtár által fejlesztett felhasználóbarát felület a szelektíven archiválandó webhelyek nyilvántartására, rövid leírására, az aratások mélységének, ütemezésének és egyéb paramétereinek beállítására a NetarchiveSuite rendszer számára. A webarchívum egyes gyűjteményeinek építésében résztvevő partnerkönyvtárak regisztrálás után egy webes felületen tudják menedzselni az általuk javasolt URL címeket. A jogtulajdonosok és jogok kezelésére nincs felkészítve, bár van/volt szándék egy open source változat elkészítésére, amelyben ez is benne lesz.


Beeld en Geluid Webarchief

A Nederlands Instituut voor Beeld en Geluid (kb. a holland NAVA) és az NTR (holland közszolgálati tévé- és rádiótársaság) közös pilot projektje médiaszolgáltatók webhelyeinek archiválása céljából. A Beeld en Geluid a holland audiovizuális örökségnek kb. a 70 százalékát őrzi (nagy részét már digitálisan), ezzel az egyik legnagyobb ilyen gyűjtemény Európában. A webes tartalmak archiválását 2008-ban kezdték el a Heritrix-szel, de a videók, a Flash-alapú oldalak, a Twitter feedek stb. letöltésére további kiegészítő szoftvereket is használnak. Ahhoz, hogy ezeket a bonyolult, média-gazdag webhelyeket minél hitelesebben tudják megőrizni és szolgáltatni, sok saját fejlesztést is elvégeztek mind a háttérben futó rendszeren, mind a szolgáltatási felületen, mely nyilvános (bár 2017 áprilisában éppen nem működik a keresője). Egyelőre az NTR négy website-ját mentik, de szeretnék majd az aratást más non-profit médiaszolgáltatók honlapjaira is kiterjeszteni.


Blacklist

Olyan dolgok nyilvántartása, amelyek egy adott célra alkalmatlanok, ezért elkerülendők vagy letiltandók. A webarchiválásnál ilyenek lehetnek például a crawler trap-ot tartalmazó site-ok, vagy a dinamikusan generált, vagy a session ID-alapú cookie-t használó, vagy a csak regisztrált felhasználóknak elérhető, vagy a flash-alapú stb., vagyis a crawler által bejárhatatlan, vagy pedig a tartalmukat tekintve érdektelen/értéktelen webhelyek. A listában felsorolt szerverekre mutató linkeket a robot nem követi, elkerüli ezeket az URL-eket. A whitelist-hez hasonlóan ezt is folyamatosan karban kell tartani az archiválás során szerzett tapasztalatok alapján.


BlackWidow

Windows-os (XP-től Win7-ig) shareware offline browser, saját böngészővel, ami mutatja a site struktúráját és amin keresztül kontrollálható a letöltési folyamat. A weboldalakról képernyőfotót is tud készíteni, továbbá scriptelhető is, így más programokból is vezérelhető.


BlogForever

2011-2013 közötti EU-s projekt, kifejezetten a blogok tartalmának mentésére és megőrzésére szolgáló eszközök fejlesztésére. 209,830 blogot mentettek le és elemeztek ki, melyek kb. 470-féle platformot használtak (többségük persze a WordPress-t vagy a Blogger-t). Kidolgoztak egy adatmodellt a blogok jellemzői alapján: alapelemek (pl. post, komment), beágyazott elemek (pl. kép, hang, videó), link-elemek (beágyazott link, blogroll, pingback), külalak-elemek (pl. css, grafika), feed-elemek (pl. RSS, Atom) és felhasználói profilok ill. csoportok. A teljes modell több mint 40 egységből áll és mindegyiknek több tulajdonsága van (pl. cím, URI), ezekhez az adatmezőkhöz jönnek még az archiválással (pl. mentés dátuma) és a megőrzéssel (pl. jogi helyzet) kapcsolatos metaadatok.

A BlogForever projektben kifejlesztett open source platform két részből áll: a spider és a repozitórium komponensből (utóbbi az ingyenes Invenio szoftvercsomagra épül). A BlogForever rendszert kezdte el használni a svájci CERN a fizikusok blogjainak megőrzésére, a görög Aristotle University of Thessaloniki pedig az egyetemi blogok archiválását tervezi vele.


BLWA (Bodleian Libraries' Web Archive)

A University of Oxford 2000-ben integrált könyvtárai által működtetett BEAM (Bodleian Electronic Archives and Manuscripts) nevű digitális gyűjtemény webarchívum része. A webes tartalmak gyűjtését 2010 végén kezdték el és az Archive-It szolgáltatáson keresztül csinálják. 2017 közepén már 422 webhelyet mentettek rendszeresen hét tematikus algyűjteménybe (ebből három az oxfordi egyetemmel kapcsolatos). Egy webes űrlapon keresztül bárki javasolhat további megőrzendő honlapokat.


BnF - Archives de l'internet

A Bibliothèque nationale de France 2002-ben, a választásokkal kapcsolatos webhelyekkel kezdte el a webarchiválást. 2004-től 5 évig az Internet Archive végezte számukra az éves aratásokat és megvették tőle a korábban lementett francia anyagot is. Közben saját rendszert építettek ki (a Heritrix-re alapozva) és most már önállóan végzik ezt a tevékenységet. A jogi hátteret 2006-ra sikerült megteremteni, ami feljogosítja a francia nemzeti könyvtárat az .fr domain ill. a francia fennhatóság alá tartozó területek top level domain-jai (pl. a .re, .gf) és a regionális domain-ek (pl. .bzh, .paris), valamint a más domain-ek alatti francia vonatkozású webes tartalom gyűjtésére, megőrzésére és szolgáltatására.

Teljes körű és szelektív archiválást egyaránt végeznek, és mindenféle fájltípust megőriznek. A francia webteret évente egyszer aratják a DNS szolgáltatók és más internetes cégek segítségével (2016-ban 4,5 millió webhelyet mentettek így le). Szelektíven pedig kb. 20 ezer site-ot mentenek változó gyakorisággal (ebből kb. száz újságot naponta), melyeket könyvtárosok (85-en) és külső partnerek (több mint 20 regionális könyvtárból, tudományos intézetekből és egyéb szervezetekből) válogatnak téma vagy esemény alapon. A teljes archívum 2016 végén 29 milliárd fájlt tartalmazott 1996-ig visszamenőleg. (2015-ben ez a szám 26 milliárd volt és akkor 668 terabájtot foglalt el az anyag). 2014-ig ARC fájlokba mentettek, utána tértek át a WARC-ra. Két szalagos mentést őriznek földrajzilag távol és egy másolat van diszken a könyvtár SPAR nevű, digitális megőrzésre szolgáló rendszerében. Keresni URL cím, a webhely neve és egyéb metaadatok alapján lehet, de vannak böngészhető részgyűjtemények, virtuális kiállítások is. Az archívumhoz csak helyben lehet hozzáférni.


BnL Web-Archive (luxemburgi)

A Bibliothèque nationale de Luxembourg 2009-ben kezdte el a webarchiválást (a kötelespéldány törvény kiterjesztése után). A Heritrix és Wayback párost használják. A robots.txt-t figyelembe veszik, de tesznek kivételeket (pl. a helyes megjelenéshez szükséges CSS- és képfájlokat, valamint a kezdőlapokat mindenképpen letöltik). 2016-ig mintegy 100 site-ot válogattak ki a rendszeres mentéshez, és a közösségi médiából is gyűjtenek. 2016 óta évente kétszer learatják a .lu domaint is az Internet Archive segítségével. Ebben az évben 14 terabájt volt az archívum mérete, ami csak a nemzeti könyvtáron belül használható.


BOA (Baden-Wüttembergisches Online-Archiv)

2003 óta elérhető webarchívum, melyet a Württembergische Landesbibliothek és a Badischer Landesbibliothek, valamint a baden-württembergi Bibliotheksservice-Zentrum (BSZ) hozott létre (utóbbi működteti azóta is). Az együttműködéshez 2006-ban a Landesarchiv Baden-Württemberg is csatlakozott, de a levéltár webarchívumának külön aloldala van (és az internetes keresők robotjait ebbe az archívumba nem engedik bele, ellentétben a könyvtárakéval). A HTTrack szoftverrel mentenek néhány száz honlapot, de WARC fájlokban is elteszik az anyagot a BSZ által fejlesztett SWB digitális raktári rendszerbe. Az archívum nyilvános, teljes szövegű keresője nincsen.


Breadth-first strategy

Broad crawl esetében jellemző link-követési stratégia, melynek elsődleges célja minél több link felfedezése. Ennél érdekében az egyes webhelyeket a kezdőlaptól kiindulva csak néhány szintig járja be a crawler, majd elkezdi a más szerverekre mutató linkeket követni. A depth-first strategy-hoz hasonlóan ez is hiányos archívumot eredményez, mert amíg annál kevés szerver lesz learatva, ennél kevés oldal kerül lementésre az egyes szerverekről.


Broad crawl

Az egy URL listában rögzített vagy valamilyen speciális szempontnak/témának megfelelő webhelyekre kiterjedő focused crawl típusú bejárással ellentétben olyan aratás, amikor a crawlert nem korlátozza a webhelyek száma vagy tartalma, hanem vagy semmilyen, vagy csak valami nagyon általános szempont szab határt annak, hogy milyen linkeket követ a robot. Például egy adott magas szintű domainen belül marad (pl. .hu vagy .gov.hu), vagy csak adott típusú szervereket jár be (pl. blogmotorokra épülőket vagy FTP site-okat), vagy csak adott nyelvű forrásokat gyűjt, stb. Tárhely- és egyéb okok miatt általában további szabályokat is beállítanak a robot üzemeltetői (pl. az egyes webhelyeket csak adott mélységig, ideig, fájlszámig és/vagy összméretig aratják). Mivel ilyenkor több szálon párhuzamosan sok szervert kérdez le egyszerre a robot, ezért gyorsabban töltődik az anyag, mint egy erősen fókuszált mentésnél, mert annál ki kell várni a polite crawlerekre jellemző várakozási időt két kérés között. Széles körű aratást jellemzően évente csak 1-4 alkalommal csinálnak a webarchívumok, mivel hónapokig is eltarthat a befejeződése, de vannak olyan esetek is, amikor végtelenített a ciklus (pl. az internetes keresők robotjainál).


Browsertrix

A weboldalak bárki által annotálhatóvá tételével foglalkozó Hypothes.is projekt Annotator szoftvere számára fejlesztett (de bármilyen más rendszerbe is beépíthető) open source webarchiváló eszköz, amely egy valódi böngészőbe (jelenleg Chrome vagy Firefox) tölti be a megadott weboldalakat, majd elküldi őket valamelyik archive-on-demand szolgáltatásnak megőrzésre (jelenleg a webrecorder.io vagy a Save Page Now választható). A böngészőt gyakorlatilag headless browser-ként használja egy Selenium böngésző-automatizáló eszköz segítségével, amely így programból vezérelhetővé válik, és a weboldal tartalma mellett a letöltés metaadatait (pl. a szervertől kapott esetleges hibakódok, időbélyeg, az eredeti és az archív URL) egy JSON naplófájlba el tudja menteni. A Heritrix-típusú mentéshez képest ennek a megoldásnak az a nagy előnye, hogy a weboldalakat úgy őrzi meg, ahogy azokat egy felhasználó az aktuálisan népszerű böngészőkben látná.


Brozzler (browser | crawler = brozzler)

A Warcprox-hoz kapcsolódó, Pythonban írt crawler, ami a Chrome böngészőt használja headless browser módban (valamint a youtube-dl nevű Youtube videó-letöltőt is) weboldalak begyűjtésére és a bennük levő linkek kinyerésére, így jobban boldogul a RIA típusú site-okkal, mint a Heritrix-féle hagyományos aratógépek.


BSB Webarchiv

A Bayerischen Staatsbibliothek, a bajor állami könyvtár egy pilot fázis után 2012-től a müncheni digitalizáló központ (Münchener Digitalisierungszentrum) segítségével rutinszerűen archivál webhelyeket. Az állami hivatalok, intézmények honlapjainak mentésére 2008 óta jogszabályi felhatalmazásuk van, egyéb esetekben egyedi engedélyeket kérnek. A WCT keretrendszert, a Heritrix crawlert és a Wayback Machine megjelenítőt használják. A hosszú távú megőrzés az ExLibris cég Rosetta rendszerével történik. 2016 közepéig kb. 1500 webhelyet mentettek le (évente kétszer). Az archivált site-ok a könyvtár katalógusában kereshetők vissza, de a tematikus linkgyűjteményeikben is odateszik a hivatkozást a mentett verzióra.


BUDDAH (Big UK Domain Data for the Arts and Humanities)

2014-ben indult projekt a British Library, az Institute of Historical Research, a University of London, az Oxford Internet Institute és a dán Aarhus University részvételével, melynek célja az Internet Archive-tól kapott, a .uk domain alól 1996-2013 között gyűjtött mintegy 65 terbájtnyi szöveg és kép tudományos célú kutathatóvá tétele, és olyan technikák kidolgozása, amelyek nemcsak ennek a retrospektív anyagnak, hanem a 2013 utáni webtér aratások eredményének elemzésére is alkalmasak.


Bulk harvest

Lásd: broad crawl


CAMA Web Archiving Platform

Az Aleph Archives cég professzionális webarchiváló rendszere az egyszerűbb KEN mellett. Ahhoz hasonlóan ez is saját fejlesztésű crawlert használ és WARC fájlokba ment. Képes közösségi oldalakat, dinamikus site-okat és mindenféle médiatartalmat is menteni, majd az ArchiView nevű modullal "élethűen" megjeleníteni, kiegészítve őket az archiválás metaadataival és hitelesítéssel. A rendszer egy Temporal Web Archives Search Engine nevű keresőt is tartalmaz, mellyel akár petabájtnyi méretű gyűjteményből is leindexelhető és gyorsan visszakereshető a szöveges tartalom (időbeli szűkítési lehetőséggel együtt).


Capture

Egy internetes forrás egy adott időpontban megtörtént begyűjtése.


CarbonDate

Az Old Dominion University fejlesztői által készített open source eszköz, amely segít kinyomozni azt, hogy mikor keletkezett egy weboldal (ha nincs benne a metaadatok közt a fejlécben). Ehhez különböző szolgáltatásokat használ: pl. megnézi, hogy mikor tweetelték vagy rövidítették először az adott URL címet, vagy mikor indexelte le először a Google, vagy hogy melyik a legrégibb mentése valamelyik webarchívumban (utóbbit a Memento Project segítségével). Egy 1200-as teszthalmaz 76 százaléknál sikerült valamilyen adatot találni, és ebből 33 százalékban a korrekt dátumot tudta meghatározni a program. A CarbonDate nemcsak használja a webarchívumokat, de hasznos is lehet szelektív archiválás esetén annak kiderítésére, hogy milyen régi lehet egy adott website, mennyire stabil forrás az interneten, ami az egyik válogatási szempont lehet.


CAT (Curator Archiving Tool)

A katalán PADICAT webarchívumhoz fejlesztett három saját modul. 2011-ben kettőt közülük open source szoftverként is közzétettek. A MOCA a webhelyek katalogizálását segíti, új funkciókkal egészíti ki a WCT-t. A MOPU a metaadatok alapján tematikus listákat gyárt a publikálásra szánt archív webhelyekről, és mindegyikhez egy információs oldalt is generál. A MOST pedig statisztikai adatokat készít (pl. fájlszám, összméret, mentési gyakoriság), amelyek szintén megjeleníthetők ezeken az adatlapokon.


ccTLD (country code top-level domain)

A legfelső szintű (TLD) domain neveknek az a csoportja, amelyeket (elvileg) egy adott ország vagy önálló állam használ. Mindegyik ccTLD kétbetűs (pl. .hu) és minden kétbetűs legfelső szintű név ccTLD típusú. Az ezen domain-ek alá tartozó webhelyeket a nemzeti webtér részének szokás tekinteni a webarchiválás során, de van jó néhány olyan állam, amely üzletileg is értékesíti az országkódját az egész világon (rendszerint azért, mert valamilyen értelmes angol szó vagy rövidítés jön ki belőle), így oda bármilyen más országból bármilyen tartalmú aldomain bejegyezhető. Tovább bonyolítják a helyzetet a megszűnő, szétváló vagy létező, de már nem használt ccTLD nevek (pl. Jugoszlávia vagy a Szovjetunió esetében), és az, hogy az országszintű (ccTLD) domain mellett a generic top-level domain (gTLD) és a sponsored top-level domain (sTLD) csoportban rengeteg olyan három- vagy több betűs név van már, amelyek alatt bármelyik országból vásárolhatók aldomain-ek (és ezeket ráadásul különböző szervezetek értékesítik), így nem könnyű feladat felderíteni mindazokat a webhelyeket, amelyeket egy adott ország állampolgárai vagy intézményei/cégei jegyeztek be és működtetnek valahol.


CCWA (Contemporary Composers Web Archive)

A Borrow Direct Music Librarians Group tagjai, vagyis az amerikai zenei könyvtárak szakemberei által 2013 októbere óta működtetett webarchívum: kortárs zeneszerzők honlapjainak gyűjteménye. A projektet a Columbia University Libraries and Information Services vezeti, az archiválást pedig az Archive-It szolgáltatással végzik. 2016 közepén 54 zeneszerző (köztük Ligeti György) weboldala volt a gyűjteményben (mindegyik általában 8-10 mentéssel), videókkal együtt és teljes szövegű keresési lehetőséggel.


CDA (Centrálny Dátový Archív) Conference

A szlovák DIP projekt keretében webarchiválást is végző Univerzitná knižnica v Bratislave által először 2016-ben megrendezett konferencia a digitális tartalmak megőrzéséről, nagyrészt helyi előadókkal. 2017-ben november 9-én lesz a pozsonyi egyetemi könyvtárban.


CDX fájlformátum

A Wayback szoftver által indexként használt egyszerű szövegfájl, amely soronként tartalmazza a WARC csomagban archivált egyes weblapok vagy egyéb fájlok eredeti URL-jét, az időbélyeget, a MIME típust, a fájlméretet, az archivált példány pozícióját a WARC fájlban, és még néhány fontosabb metaadatot. Lásd még: DAT fájlformátum.


CDXJ fájlformátum

Az OpenWayback 3.0-ás verziójában bevezetett indexfájl formátum, WARC és ARC fájlok kereshetővé tétele céljából. A CDX formátum egy továbbfejlesztése, amely egyrészt leegyszerűsíti az elsődleges mezőnevek körét, másrészt lehetővé teszi egy JSON blokk hozzáadását minden rekordhoz, amivel további plusz adatok tárolhatók és kereshetők vissza.


Checkpointing

A hosszú futásidejű programoknál (mint amilyen egy crawlerrel végzett webaratás) alkalmazott technika, mellyel váratlan hiba (pl. egy rendszerleállás) esetén ott tudja folytatni a szoftver a munkát, ahol abbahagyta. Ennek érdekében a program időnként egy biztonságos tárolóra írja az aktuális állapotát (pl. a már összegyűjtött, de még be nem járt URI címek listáját) és amikor helyreállt a rendszer, innen visszaolvasva az adatokat folytatja az aratást. A Heritrix esetében napi 1 és 4 közötti értéket szoktak beállítani a checkpoint mentések gyakoriságának.


Checksum

Magyarul "ellenőrző összeg"-nek nevezett technika az adatátvitel és az adattárolás során. A lényege, hogy az adatcsomagokból (ezek lehetnek egységes méretű bájtsorozatok, vagy változó méretű fájlok) egy speciális matematikai algoritmussal egy számsorozatot generálnak és ezt is továbbítják/tárolják az adatcsomaggal együtt. Az adatátvitel után, illetve bizonyos tárolási idő elteltével ezt a számítást újra elvégzik, és ha a két ellenőrző összeg nem egyezik meg, akkor ez azt jelenti, hogy valami hiba történt, megváltozott egy vagy több bájt. A checksum használata különösen fontos a hosszú távú megőrzéssel foglalkozó archívumokban, ahol ez a sértetlenség (integrity) időnkénti ellenőrzésének egyik módja.


CHM (Microsoft Compiled HTML Help) (fájlformátum)

A régi WinHelp formátum 1997-ben bevezetett és máig használt utóda, amely HTML oldalakból, valamint index és navigációs fájlokból áll, egybecsomagolva és tömörítve. (A LIT e-book formátum pedig ennek a továbbfejlesztése volt.) Bár a Microsoft alapvetően online dokumentációkhoz, kézikönyvekhez szánta, több Windows-os webhely-letöltő program is használja a lementett weboldalak egyetlen, könnyen kezelhető és továbbítható fájlban való tárolására. Léteznek CHM kiegészítők a főbb böngészőköz és app-ok a mobil operációs rendszerekhez, illetve a Sumatra is képes olvasni a CHM fájlokat.


CINCH (Capture INgest CHecksum)

A State Library of North Carolina által fejlesztett open source tömeges fájl-letöltő eszköz Linuxra. A felhasználó által megadott URL címlistában szereplő fájlokat lementi, értelmes neveket ad nekik, vírusellenőrzi, időbélyeggel és checksum-mal látja el, kiszedi a bennük található metaadatokat, dokumentálja a folyamatot egy audit állományban, és az egészet egy zip csomagba teszi, amit a felhasználó eltehet valamilyen archívumba. Ismételt használat esetén a duplikátumokat is felismeri. Támogatott fájltípusok: PDF, Word, Excel, PowerPoint, text, JPG, PNG, GIF, MP3, MP4.


Client-side hidden-web

A deep webnek az a része, amely nem azért elérhetetlen a crawlerek számára, mert a szerveren nem képesek megtalálni/elérni a tartalmat, hanem mert nem tudják kiváltani/szimulálni azokat az eseményeket, amelyek a kliens oldalon, a böngészőben történnek és új tartalmak letöltését/megjelenítését eredményezik a felhasználó interakciói vagy más kiváltó okok miatt. Ilyenek a RIA típusú oldalakból álló webhelyek. A kliens oldalon rejtett webtartalmak felderítésére olyan megoldásokkal kísérleteznek, mint például a Javis.


Client-side web archiving

A leggyakoribb webarchiválási módszer, mert egyszerű megvalósítani és jól skálázható. Csak egy crawler, vagy valamilyen letöltőprogram, esetleg csak egy webböngésző vagy egy headless browser kell hozzá, ami kéréseket intéz a webszerverhez a HTTP protokollon keresztül, és a visszakapott fájlokat valahová elmenti. A crawlerrel való aratás nagyon hatékony, de megvan az a hátránya, hogy nem mindenhez fér hozzá (lásd: deep web). Ha browsert használunk kliensnek, akkor nagyobb valószínűséggel és hűséggel lehet egyes oldalakat megőrizni, mert azzal jobban szimulálható egy emberi felhasználó viselkedése.


Cloud Preservation

A Chicagoban működő Nextpoint cég - főleg vállalati és jogi célú - felhőalapú digitális archiváló szolgáltatása. A webhelyek és egyedi dokumentumok mentése mellett a 2010 végén bejelentett SmartCrawl technológiájukkal API-kon keresztül több közösségi és fájlmegosztó site-ról (pl. Twitter, YouTube) is le tudnak szedni tartalmakat (Flash, AJAX, Javascript és multimédia fájlokat is), amelyeket azután feltöltenek az archiváló rendszerbe.


CMS (content management system)

Olyan szoftverek gyűjtőneve, melyekkel egyszerűen lehet, akár több részvevőnek is digitális tartalmakat létrehozni, összeállítani és szolgáltatni. Szűkebb értelemben a webtartalom-kezelő rendszereket (WCMS) értik alatta, amikkel a HTML nyelv és egyéb webes technológiák különösebb ismerete nélkül is felépíthető egy webhely. Jellemzően ilyen funkciókat tartalmazzanak: szerkesztőfelület, külalak definiálás (sablonok segítségével), keresés, megjelenítés, felhasználói adminisztráció, statisztikák. Egy adott CMS rendszernek vannak webarchiválás szempontjából is érdekes jellemzői: pl. mennyire crawler-friendly a vele létrehozható site? sima vagy bonyolultan paraméterezett URL címeket használ-e? mennyire szabványos és jól strukturált az általa generált HTML kód? Egyes webarchívumokban kísérleteznek azzal, hogy az archív szerveren is feltelepítik az ismertebb CMS rendszereket (pl. WordPress, Drupal, Joomla) és az ezeket használó website-ok esetében nem a crawlerrel szedik le a tartalmat, hanem - a webmester segítéségét kérve - egy mentést (dump) töltenek át az archív szerveren futó CMS-be. Így sokkal inkább megmarad az eredeti webhely funkcionalitása, de az eltérő operációs környezet ill. CMS verziók miatt ilyenkor is felléphetnek problémák - főleg hosszú távon.


Colloq

Az amerikai Rhizome szervezet által támogatott open source, webböngészéseket archiváló szoftver, melyet 2014-ben készített el a Wayback Machine programozója, de végül csak néhány projekthez használták, nem publikálták nyilvánosan. A Colloq segítségével közösségi média platformokról, interaktív, dinamikus webhelyekről lehet archiválni és visszanézni tartalmakat, az eredetihez sokkal jobban hasonlító módon és minőségben, mint ami a crawler-alapú rendszerekkel elérhető, mert itt a crawler maga a felhasználó ("human spider") és a szoftver az általa látott weboldalt menti el WARC fájlokba. 2015-ben a Rhizome egy még fejlettebb rendszer kidolgozásába kezdett, amely végül a Webrecorder létrehozásához vezetett.


Combine Harvester

Eredetileg 1998-ban kiadott, Perl-ben írt open source crawler, mely a DESIRE (Development of European Service for Information on Research and Education) projekt egyik termékeként készült weboldalak leindexelésére keresőrendszerekhez. Ezt később a svéd Kulturarw3 és a skandináv NWA szolgáltatások számára jelentősen továbbfejlesztették úgy, hogy webarchívum építésére is alkalmas legyen. (Feladatát később a NEDLIB Harvester, majd a Heritrix vette át.)


Common Crawl

Kaliforniai székhelyű nonprofit szervezet és webarchiváló projekt, mely 2011 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat, melyeket a saját CCBot nevű, az Apache Nutch-ra épülő crawler-jével gyűjt mindenhonnan a nyilvános webről (jelenleg évi négyszeri aratással). A WARC fájlok mellett az ezekből kivonatolt metaadatokat és nyers szövegeket is szolgáltatják az Amazon felhőtárhelyéről, valamint open source szoftvereket fejlesztenek ezek kutatásához. 2015 novemberében 151 terabájt volt a gyűjtemény mérete, ami 1.82 milliárd weboldalt jelentett. (De van olyan forrás is, amely szerint 2017-ben már 8 évnyi anyaguk van, több mint 2 petabájt méretben.)


Common Crawl Group

A Common Crawl projekt iránt érdeklődők számára létrehozott Google csoport, ahol a webaratással gyűjtött és nyilvánosan hozzáférhető archívummal, annak feldolgozásával, kutatásával kapcsolatos kérdéseket lehet megbeszélni.


Competitor Screenshots

Amerikai cég szolgáltatása, amellyel elsősorban versenytársak marketing kampányainak, internetes felületeinek és üzeneteinek (weboldal, Facebook post, tweet, e-mail reklám) időbeli változását lehet figyelemmel kísérni naponta készülő képernyőfotókon.


Content drift

A link rot jelenségnek az a válfaja, amikor egy hivatkozott forrás tartalma idővel olyan mértékben megváltozik, hogy már nem tekinthető azonosnak azzal, amire a hivatkozás eredetileg vonatkozott.


Crawler (spider, web robot, bot, harvester)

A keresőgépek számára vagy archiválási célra a weboldalakat linkek mentén bejáró és többnyire tartalmukat is lementő szoftverek gyűjtőneve. A crawler egy előre megadott URL címlistából (seeds) indul ki, majd követi az ezeken a weboldalakon talált linkeket is. A viselkedése részletesen konfigurálható, például ilyen paraméterekkel: milyen mélységig kövesse a linkeket egy web helyen belül? kövesse-e a más site-okra mutató linkeket és ha igen, akkor meddig? milyen fájltípusokat és milyen mérethatárig mentsen le? hány szálon induljon el párhuzamosan? milyen gyakorisággal térjen vissza ugyanarra a webhelyre? figyelembe vegye-e a robots.txt-ben megadott tiltásokat?


Crawler-friendly website

Olyan kialakítású webhely, amelynek releváns tartalma könnyen és teljesen felderíthető robotokkal, az érdektelen (pl. naplófájlok, segédállományok) vagy lementhetetlen (pl. adatbázisok, webáruházak) részei viszont el vannak rejtve előlük. Például ilyen megoldásokkal tehető bejárhatóbbá egy webszerver tartalma:

A crawler-barát site-ok kialakítására vonatkozó szabályok ill. ajánlások elsősorban SEO-szempontból íródtak, vagyis a keresőgépek robotjai számára való optimalizálásra vonatkoznak. Ezek nagyrészt az archiválási célból indított robotok esetében is hasznosak, de az archiválás esetében más szempontok is vannak (lásd: archive-friendly website).


Crawler architecture

Egy crawler szoftver legegyszerűbb változata ilyen modulokból áll:

Ezen alapmodulok mellett még sokféle kiegészítő modul is beépíthető egy crawler-be (pl. olyan, amelyik ki tud elemezni webkettes oldalakat is, vagy FTP szerveket is be tud járni, vagy amellyel deduplikálható a korábbi mentésekben már szereplő tartalom).


Crawler/spider trap

Weboldalak olyan sorozata, amely szándékosan vagy akaratlanul végtelen ciklusba vezeti a crawlert, vagy a program összeomlásához vezet (pl. végtelen mély alkönyvtárstruktúra, végtelen sok dinamikusan generálódó weboldal, igen nagy számú karaktert tartalmazó oldal, amitől az elemző algoritmus elszáll). Ilyen csapdákat szándékosan is csinálnak a weboldalakon található e-mail címekre vadászó spambot-ok vagy a nem polite crawler-ek "elfogása" céljából, amelyek túlságosan leterhelik a szervert, pazarolják a sávszélességet. A csapdába befutó robotot azután vagy kitiltják a szerverről, vagy szép lassan etetik végtelen sok haszontalan vagy hamis információval. Mivel az ilyen programok írói egy idő után felkészítik a robotjukat a csapdák elkerülésére, ezért mindig újabb technikákat kell kitalálni a szerverek védelmében. A gondosabb rendszergazdák a robots.txt-ben megadják a csapdák elkerülésének módját, így csak azok a bot-ok és crawlerek kerülnek bele, amelyek figyelmen kívül hagyják a robots.txt-t.


Crawljax

Java-ban írt open source szoftver egy hagyományos webböngészőn keresztül történő archiváláshoz. Ezzel a módszerrel Javascript/Ajax-alapú dinamikus weboldalak is helyesen menthetők le, mert a crawler egy emberi felhasználót szimulál a böngészőn keresztül (lásd: event-based crawling). De mivel így nem állnak rendelkezésre a WARC-ba mentéshez szükséges információk, ezért a Warcprox nevű program közbeiktatása szükséges a szabványos archív csomagok előállításához.


CrawlURI

Egy olyan URI (vagyis internetes cím, pl. URL), valamint a hozzá kapcsolódó egyéb adatok (pl. a felettes URI-ja, a seed-től számított linkmélység), amelyet egy crawler megtalált vagy a seed listából megkapott. (Hogy követi-e, azt a crawl frontier szabályozza.)


Crawl frontier

A crawlert irányító modul a webaratás során. A backend-nek nevezett komponense (a Heritrixnél pl. crawl scope modul) tartalmazza mindazokat a szabályokat, amelyeket a crawlernek be kell tartania a webtér bejárása során (pl. milyen fájlokat töltsön le, milyen sorrendben és milyen mélységig kövesse a linkeket, milyen gyakran térjen vissza egy oldalra, figyelembe vegye-e a robots.txt korlátozásait?). A crawler elindul a seedként megadott URL-ről, majd minden weboldal kérés eredményéről értesíti a frontiert és elküldi neki az abban talált linkeket is (ez a kommunikáció a frontier manageren vagy frontier API-n keresztül zajlik). A frontier ezeket a linkeket nyilvántartja és a backend-ben rögzített szabályok alapján utasítja a crawlert, hogy mit töltsön le a következő lépésben. Ha elfogynak a szabályoknak megfelelő linkek, akkor az aratás leáll.

A linkek követési sorrendjének meghatározásánál többféle logikát alkalmazhat a frontier: lehet ez valamilyen pontozásos módszer (pl. relevancia, frissesség, változási gyakoriság alapján számított prioritás), vagy FIFO/LIFO elv (az elsőként/utolsóként talált linket követi először, majd hasonló sorrendben a többit), vagy DFS/BFS elv (mélységben/szélességben megy előbb végig a linkeken). A frontier és a crawler közé egy vagy több middleware is beiktatható, melyekkel a köztük folyó kommunikáció menedzselhető és plusz funkcionalitás adható az aratórendszernek.


Crawl scope

A Heritrix crawlerbe beépülő modul, amellyel az aratás scope-ja, vagyis a robot által bejárandó webtér kiterjedése szabályozható. Ez a Java objektum dönti el minden talált URI cím esetében, hogy követnie kell-e a Heritrixnek. A következő paraméterezési lehetőségek vannak: BroadScope (csak a kiindulóponttól számított linkmélység számít), SurtPrefixScope (a SURT formára hozott címek prefix része paraméterezhető), FilterScope (különböző típusú szűrőfeltételek - pl. reguláris kifejezések - adhatók meg az URI-ra vonatkozóan). Az egyszerűbb paraméterezhetőség kedvéért van még DomainScope, HostScope és PathScope is, de ugyanezek a SurtPrefixScope-pal is szabályozhatók.


Crawl settings

A crawler működését szabályozó paraméterek: pl. milyen típusú fájlokat mentsen, milyen mélységig kövesse a linkeket, milyen gyakran arasson újra egy webhelyet, max. hány kérést küldjön másodpercenként vagy percenként a szervernek, figyelembe vegye-e a robots.txt-ben megadott korlátozásokat?


CSEA Ukraine (Central State Electronic Archives of Ukraine)

Az ukrán állami elektronikus levéltár - sok más digitális anyag mellett - 2007 óta webhelyeket is archivál a HTTrack és a wget szoftverekkel. Többek között ilyen tematikus mentéseket csináltak: választások, a csernobili katasztrófa 25 évfordulója, a 2012-es labdarúgó Európa-bajnokság, az UNESCO világörökség ukrán helyszínei. Nyilvános szolgáltatás nincs belőlük, de a virtuális kiállításaikhoz felhasználják a lementett honlapokról készült képeket.


Curator tool

A webaratási tevékenységet: a webhelyek nyilvántartását, a mentések metaadatolását és minőségellenőrzését, valamint a crawler paraméterezését és ütemezését segítő szoftver, keretrendszer.


cURL

Egy parancssorból futtatható eszköz, amely a libcurl nevű - ingyenes és sok platformon elérhető, mindenféle internetes adatátviteli protokollt támogató - programkönyvtárt használva képes fájlok (pl. weboldalak) lekérésére URL címekről, és azokat helyi állományokba is el tudja menteni.


CWSpace

Az MIT Libraries 2004 és 2006 közötti projektje az MIT-nál használt OpenCourseWare tananyagkezelő rendszerben levő webes formátumú oktatási anyagok begyűjtése, DSpace-ben való archiválása és az archivált tartalom továbbszolgáltatása céljából.


CyberCemetery

A University of North Texas Libraries és a U.S. Government Printing Office közös projektje a megszűnő kormányzati honlapok utolsó állapotának megőrzésére. Korábban a HTTrack-et használták, de már áttértek a Heritrix és Wayback párosra. 2017 elején 86 darab, 1995-2013 között megszűnt site mentése volt a gyűjteményben.


Cyotek WebCopy

Ingyenes webhely-letöltő program Windowsra, mely a Microsoft .NET Framework-öt is igényli (szükség esetén feltelepíti installáláskor). Jól konfigurálható (pl. reguláris kifejezésekkel). Fájlrendszerbe ment, lokálisra átírva a linkeket. Mivel nem építi fel a DOM-ot és a JavaScripteket sem elemzi ki, a dinamikus webhelyekkel nem boldogul. Viszont van hozzá egy form-szerkesztő, amivel pl. bejelentkezési adatokat előre meg lehet adni, így jelszóval védett részek is letölthetők. A webhely belső szerkezete előre felderíthető, sőt linktérképet is rajzol róla (ami egy képfájlba elmenthető). A letöltésekről részletes jelentéseket készít.


DACHS (Digital Archive for Chinese Studies)

A német Universität Heidelberg egyik intézete, az Institut für Sinologie által 2001 augusztusa óta működtetett tematikus webarchívum a kínai, illetve Kínával kapcsolatos internetes tartalmak megőrzésére. Az archívum építésébe, a források válogatásába 2003 végén a holland Leiden University-n levő Kína-kutató intézet is bekapcsolódott, de máshol dolgozó szakemberek is javasolhatnak megőrzésre érdemes tartalmakat. A gyűjteményben a webhelyek mentései mellett e-folyóiratok, fórumok, blogok, Twitter és Weibo üzenetek, videók, valamint egyedi fájlok is vannak, melyekből részgyűjteményeket is létrehoznak. Csak a kereső- és böngésző-felület publikus, az archív tartalom a helyi egyetemi hálózatról, illetve regisztrálás után adott IP címekről vagy jelszóval érhető el. 2017 áprilisában a katalógus 12.598 tételt tartalmazott. Az archívum méretéről az utolsó nyilvános adat 2014 elejéről van, akkor kb. 845 gigabájt volt. Öt fő részre tagolódik: folyamatosan mentett site-ok, esemény-alapú mentések, tematikus válogatások, speciális (főleg egyszemélyes) gyűjtések, és végül: "citation repository", ahová a szerzők azokat a forrásokat menthetik, amelyekre hivatkoznak a publikációikban. A sinológusok számára különösen fontos a DACHS, tekintve, hogy a kínai webes tartalmak elég tünékenyek.


DAFF (Digital Archive File Format) fájlformátum

A francia INA által használt saját fájlformátum az archivált webhelyek és médiaállományok tárolására. Nem nyílt formátum, nincs róla részletes leírás, csak annyi, hogy a teljes tartalomra kiterjedő de-duplication miatt jóval kevesebb helyet foglal ugyanaz a tartalom, mint tömörített ARC fájlként.


Darcy Ripper

2013 óta fejlesztett ingyenes Java program (így minden Java-s platformon fut) webhelyek letöltésére. A mentések egy funkciógazdag grafikus felületen konfigurálhatók és felügyelhetők. A beállítások .djp fájlokba menthetők és akár egy másik gépre is átvihetők, illetve folytathatók a megszakított mentések.


Dark archive

A felhasználók elől teljes mértékben elzárt archívum, melyhez csak az archívumot kezelő néhány személy fér hozzá. Kizárólagos célja a tartalom biztonságos megőrzése, pl. az eredetit érő katasztrófa esetére, vagy a bizonytalan jövőben való valamiféle felhasználás/hasznosítás érdekében. Ezért többnyire nincs is hozzá felhasználói vagy kereső felület, csak raktározási funkciói vannak.


DAT fájlformátum

Az Internet Archive által bevezetett egyszerű szöveges állományformátum az egyes ARC fájlokban archivált digitális objektumok fontosabb technikai metaadatainak tárolására. Minden sor egy egybetűs címkével (tag, legend) kezdődik, melyet egy szóköz és maga a metaadat követ. Mivel a DAT fájlok leindexelhetők, így meggyorsítják egy adott weboldal elemeinek az ARC állományokból való visszakeresését.


Data Fountains

A University of California, Riverside könyvtára által 2005 és 2014 között C++ nyelven fejlesztett "iVia Virtual Library Software" nevű open source szoftvercsomag egyik modulja, mellyel internetes információforrások találhatók meg és írhatók le. Lényegében egy web scraping eszköz metaadatok és szövegek kinyerésére fókuszál aratással begyűjtött weboldalakból (pl. virtuális könyvtárak, tematikus portálok, linkgyűjtemények építéséhez). Az adatok CSV és XHTML fájlokba, MARC rekordokba, ill. OAI-PMH protokoll szerint is exportálhatók. A Data Fountains a szintén a csomag részét képező háromféle focused crawler: Expert Guided Crawler, Targeted Link Crawler, Nalanda iVia Focused Crawler egyikével tudja begyűjteni a weboldalakat.


Data Toolbar

Internet Explorer, Firefox és Chrome Web böngészőkhöz letölthető shareware web scraping kiegészítő, amely felderíti a weboldalak szerkezetét és a felhasználó által kért adatmezőket egy táblázatba másolja, amely azután Excel-be vagy SQL adatbázisba menthető. Jól használható például online katalógusokból, hirdetési oldalakról információk félautomatikus begyűjtésére. Az ingyenes próbaverzió csak max. 100 sornyi adatot engedélyez.


DC (Dublin Core)

Egyszerű, de épp ezért nagyon elterjedt (eredetileg csak 15 elemből álló) szabványos adatelemkészlet digitális objektumok (pl. képek, videók, weboldalak, e-publikációk) leírására. 1995-ös megszületése óta sok irányban kibővítették, összekapcsolták más metaadat szótárakkal, specializálták különböző dokumentum- és gyűjteménytípusokhoz. Sok webarchívumban is a DC-alapú leírásokat készítenek a lementett webhelyekről (esetleg azok főbb alegységeiről is).


DCC (Digital Curation Centre)

A University of Edinburgh-n található, 2004-ben alapított brit szakmai tanácsadó szervezet és információs központ a digitális tartalmak hosszú távú megőrzésének témájában - beleértve a webarchiválást is. Útmutatókat állít össze, esettanulmányokat közöl, oktatásokat és konferenciákat szervez, online szolgáltatásokat és információkat nyújt, elsősorban az akadémiai szféra számára.


De-duplication

A duplumok, vagyis a többszörösen lementett azonos tartalmak eltávolítása vagy minimalizálása egy digitális archívumban. Különösen fontos ez a tevékenység a webarchívumokban, mert ugyanazon webhelynek (ill. részleges vagy teljes másolatainak) ismétlődő mentései rengeteg azonos fájlt tartalmaznak, vagyis nagyon megnövelik a tárhelyigényt, és felhasználók számára is zavaró a találati listákban a sok azonos tétel.

A deduplikáció történhet automatikus módszerekkel: a bitre (vagy checksum-ra) azonos fájlok fölös példányainak törlésével, vagy a fájl le nem töltésével, amennyiben ugyanaz az utolsó módosításának időpontja és egyéb jellemzője, mint a már korábban ugyanarról a címről lementett állományé. Vagy pedig emberi közreműködéssel, de ilyenkor inkább csak egy webhely tartalmilag egyenértékűnek tekinthető tükrözéseinek törlése vagy az archiválásból való kizárása jöhet szóba. Az olyan fejlett crawlerek, mint pl. a Heritrix, tartalmaznak opciókat a deduplikációhoz és a WARC formátum is támogatja ezt.

Ugyanakkor bizonyos szintű redundancia minden archívumban hasznos, mert ha csak egyetlen példány van, ami megsérül vagy csak később derül ki valami probléma vele kapcsolatban, akkor nincs mivel helyettesíteni. Bíróságon elfogadható bizonyíték esetében pedig követelmény lehet az eredeti, önmagában teljes mentés bemutatása, amely nem tartalmazhat hivatkozásokat korábbi mentések azonosnak tekintett fájljaira.

A modern tárolórendszerek használnak egy szintén de-duplication (vagy intelligent compression, vagy single-instance data storage) nevű tömörítési technikát, amellyel az azonos adatszekvenciákat (bájt mintázatokat) felismerik és kevesebb helyen tárolják. Vagyis ilyenkor nem fájl szinten, hanem bájt szinten történik a redundancia csökkentése.


DeDuplicator

A Heritrix crawlerhez készült beépülő modul de-duplication céljából, vagyis az egymást követő ismétlődő mentéseknél a nem változott fájlok felismeréséhez és többszörös tárolásuk elkerüléséhez.


DeepArc

A National Library of France által 2004-ben fejlesztett open source szoftver, mellyel a különböző relációs adatbáziskezelőkben (Oracle, SQLServer 2000, MySQL, Sybase) tárolt adatok - az adatstruktúrának valamely előre megadott XML sémára való megfeleltetése után - XML fájlokba menthetők, hogy azután beadhatók vagy begyűjthetők lehessenek a webarchívumba. A mappelés egy felhasználóbarát grafikus felületen át történik, és egy, az adatstruktúrát és az adatokat jól ismerő helyi szakembernek kell elvégeznie, a szoftvernek a tartalomszolgáltató szerverére telepítése után. Így lehet a legegyszerűbben megőrizni azoknak a deep webhez tartozó webhelyeknek a tartalmát, amelyek mögött egy, crawlerrel nem bejárható adatbázis van - természetesen az eredeti külalak és funkcionalitás megtartása nélkül.


Deep web (hidden web, invisible web)

Az internetes keresők (és egyben a webarchívumok) crawler-jei számára "rejtett", nem bejárható weboldalak halmaza. Egy 2001-es becslés szerint a webnek ez a része kb. 400-550-szerese a robotokkal elérhető felszíni webnek. (Ez az arány azóta valószínűleg még nagyobb lett a crawler-ek fejlődése ellenére.) A deep webet alkotó szolgáltatások jelentős része az emberek számára viszont elérhető (legfeljebb regisztrációhoz vagy előfizetéshez kötött) és sokszor értékesebb, rendszerezett tartalom van bennük.

A robotokkal való hozzáférhetetlenség lehetséges okai többek közt:

Hogy egy webhely a deep web része-e, az természetesen az adott crawler képességeitől is függ, vannak már olyan szoftver robotok, amelyek egy keresőűrlapot az adott nyelv szavaival véletlenszerűen kitöltve képesek találati weboldalakat generálni és ezeket leindexelni; illetve olyanok is, amelyek egyéb emberi interakciókat is szimulálnak (pl. görgetik a webkettes helyeken az oldalakat, hogy a dinamikusan felkerülő tartalom is megjelenjen rajtuk).


Deep web crawling

A deep webet alkotó, a hagyományos crawlerek számára elérhetetlen webhelyek tartalmának begyűjtésére alkalmas módszerek és technológiák összefoglaló neve.


Deja News

1995-ben létrejött texasi vállalkozás, mely a Usenet fórumokat kezdte el archiválni és egy webes felületen visszakereshetővé tenni. Bár az archívum messze nem volt teljes (a Usenet 1980-ban indult, továbbá a fejlécben az "X-No-Archive" sort tartalmazó üzeneteket eleve nem tárolták, valamint utólag is eltávolíttathattak az eredeti szerzők vagy a copyright tulajdonosok fájlokat az archívumból), mégis nagy népszerűségnek örvendett a jó keresőfelülete miatt, nagyjából 1999-ig, amikor a tulajdonosai megpróbálták e-kereskedelmi portállá alakítani. 2001 elején a Google megvette a gyűjteményt és áprilisra a több mint 650 millió tételes archívumot beleolvasztotta az akkor indult Google Groups szolgáltatásába, majd 2001 végére más forrásokból kiegészítette egészen 1981 május 11-ig visszamenőleg.


Depth-first strategy

Jellemzően a focused crawl típusú aratásoknál alkalmazott link-követési stratégia, amikor a crawler egy adott webhelyet igyekszik minél teljesebben bejárni és lementeni, olyan mélységig követve a site-on belülre mutató linkeket, ameddig csak lehet. (Egy ésszerű határig legalábbis, nehogy végtelen ciklusba kerüljön egy crawler trap miatt.) Ellentéte a breadth-first strategy.


describingWebArchives

A University at Albany programozója által fejlesztett Python programok, amelyekkel az Archive-It szolgáltatással mentett webtartalmak metaadat-rekordjai készíthetők el automatikusan az ArchivesSpace-ben (ami egy általános célú open source archívumkezelő rendszer) az Archive-It CDX és Partner Data API-jainak lekérdezésével.


Designrr

Fizetős szolgáltatás, amellyel weboldalak (pl. blogok vagy céges honlapok) tartalmából e-könyvek vagy reklámkiadványok készíthetők. (Elsősorban PDF-ek, de a "professional" kategóriájú előfizetők Kindle és EPUB formátumba is exportálhatnak). A rendszer megpróbálja automatikusan felismerni a megadott URL címen levő fő tartalmat és azt átmásolja (a navigációs elemek, reklámok és egyéb irreleváns részek kihagyásával, de a szövegben levő linkekkel együtt) a saját szerkesztőfelületébe, ahol az azután formázható (előre gyártott sablonok és design elemek segítségével), képekkel illusztrálható, illetve további weboldalak tartalma fűzhető hozzá.


Deutsche Nationalbibliothek - Webarchiv

A német nemzeti könyvtár egy 2006-os törvényi felhatalmazás alapján kezdett el online tartalmakat, köztük webhelyeket is archiválni. A szelektíven mentett honlapok és blogok a központi katalógusban, ill. teljes szöveggel is visszakereshetők, vagy tematikus részgyűjteményekben böngészhetők, de csak néhány lementett site nézhető meg nyilvánosan, a többi csupán helyben használható a jogi korlátok miatt. 2015-ben kb. 700 webhelyet mentettek, átlagosan negyedéves gyakorisággal. A .de domaint 2014-ben aratták le először (az Internet Memory Research segítségével), és ebben az állományban is van full text keresési lehetőség az URL cím alapján való elérés mellett (2017 áprilisában ennek már a keresője sem volt nyilvános).


DigiBoard

A LCWA számára fejlesztett webarchiválási keretrendszer, amellyel a Library of Congress munkatársai a szelektív archiváláshoz kiválogatott webhelyek nyilvántartását, az engedélyezési eljárást, az aratás konfigurálását, a mentett anyag ellenőrzését és az elsődleges metaadatolást végzik. (Magát az aratást az Internet Archive csinálja meg a DigiBoard-ból kapott seed-lista alapján.)

Egy 2003-ban gyorsan összerakott egyszerű nyilvántartó program után, annak korlátai miatt, előbb a WCT használatával próbálkoztak, de az sem bizonyult elégségesnek (főleg a LCWA egyes részgyűjteményeinél használt különböző engedélyezési folyamatok és jogi szövegek kezelését nem tudták jól megoldani vele), ezért 2009-ben egy saját rendszer fejlesztésébe kezdtek, amely jelenleg már a 4.0-ás változatnál jár, de még mindig nem sikerült mindent kellően automatizálni vele. 2014-ben bejelentették, hogy csinálnak egy open source verzióit is, de még nem készült el.


Digital Curation Exchange

A digitális megőrzéssel, digitális anyagok kezelésével foglalkozó szakemberek számára létrehozott fórum, blog és információs webhely. Regisztrálás után lehet csatlakozni az egyes tematikus csoportokhoz.


Digital Footprint Analytics

A dán Aarhus University "Digital Footprints" nevű kutatócsoportja által fejlesztett szoftver és szolgáltatás Facebook-os tartalmak mentésére és kielemzésére. A rendszer csak online használható (és csak kutatóknak) egy jelentkezési űrlap kitöltése után, amiben meg kell adni a projekt célját. A regisztrálás után résztvevőket kell gyűjteni, akik hozzáférést adnak a szoftver számára a Facebook oldalukhoz, ami ezután elkezdi az adatgyűjtést a Facebook API-ján keresztül. A lementett tartalmak kereshetők, szűrhetők és különböző statisztikák készíthetők belőlük. A rendszer Twitter üzenetek és Instagram képmegosztások gyűjtésére is alkalmas.


Discovered URIs

Azon URI-k halmaza, amelyeket a crawler megtalált és a crawl scope modulban beállított szabályok szerint benne vannak az aratási körben, vagyis be kell őket járnia. Ebbe a halmazba beletartoznak a már bejárt, az éppen bejárás alatt levő és a még bejárandó címek is. Nincsenek viszont benne az "elfelejtett" URI-k, amelyeket a rendszer eldobott, mert pl. az operátor időközben megváltoztatta a scope-ot.


Django Nomination

A University of North Texas által fejlesztett, Pythonban írt open source szoftver, mellyel pl. fókuszált webaratásokhoz gyűjthetők össze URL cím javaslatok. Projektenként külön definiálhatók a javaslattevőktől kért metaadatok és egyéb paraméterek (pl. a nevezésekre rendelkezésre álló idő). A javasolt webhelyek pontozhatók is, hogy mennyire relevánsak az adott webarchiválási cél szempontjából. A kapott pontszám alapján lehet dönteni a harvesterésből kizárandó webhelyeket, illetve azt, hogy amelyek belekerülnek a seed listába, azokat milyen mélységig, mennyire teljességre törekedve érdemes begyűjteni. A University of North Texas egy online szolgáltatást is működtet ilyen célra UNT nomination tool néven.


DOM (Document Object Model)

Az HTML, XHTML és XML formátumú fájlokból a webböngészők által generált, hierarchikus objektummodell, programozható API, a weboldal kódjának a gép memóriájában való belső leképezése, amely alapján a böngésző azután megjeleníti az oldalt, illetve amelyet pl. Javascript utasításokkal módosítva változtatható az oldal szerkezete, tartalma vagy külalakja a felhasználó interakciói vagy egyéb események esetén. A DOM felépítését egy ún. böngészőmotor komponens végzi, amelyből többféle létezik és nem teljesen egyformán működnek, ezért egy weboldal megjelenése és viselkedése attól is függ, hogy éppen milyen böngészővel (böngészőmotorral) nézi a felhasználó. Vannak olyan motorok (pl. a WebKit és a Gecko), amelyeket több böngészőnél is használnak, ezek jobban törekednek a szabványok betartására.

Webarchiválási szempontból ez azt jelenti, hogy valójában nem elég csak a HTML vagy XML fájlokat megőrizni, meg kellene őrizni valahogy azokat a DOM-okat is, amelyek a webhely mentése idején használatosak, szabványosak voltak, ahhoz, hogy a jövőben helyesen lehessen rekonstruálni a weboldalak megjelenését és viselkedését. (Erre egy érdekes kísérlet volt az Oldweb today.) Továbbá az, hogy egy weboldal nem pusztán egy szövegfájl, hanem valójában egy program, amelyet egy böngészőmotor értelmez és futtat, azt is jelenti, hogy a bonyolult, dinamikusan változó weboldalakat az egyszerű fájletöltést végző crawler-ekkel nem, vagy csak nagyon töredékesen lehet archiválni. A megoldást ilyenkor egy headless browser közbeiktatása jelentheti, amely tartalmaz egy aktuálisan szabványos böngészőmotort.


Domain.UK (Britain on the Web)

A British Library első webarchiválási próbálkozása, ami egy rövid pilot volt 2001-2002-ben, amikor is - engedélykérések után - kb. 100 egyszerűbb webhelyet letöltöttek néhányszor PC-kre a WebWhacker és a HTTrack szoftverekkel, de nyilvános szolgáltatást nem csináltak. Az itt szerzett tapasztalatok és két, 2003-ban kiadott kutatási jelentés vezettek azután a következő fázishoz az Egyesült Királyságban: a UKWAC megalakulásához.


DPC (Digital Preservation Coalition)

2002-ben alapított angol szervezet (tagjai nagyrészt az Egyesült Királyság memóriaintézményei) a digitális tartalmak és szolgáltatások hosszú távú megőrzésének elősegítése és koordinálása érdekében. Többek között előadásokat és webináriumokat szerveznek és jelentéseket adnak ki különböző témákban - köztük a webarchiválásról is. (Bár a 2010-ben létrehozott "Web Archiving and Preservation Task Force" munkacsoport már nem dolgozik.)


DPC Forum - Web-archiving: managing and archiving online documents and records

A DPC által Londonban, 2002 március 25-én megszervezett szakmai nap a webarchiválásról, főként brit előadókkal.


DPC Webinars

A DPC által a tagjai számára online közvetített néhány órás előadások a webarchiválás és a digitális megőrzés témájában.


DPS (Digital Preservation System)

Általános célú, a helyi igényekre nagyon rugalmasan átalakítható rendszerek összefoglaló neve, melyeket mindenféle típusú digitális anyag (beleértve a web archiválásakor keletkező csomagok) beadására, raktározására, kezelésére és hosszú távú megőrzésére terveztek. Általában az OAIS elv alapján működnek, megfelelnek a TDR előírásoknak, alapból támogatják az elterjedt metaadat szabványokat és adat- illetve fájlcsere protokollokat, valamint az egyedi és tömeges betöltést. Kapcsolódni tudnak különböző megjelenítő- és keresőrendszerekhez, hogy az azok által lekért metaadatokat és fájlokat - a jogosultság ellenőrzése után - továbbítsák.


DPSP (Digital Preservation Software Platform)

A National Archives of Australia által Java-ban fejlesztett open source szoftvercsomag a digitális megőrzés egyes munkafolyamataihoz. Négy fő komponense van:

A telepítő ezek mellett még a következő programokat is felteszi a gépre: LibreOffice.org, PostgreSQL, ClamAV.


DROID (Digital Record Object Identification)

A UK's National Archives Digital Preservation Department-je által fejlesztett open source Java applet batch üzemmódban történő automatikus fájlformátum beazonosításhoz. Az azonosításhoz szükséges információkat (egy ZIP csomagként) a szintén általuk (2002 óta) épített PRONOM adatbázisból tölti le, ahol igyekeznek minden elterjedt fájltípust és a hozzájuk használható szoftvereket nyilvántartani. A DROID segítségével nagy tömegű digitális objektum (pl. egy webaratás anyaga) azonosítható be, pl. statisztika készítéshez, vagy a hosszú távú megőrzéshez szükséges esetleges konverziókhoz. A fájlok jellemzőit és a formátumukhoz tartozó PRONOM linkeket a DROID pl. CSV listaként el is tudja menteni.


DWA (Das Webarchiv)

A német oia GmbH teljes körű webarchiváló szolgáltatása az OWA rendszerükre alapozva, melyet a Deutsche Nationalbibliothek is igénybe vesz 2012 óta. A megrendelő által kért mentéseket, azok minőségellenőrzését és tárolását magukra vállalják, az archivált anyag egy adminisztrációs felületen keresztül menedzselhető, illetve WARC formátumban le is tölthető.


ECHO DEPository

A University of Illinois at Urbana-Champaign 2004-2010 közötti - a Library of Congress NDIIPP programja által támogatott - digitális megőrzéssel foglalkozó projektje. Más intézményi partnerekkel együtt különböző szoftvereket fejlesztettek, köztük webarchiváláshoz hasznos eszközöket is Web Archives Workbench néven, olyan feladatokra, mint a releváns webes tartalmak megtalálása, válogatása, metaadatolása és eltárolása.


Eesti Veebiarhiiv

Az észt nemzeti könyvtár (Eesti Rahvusraamatukogu) számára a 2006-os kötelespéldány törvény tette lehetővé az észt webhelyek mentését és nyilvános szolgáltatását, de 2017-től egy újabb törvénymódosítás utóbbit csak a közintézmények webhelyeire korlátozta (a teljes anyag helyben férhető hozzá néhány nagy könyvtárban). Szelektíven archiválnak 2008 óta, a Heritrix és Wayback párost használják. Keresni URL és tárgyszó alapján lehet, de van témakörök és részgyűjtemények szerinti böngészési lehetőség is. 2013 novemberében készült el a szolgáltatási felület, ekkor több mint ezer webhelyet tároltak 1,6 terabájt méretben (tömörítés nélkül). 2015-ben már 4,2 terabájt volt az archívum mérete (56 millió digitális objektum). 2015 decembere és 2016 áprilisa közt egy teljes domain aratást is csináltak, ez tömörítetlenül 4 terabájtot eredményezett (webhelyenként max. 300 megabájtot mentettek le, hogy kezelhető maradjon az anyag). Egy három fős csoport végzi az archiválást, teljes munkaidőben, de 10 egyéb intézményből 24 további munkatárs is besegít a válogatásba egy 2011-ben kidolgozott szempontrendszer alapján. 2012-ben az észtek is csatlakoztak az IIPC-hez.


ELTE MIA pilot

2010-es évek elején az ELTE Tudománytörténet és Tudományfilozófia Tanszékének tudománymetriai munkacsoportja végzett egy fókuszált webarchiválást. Mintegy 400 magyar webhelyet: MTA kutatóintézetek, NIIF tagintézmények, valamint egyetemek és főiskolák honlapjait mentették kéthetes periodicitással (főleg szövegeket, képeket és videókat archiváltak). A lementett tartalmat ki is elemezték például olyan szempontból, hogy mit kommunikálnak magukról az intézmények. A Heritrixnek egy saját igények szerint továbbfejlesztett változatával arattak egy Dell T710 szerveren (2x4 core Xeon E5520, 48GB RAM, 2TB HDD). 2014 elején az MTA intézetek teljes másolata 33 gigabájt volt (ebből 6,5 gigabájt a szöveg), az egyetemek és főiskolák anyaga pedig 53 gigabájt (ebből szöveg 36 gigabájt).


Erado

A 1994-ben alapított a washingtoni Rentonban található, digitális archiválásra szakosodott cég. Mindenféle elektronikus kommunikációt meg tudnak őrizni a saját fejlesztésű integrált archiváló platformjukkal, több mint 50-féle csatornáról (beleérve a különböző levelezőrendszereket, üzenetküldő szolgáltatásokat, mobil beszélgetéseket, webhelyeket, blogokat, RSS csatornákat, audiovizuális tartalmakat és közösségi oldalakat is). A közösségi média megőrzésével a világon elsőként kezdtek foglalkozni 2005-ben és szintén az elsők voltak abban, hogy az üzenetekbe beágyazott linkek mögötti tartalmat is lementik.


European Archive

Lásd: Internet Memory Foundation


EVA

A finn nemzeti könyvtár (Kansalliskirjasto) projektje - több más intézmény, pl. a Helsinki University Library részvételével - az interneten található elektronikus publikációk kiválogatásának, begyűjtésének, leírásának, jogi kérdéseinek, szolgáltatásának és hosszú távú megőrzésének kutatására, az optimális módszerek kidolgozására. A projekt 1997-ben indult, a .fi webtér első teszt aratását 1998 tavaszán végezték, ami 1.8 millió dokumentumot eredményezett (86% szöveg, 10% kép), majd áttértek a NEDLIB Harvesterre, mellyel 2002-ben 11.7 millió fájlt töltöttek le (kb. 500 gigabájt), ez a szám 2003 októberére 15 millióra nőtt. A crawler mellett olyan eszközöket is teszteltek, mint a DC metaadat generátor és MARC-konverter, az URN generátor, valamint az NWA Toolset-et alkotó indexelő és egyéb szoftverek. Az archivált webanyagot a Nordic Web Index (skandináv webkereső szolgáltatás) finn szolgáltatópontján indexelték le és tették kereshetővé, amely Z39.50 protokollon is lekérdezhető volt. Emellett FinMeta néven egy külön adatbázist is készítettek az összes Dublin Core metaadatból, amit a finn weboldalakban találtak (ez 1998-ban még csak kb. ezer rekordból állt).

Néhány éves kísérleti üzem után az EVA projekt lezárult és a nemzeti könyvtár 2006-ban egy új, második generációs webarchívumot kezdett építeni Kansalliskirjaston verkkoarkisto néven.


Event-based crawling

A RIA típusú webhelyek aratására kifejlesztett technológia, mellyel olyan Javascript/AJAX kódokban bővelkedő weboldalak (pl. Facebook) is lementhetők, melyeknek a felhasználó interakcióinak (pl. kattintások, görgetések) függvényében módosul a tartalmuk, miközben az URL címük nem változik. Az ilyen oldalakkal a hagyományos URL-alapú crawlerek nem boldogulnak. Az event-based crawling esetében az URL címen levő weboldal kódját kielemezve kiváltják mindazokat az eseményeket, amelyeket egy felhasználható képes az oldalon megtenni és amennyiben valamelyik hatására változik az oldal tartalma, akkor azt az állapotot is learatja a crawler (pl. a Crawljax).


FIDO (Format Identification for Digital Objects)

Egy egyszerű, parancssorból futtatható (és így automatizált munkafolyamatokba beépíthető) segédprogram digitális objektumok fájlformátumának azonosításához. Webarchívumoknál is használják a begyűjtött anyag kielemzéséhez.


FindMobile/MobileFinder

Pythonban írt program a mobil eszközökre optimalizált webhely-verziók megtalálására, hogy azután pl. a Heritrix-szel a "mobil web" is begyűjthető legyen. (Mintegy 10 ezer fontosabbb webhely elemzése alapján kb. a site-ok felénél lényegesen különbözik a mobil változat az asztalitól.) A szoftver különböző módszerekkel próbálja kideríteni, hogy van-e mobil felület és hol van? A PhantomJS headless browserrel asztali Chrome ill. iPhone-os Safari böngészőt szimulálva megnézi, hogy átirányítja-e a szerver a mobil klienst, változik-e a CSS, az oldalakban levő tag-ek száma és struktúrája, más formátumban/minőségben küldi-e át a médiatartalmakat? Ha így nem talál lényeges különbséget, akkor megpróbálja kitalálni a mobil felület URL-jét (pl. a webhely címe elé a "m." prefixet, vagy utána a "/mobile" suffixet téve), és ha nem 404-es hiba érkezik, akkor az így kapott oldalt elemzi ki az előbbi szempontok alapján. Új verziójának neve: MobileFinder.


Find It! Keep It!

Mac OS X rendszerre fejlesztett fizetős offline browser (utolsó frissítése 2009-ben volt). Egy saját webböngészőt használ, amellyel címkézhetők és el is menthetők az éppen nézett oldalak. Flash és RealVideo fájlokat is el tud menteni és visszajátszani, valamint a Javascript-es dinamikus weboldalakat is. Más böngészőből (pl. Safari, Firefox, Opera) is lehet menteni vele egy bookmarklet telepítése után. Azt is meg tudja nézni, hogy egy éppen elérhetetlen oldal megvan-e a Google vagy más keresők cache tárolójában, vagy az Internet Archive-ban.


Fireshot

Ingyenes böngészőkiegészítő, amellyel az éppen nézett weboldalról (vagy annak egy részéről) képernyőfotó készíthető, majd ez szerkeszthető, annotálható és elmenthető PDF vagy képfájlba, illetve megosztható, feltölthető képmegosztó oldalakra vagy egyéb szerverekre.


Focused crawl

A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a focused crawler, vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó seed listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a crawl frontierben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. pagerank-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, whitelist-ek és blacklist-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.


Focused crawler

Olyan crawler, amely valamilyen speciális szabályrendszer szerint követi a linkeket és dönti el, hogy mit töltsön le. Így pl. egy adott témára/eseményre fókuszáló webarchívum hozható létre, amelyben túlsúlyban vannak az értékes, releváns tartalmak. A fókuszálást a crawl frontierben definiált szabályok mellett a seed-ek gondos megválogatása is segíti (pl. tematikus linkgyűjtemények, a témában magas PageRank értékű ill. a visszalinkek száma alapján fontos oldalak). A frontier megtanítható arra, hogy már a linkekhez tartozó szövegek alapján valószínűsíteni tudja, hogy érdemes-e azokat a crawlernek követnie, továbbá öntanuló algoritmusok is építhetők bele a valóban releváns oldalak kiválogatásához.


FOGALMAK


FORMÁTUMOK


FÓRUMOK


Freeyourstuff

Egy Chrome kiegészítő, amivel a felhasználó letöltheti a saját kommentjeit különböző szolgáltatásokból, jelenleg ezekről a helyekről: Yelp, IMDB, TripAdvisor, Amazon.com, Goodreads és Quora. A szövegek és a metaadataik (pl. az eredeti URL címeik) JSON formátumban menthetők el a saját gépre, de CC0 licenc alatt meg is oszthatók a freeyourstuff.cc tárhelyen.


FreezePage

2003 óta működő, alapvetően ingyenes online szolgáltatás adott weboldalak aktuális állapotának lementésére. Az archivált példány saját URL-t kap, amellyel később bármikor előhívható és amely másokkal is megosztható. A megőrzési idő regisztrálás nélkül csak 3 nap, de ha a regisztrált felhasználó legalább havonta egyszer belép, akkor korlátlan (a premium user-ek számára pedig e nélkül is korlátlan).


Fresh WebSuction

Ingyenes, egyszerű offline browser Windowsra (utolsó frissítése 2012-es). Egyszerre 50 szálon is tud menteni, mindenféle fájltípust. Paraméterezni lehet típus és linkmélység szerint. A linkeket opcionálisan átírja lokálisra.


Frontera (korábban: Crawl Frontier)

A Scrapinghub által a Scrapy-hoz fejlesztett, de más típusú crawler irányításához is használható open source crawl frontier. Az aratási szabályok rugalmasan konfigurálhatók és alkalmas broad crawl méretű bejárások esetén elosztott módban működő robotok koordinálására is.


GC WA (Government of Canada Web Archive)

A Library and Archives Canada 2005 végén indult webarchívuma, mely egy 2004-es törvénymódosítás alapján aratja (ma már általában félévenként) a kanadai kormányzati domain alatti webhelyeket (beleértve egyes intranetek anyagát is, ha erre engedélyt kapnak és ha technikailag megoldható). A Heritrix, Wayback, NutchWAX hármast használják a begyűjtéshez, a megjelenítéshez és a kereséshez. Amíg nem volt saját infrastruktúrájuk, addig az Archive-It szolgáltatást vették igénybe és 2008-ban le is álltak egy időre, mert újragondolták a gyarapítási politikájukat. A nyilvános keresőfelület 2007 őszén készült el, ekkor kb. 100 millió objektum (több mint 4 terabájt) volt elérhető. 2013 végén ez a szám 183 millió (7.5 terabájt), de volt még további 8 terabájtnyi nem szolgáltatott mentésük is. Keresni teljes szöveg, intézménynév, fájlformátum és URL cím alapján lehet. (A Google és egyéb keresőgépek robotjai ki vannak zárva, így azokkal nem található meg az archívumban levő tartalom.)

A kormányzati domain teljes aratása mellett a kanadai nemzeti könyvtár és levéltár szelektíven is archivál más webhelyeket vagy azokon belül egyes dokumentumokat. Ezek a digitális állományba kerülnek és a központi AMICUS katalógusban is visszakereshetők. Néhány részhalmaz: a 2006-os választások, az olimpiák, a kanadai Sulinet site-ok, a Calgary Rodeó 100. évfordulója, a 2013-as Lac-Mégantic-i vasúti szerencsétlenség. A .ca domain teljes körű aratását eddig nem merték bevállalni a jogi és technikai nehézségek miatt.


GeoCities.ws

A GridHoster.com webhosting cég által a 2009 őszén bezárt GeoCities szerverekről átmentett több százezer honlap archívuma, melyeket a tulajdonosaik reaktiválhatnak is és tovább szerkeszthetnek, ha előfizetnek a cég szolgáltatására. (Ugyanezt az érdekes üzleti modellt alkalmazták a FortuneCity esetében is: onnan 657.650 webhelyet másoltak át, amikor az 2012-ben megszüntette az ingyenes webtárhely szolgáltatását.)


Getting Started in Digital History workshop

Az AHA (American Historical Association) által rendezett éves workshop a digitális források és eszközök történettudományi célú használatáról. A 2017-es rendezvényre január 5-én került sor a denveri Colorado Convention Centerben, melynek "Digital History and Web Scraping" című szekciójában webes és közösségi média tartalmak gyűjtését és elemzését gyakorolhatták a résztvevők.


Grab-a-Site

A Blue Squirrel cég másik offline browsere a WebWhacker mellett, amit már a Windows 98 óta fejlesztenek. Fizetős termék ez is, ingyenes kipróbálási lehetőséggel.


Grab-site

Lásd: Wpull


GWAVA

Montreal székhelyű kanadai cég (jelenleg már a brit Micro Focus szoftvergyártó vállalat cégcsoportjának tagja), mely - egyebek mellett - elektronikus kommunikáció (e-mail, mobil, közösségi média) megőrzésével foglalkozik, felhőszolgáltatás formájában is. Retain Social nevű rendszerükkel (az ArchiveSocial-lal együttműködve) ezekről a platformokról tudnak archiválni: Facebook, Twitter, LinkedIn, Google+, Instagram, Pinterest, Flickr, Vimeo, YouTube.


Hadoop (Apache Hadoop)

Igen nagy tömegű adat (pl. egy webarchívum) elosztott környezetben való kezelésére kidolgozott szoftveres keretrendszer. A hozzá tartozó fájlrendszer neve HDFS (Hadoop File System).


Hanzo (korábban: Hanzo Archives)

Webarchiválással és ezzel kapcsolatos szoftverek fejlesztésével foglalkozó brit cég. A hagyományos weboldalak mellett interaktív, dinamikus, média-elemekben gazdag site-okat, közösségi és kollaborációs platformokat (pl. Facebook, Twitter, LinkedIn, SharePoint, Chatter, Jive, Yammer, különféle wiki-k) is képesek lementeni, akár bizonyítékként is elfogadható hiteles formában. Jelenlegi legfejlettebb termékük a Hanzo Preserve, de korábban az Internet Archive-val együtt készítették a WARC Tools nevű eszközkészletet is.


HAR (HTTP Archive) fájlformátum

JSON-formátumú fájltípus, amelyben egy webböngésző és a webszerver közötti kommunikáció során keletkező információk tárolhatók. Bár még nem szabványosított, de a legtöbb browser támogatja, és a PhantomJS nevű, parancssorból vezérelhető böngésző is (ez a weboldal képét is bele tudja menteni - karakteres adattá konvertálva).


har2warc

HAR fájlokat WARC formátumra konvertáló open source Python program.


Harvest (crawl)

Egy webes forrás bejárása és lemásolása egy crawlerrel.


Harvester

Lásd: crawler


Harvest optimisation

Az aratások ütemezésének optimalizálása, mellyel hatékonyabbá tehető a folyamat. Például olyankor indítani egy nagy site mentését, amikor az adott webszerveren kicsi a hálózati forgalom és gyorsak a válaszidők, vagy sok kis aratást indítani párhuzamosan, illetve úgy időzíteni a crawler napi, heti és havi feladatait, hogy ne terhelődjön túl sem az aratást végző szerver, sem a rendelkezésre álló sávszélesség.


HASZNOSÍTÁS


Hawarp (Hadoop-based Web Archive Record Processing)

A JWAT-ra épülő, a SCAPE projekt keretében létrehozott eszközök, melyekkel igen nagy tömegű ARC és WARC fájlok dolgozhatók fel, ill. konvertálhatók át egy elosztott Hadoop környezetben.


HAW (Hrvatski Arhiv Weba)

A horvát nemzeti és egyetemi könyvtár 1998-ban kezdett el katalogizálni webhelyeket távoli forrásként. 2003-ban a zágrábi egyetem számítóközpontjával együtt kidolgoztak egy DAMP (Digital Archive of Croatian Web Publications) nevű, webes tartalmakat archiváló rendszert, amely 2004 januárjától működik. 2010-ben egyértelműbb nevet ("horvát webarchívum") kapott a szolgáltatás és már üzemszerűen működik 2011 óta. A tematikus gyűjtés mellett azóta a .hr domaint is aratják nagyjából évente a Heritrix-szel. Az elsőt 2011 nyarán futtatták egy hónapig és 56 millió fájlt, 3,1 terabájtot gyűjtött össze, 2015 elején pedig már 74 millió fájlt, 6.1 terabájtot mentettek le. A teljes archívum 2015 novemberében 206 millió fájl, 7.4 terabájt volt (5.840 webhely 40.883 alkalommal való mentése). A minőségellenőrzéshez és a seed URL-ek adatbázisának karbantartásához saját szoftvereket is fejlesztettek az évek során (pl. 500 megabájtnál nagyobb fájlok kiszűrése, 80%-nál nagyobb arányban egyező mentések jelzése, az élő webről az elmúlt hónapban eltűnt site-ok listája). Az archívum nagy része nyilvános, ha pedig egy tartalomszolgáltató ezt nem engedélyezi, annak az archivált anyaga a könyvtárban helyben érhető el. A metaadatok a könyvtár katalógusába is bekerülnek.


Headless browser

Olyan webböngésző, amelynek nincsen grafikus felhasználói felülete, de ugyanúgy tudja értelmezni a weboldalak HTML kódját, végrehajtani a bennük levő JavaScript/AJAX parancsokat, mint a népszerű grafikus browserek. Mivel parancssorból vagy scriptekkel működtethetők, elsődleges felhasználási területük a weboldalak tesztelése, a megjelenítéssel kapcsolatos hibák felderítése, de emellett a weblapok oldalképeit is elő tudják állítani (és fájlba menteni), és webarchiváló eszközként is használhatók, különösen olyan tartalmak letöltésénél, amelyekkel a hagyományos crawlerek nem, vagy nem jól boldogulnak, mert a headless browserek egy emberi felhasználó viselkedését tudják szimulálni. (Utóbbi miatt kártékony célokat is szolgálhatnak: pl. túlterheléses támadás webhelyek ellen, a reklámok nézettségének látszólagos növelése.) Az egyik legfejlettebb headless browser a PhantomJS, amit pl. a UK Webarchive is használ képek készítésére a lementett weboldalakról. (Hátránya, hogy 12-szer lassabban dolgozik, mint a Heritrix.)


Heritrix

Az Internet Archive által Java-ban írt webarchiváló szabad szoftver Linuxra (Windows alatt is megy, de az nem támogatott). Parancsmódban működik (bár létezik egy WAIL nevű GUI is hozzá), rengeteg konfigurálási lehetőséggel, a letöltött fájlokat WARC csomagokban tárolja, de tud menteni az eredeti fájlstruktúrát megőrizve is. A legtöbb nagy webarchívum ezt a crawlert használja aratásra jelenleg.


Hiberlink plugin for Zotero

A Hiberlink project keretében fejlesztett, a Memento Project protokolljára épülő kiegészítő a Zotero hivatkozás-kezelő szoftverhez, ami a felhasználó által a Zotero adatbázisába felvett URL címen levő tartalmat automatikusan elmenti valamelyik webarchívumba, majd az onnan visszakapott archív URL-t is eltárolja az időbélyeggel együtt a Zoteroban. Ha az illető forrás eltűnik az élő webről vagy megváltozik a tartalma, az archív URL segítségével továbbra is előhívható és hivatkozható marad.


Hiberlink project

A University of Edinburgh és a Los Alamos National Laboratory 2013 márciusában indult közös projektje a link rot probléma kutatására és megoldások keresésére. Azt vizsgálják, hogy milyen mértékben érinti a tudományos publikációkban levő internetes hivatkozásokat az elromló linkek problémája, az ezekbe belinkelt információforrások hány százaléka van elmentve valamelyik webarchívumban, és milyen módszerekkel lehetne stabilan elérhetőkké tenni ezeket a forrásokat (a hivatkozáskor érvényes állapotukban). Együtt dolgoznak a Memento Projecttel, s olyan megoldásokat fejlesztenek, mint a Robust Links Tools és a Zotero-ba beépülő Hiberlink plugin.


HRWA (The Human Rights Web Archive)

A Columbia University Libraries (CUL) webarchiválási projektjeinek egyike. (A CUL a 2010-es években kiemelt témaként foglalkozik a webarchívumokkal, az Andrew W. Mellon Foundation támogatásával. 2015-ben egy konferenciát is tartottak Web Archiving Collaboration: New Tools and Models címmel.) A HRWA az emberi jogokkal kapcsolatos intézményi és magán weboldalakat gyűjti 2008 óta. A válogatást könyvtári szakemberek végzik, de mások is javasolhatnak megőrzendő tartalmakat. Nemzetközi szervezetek (pl. az ENSZ) site-jaival nem foglalkoznak, viszont kiemelt figyelmet kapnak azok az országok, amelyekben nincs üzemszerűen működő webarchívum, illetve cenzúrázzák az internetet. A tartalomszolgáltatókat értesítik arról, hogy kiválasztották a site-jukat, akik letilthatják az archiválását, vagy utólag kivetethetik azt az archívumból. A kiválasztott anyagok mentését, megőrzését és nyilvános szolgáltatását az Archive-It végzi, de egy másolatot a CUL is megkap és eltesz a digitális raktárába. A metaadatok a könyvtár katalógusába és az OCLC Worldcat adatbázisába is bekerülnek (az élő és az archív verzióra mutató linkekkel együtt). 2017-ben több mint 600 webhely volt az archívumban, 115 millió objektum (ebből 50 millió szövegesen kereshető), a tárhelyigény pedig 5 terabájt fölött volt.


HtmlUnit

Java-ban írt ingyenes headless browser, amely más Java programokból is vezérelhető. Chrome, Firefox és Internet Explorer böngészőket tud szimulálni és a webhelyek megjelenítésének és működésének tesztelése mellett azok "valósághű" letöltésére is felhasználható.


HTTrack

Windows, Mac OS X és Linux alatt is használható, nyílt forráskódú website lementő szoftver, felhasználóbarát és magyarított felülettel, rengeteg paraméterezési lehetőséggel. Egy .txt fájlban több URL is megadható és a letöltés scriptekkel időzíthető is. A letöltött anyag eredeti fájlstruktúrája megőrizhető és offline böngészhető.


HTTrack2ARC

A portugál webarchívum számára fejlesztett open source szoftver, amivel a HTTrack program által letöltött fájlok szabványos ARC formátumba konvertálhatók.


IA-hadoop-tools

Az Internet Archive által fejlesztett Java segédprogramok WARC fájlok feldolgozásához a Hadoop keretrendszeren és a Pig platformon, amivel jól párhuzamosító adatelemző programok írhatók.


IDCC (International Digital Curation Conference)

A brit DCC által évente megrendezett konferencia a digitális tartalmak - köztük a web - hosszú távú megőrzéséről. Az utóbbi években februárban rendezik, váltakozva brit és amerikai városokban, illetve Amszterdamban.


IFLA General Conference and Assembly 2017

Az IFLA 2017-es, ez alkalommal a lengyelországi Wrocławban rendezett éves konferenciáján augusztus 23-án külön szekció foglalkozik a nemzeti könyvtárakban folyó webarchiválással "A Memory Bank for the Digital Society: National Libraries and Web Archiving - National Libraries with Information Technology" címmel.


Igény szerinti archiválás

Más szervezetek vagy magánszemélyek számára nyújtott egyedi ill. rendszeres archiválása egyes weboldalaknak vagy azok képének - ingyenes, partneri, vagy üzleti alapon. A lehetséges megoldások:


IIPC (International Internet Preservation Consortium)

2003-ban a francia nemzeti könyvtár és 12 partnerintézmény által alapított konzorcium. Jelenleg már több mint 45 országból vannak tagjai (főként könyvtárak és levéltárak). A célja az internet megőrzésével foglalkozók közötti tapasztalatcsere, az ehhez szükséges technológiák közös fejlesztése, a szabványosítás. Külön munkacsoportok foglalkoznak a begyűjtés, a megőrzés, a hozzáférés, a ráépülő szolgáltatások és az oktatás témáival. Éves konferenciákat rendez, közös projekteket koordinál, szoftvereket fejleszt.


IIPC General Assembly

Az IIPC tagok éves közgyűlése workshopokkal egybekötve, mindig más helyszínen. A 2017-es a kanadai Ottawában lesz szeptember 19-én.


Il était une fois dans le web (Once upon a time in the web)

2016 november 22-én és 23-án a Bibliothèque nationale de France és az Institut national de l’audiovisuel által szervezett workshop és konferencia a francia webarchiválás kezdetének 20. és a kötelespéldány törvény webre való kiterjesztésének 10. évfordulóján.


ImageScraper

Pythonban írt parancssori eszköz egy megadott weboldalról az összes kép letöltésére (kivéve azokat, amelyek Javascripttel vannak beszúrva, mert a Javascriptet nem futtatja le).


inArchive.com

Lettországi szervereken futó, homályos hátterű és célú webarchívum, amely 2010 novembere óta készít (töredékes) másolatokat webhelyekről (jellemzően csak egyszer, vagy csak néhány évente) és országonként olyan webcímeken szolgáltatja őket egy minimalista felületen, mint például archive-de.com, archive-fr.com, archive-fi.com, vagy éppen archive-hu.com (utóbbi 2017. áprilisának végén 56.745 magyar site-ot tartalmazott és a legutolsó mentés dátuma 2016-05-03 volt). Az archív példányt csak "előfizetők" (adományozók) nézhetik meg, de a metaadatok, a mentett weboldalak listája, és gyakran az oldalakról származó nyers szövegek nyilvánosan elérhetők (ezeket a Google is leindexeli). Bár a szolgáltatás ismertetője szerint az archívum kutatási célokat szolgál, erre nem sok jel mutat, inkább a Google PageRank növelése, a keresőrendszerek megtévesztése és a bevételszerzés lehet a célja. A crawler neve "inarchive.com" és tiszteletben tartja a robots.txt-ben levő szabályozást.


INA - Les sites web média

A francia Institut National de l'Audiovisuel (kb. az ottani NAVA) média-site gyűjteménye, melyet 2009 óta építenek (kezdetben 3600 site-ot mentettek), a 2011 decemberi kötelespéldány törvénymódosítás óta megosztva a gyűjtőkört a nemzeti könyvtárral. A francia audiovizuális tartalmú webhelyeket mentik, napi gyakorisággal. A hagyományos tévé és rádió csatornák honlapjainak anyaga mellett gyűjtik az online tévé- és rádióadásokat, a hang- és videómegosztó platformokra feltöltött anyagokat, és azokat a site-okat is, amelyeket a médiatársaságok linkelnek (pl. szakmai szervezetek honlapjai, műsorújságok, sorozatok weblapjai, rajongói oldalak). 2010 végén a 1996-2009 közötti anyagot (524 millió objektum, 18 terabájt) átvették az Internet Archive-tól. Az archívum méretei 2012 elején: kb. 8722 webhely, 11.6 milliárd URL-hez tartozó fájl (ebből 34.9 millió videó- és 81.6 millió hangfájl), 1.23 petabájtnyi adat (ebből 468 terabájt a videó és 554.3 terabájt az audió, a többi pedig szöveg és kép). Egy 2012 júliusában készült jelentés szerint viszont valójában csak 150 terabájt a tényleges méret (ebből 50 az audiovizuális anyag), mert a deduplikációval és a tömörítéssel rengeteg hely megspórolható. A rendszeresen mentett webhelyek száma 2015-ben már 13 ezer körül volt. A tároláshoz egy saját, DAFF nevű csomagformátumot használnak. A hosszú távú megőrzés érdekében minden fájltípust beazonosítanak és az elavult médiafájlokat modern formátumra konvertálják. Az archívum a nemzeti könyvtárban levő INA kutatói központban érhető el, nyilvános felülete nincs.


Infiniteurl

Az Internet Archive által 2004-2007 között fejlesztett, a Heritrix tesztelésére alkalmas webapp, ami folyamatosan új URL-eket generál azon a webszerveren, amelyre feltelepítik.


Instance

Egy weboldal/webhely (target) egy konkrét példánya az archívumban, vagyis egy adott időpontban készült mentés.


International Conference on Web Archives and e-Legal Deposit : Documentary heritage on the Internet

A spanyol nemzeti könyvtárban 2013. július 9-én szervezett egynapos konferencia a webarchívumokról és a digitális dokumentumok kötelespéldány szolgáltatásáról. A rendezvény apropóját az adta, hogy küszöbön állt a spanyol kötelespéldány törvény módosítása. A résztvevők közt ott voltak az Internet Archive és az IIPC képviselői, valamint szakemberek a brit, a francia, a baszk és a katalán nemzeti könyvtárakból.


International Symposium on Web Archiving

A japán National Diet Library által szervezett egynapos rendezvény Tokióban 2002. január 30-án, ausztrál, amerikai, dán és japán előadókkal.


Internet Archaeology

Ryder Ripps konceptuális művész 2009-ben indított "webmúzeuma". Főként a 2009 októberében bezárt Geocities, ill. az Angelfire szerverein hostolt régi honlapok képanyagából (JPEG, GIF, Flash) tartalmaz válogatásokat, de van néhány kisebb tematikus összeállítása weblapokból és teljes webhelyekből is, továbbá egy több mint 10 ezer darabos MIDI hangfájl gyűjteménye.


Internet Archive

1996-ban San Francisco-ban Brewster Kahle által alapított non-profit szervezet és archívum. A főként az Alexa Internet cég által gyűjtött tartalomból álló világméretű webarchívuma (ami a Wayback Machine felületen böngészhető) mellett szöveges dokumentum- (főként digitalizált könyv és periodika), kép-, hang-, videó- és szoftver-archívuma is van (ezeket részben nagy partnerektől kapják, részben a felhasználók töltik fel). A webarchívum mérete 2017 júniusában 284 milliárd weboldal és heti 1 milliárddal gyarapodik. (2016 októberi adatok: 361 millió webhely, 273 milliárd weboldal, 510 milliárd digitális objektum, kb. 15 petabájt.) A teljes gyűjtemény, vagyis az összes médiatípus) tárhelyigénye 2017 közepén 32 petabájt (mindent legalább két példányban tárolnak). Az Archive-It nevű szolgáltatásán keresztül megbízásra is végeznek webarchiválást több mint 450 könyvtár és egyéb intézmény számára, továbbá néhány nemzeti könyvtárnak domain-szintű aratásokat is csinálnak.


Internet Archive 404 Handler

Az Internet Archive 2013-ban bevezetett szolgáltatása, mellyel a webmesterek a webhelyükön már nem létező oldalak esetében a Wayback Machine felületén elérhető archivált változathoz irányíthatják a felhasználókat. Ehhez a webhely 404-es hiba oldalának forrásába csak ennyi kell beírni:

<div id="wb404"/>
<script src="https://archive.org/web/wb404.js"> </script>

Internet Memory Foundation (korábban: The European Archive)

2004-ben alakult, amszterdami és párizsi székhelyű non-profit szervezet az internet megőrzésére. Projekteket működtet, kutatásokat és felméréseket végez, nyílt archívumokat épít/támogat, és EU-s programokban együttműködik különböző partnerintézményekkel (pl. az MTA SZTAKI-val). Az IIPC-nek is tagja.


Internet Memory Research (IMC)

Az Internet Memory Foundationból 2011-ben levált, franciaországi székhelyű üzleti vállalkozás, melynek egyik fő terméke az ArchivetheNet nevű webarchiváló platform.


ipwb (InterPlanetary Wayback)

Két Python script, melyekkel WARC fájlok oszthatók meg az IPFS (InterPlanetary File System) hálózaton. Az IPFS egy 2014 óta fejlesztett protokoll, amivel HTTP szerverek közvetítése nélkül, peer-to-peer kapcsolatokon át tárolhatók és terjeszthetők hipermédia tartalmak egyetlen elosztott fájlrendszerben (lényegében az egész egy hatalmas torrent fájl). Az ipwb/indexer.py script feldarabolja a WARC fájlokat és felküldi őket az IPFS hálóra, így biztosítva ezek biztonságos megőrzését és gyors hozzáférhetőségét. Az ipwb/replay.py pedig igény szerint visszakéri őket. Az egyik tesztelés során egy 22 ezer objektumot tartalmazó 1 gigabájtos archívumból percenként átlagosan 570 fájlt lehetett indexelni és feltölteni, és átlag 370 milliszekundum alatt lehetett visszakérni valamit.


IRODALOM


iSaveWeb

Webhely-letöltő alkalmazás iPad és iPhone mobilokra. Együttműködik a Safari böngészővel, így abból is lehet az archívumba menteni. Van ingyenes változata is iSaveWeb Lite néven, korlátozott letöltési képességekkel.


Islenska vefsafnid

Az izlandi nemzeti és egyetemi könyvtár a 2002-es kötelespéldány törvény módosítása és a 2003-as IIPC csatlakozás után 2004 októberében kezdte el az .is domain aratását (évente háromszor) és a szelektív archiválást is, melybe más domain-ek alatti webhelyek is belekerülnek (ezeket legalább hetente mentik), az 1996-2004 közötti anyagot pedig átvették az Internet Archive-ból. A Heritrix crawlert használják, a megjelenítő pedig az OpenWayback. 2012 végéig 39 ezer webhelyről 1.8 milliárd digitális objektumot gyűjtöttek be (hang- és videófájlokat is), a tárhelyigény akkor 34 terabájt volt. (Egy teljes körű aratás nyersanyaga deduplikáció és tömörítés nélkül 5 terabájt.) Az archívum nagy része 2009 óta nyilvános, kivéve az eredetileg fizetős szolgáltatásokat, illetve azokat a webhelyeket, amelyeknek a tulajdonosai nem engedélyezték a nyilvános hozzáférést.


ISO/TR 14873:2013

A webarchívumok statisztikai, fogalmi és minőségi jellemzőit meghatározó ISO szabvány.


ISO 28500:2009

A WARC fájlformátumot definiáló ISO szabvány.


IWAW (International Web Archiving Workshops)

Az éves ECDL (European Conferences on Digital Libraries) konferenciákkal együtt rendezett workshopok 2001-2010 között a webarchiválással foglalkozó szakembereknek (könyvtárosoknak, levéltárosoknak, informatikusoknak, tudományos kutatóknak és az üzleti világ képviselőinek). 2001-től 2004-ig a francia nemzeti könyvtár szervezte ezeket, majd átvette az European Archive. Az utolsó, 2010-es IWAW helyszíne Bécs volt.


Javis

Egy Crawljax plug-in, amivel a client-side hidden-web deríthető fel. A letöltött weboldalakban a Div, Span, Button, Input, A és IMG tag-eket elemzi ki és megvizsgálja, hogy van-e valamelyikben olyan rejtett link, amely megváltoztatja a DOM-ot anélkül, hogy az oldal URL címe változna.


JHOVE2

A Harvard University and JSTOR Electronic Archiving Initiative által fejlesztett, Java-ban írt open source alkalmazás és keretrendszer fájlok formátumának felismeréséhez és jellemzéséhez. Ilyen kérdésekre ad választ egy - pl. egy webarchívumban található - ismeretlen fájl esetében: Mi ez? Tényleg az-e? Mit lehet róla tudni? Mi legyen vele? A válaszok négy munkafolyamatot igényelnek:

A validation és a feature extraction műveletet ezekre a fájltípusokra tudja elvégezni: JPEG 2000, TIFF, PDF, SGML, XML, UTF-8 kódolású TEXT, ZIP, WAVE. (A korábbi JHOVE verzió még ezeket is ismerte: AIFF, GIF, HTML, JPEG, de az JHOVE2 projektben nem volt már rájuk pénzforrás.) Az identification funkció természetesen jóval több fájlformátumra működik.


JWAT (Java Web Archive Toolkit)

A dán Netarchive projektben fejlesztett open source Java könyvtár és eszközkészlet WARC, ARC és GZIP csomagok olvasásához, írásához és validálásához.


Kansalliskirjaston verkkoarkisto

A finn nemzeti könyvtár (Kansalliskirjasto) második generációs projektje az online elérhető tartalom archiválására. Az 1997-ben indult kísérleti fázis, az EVA lezárása után néhány évvel, a törvényi felhatalmazás után, 2006-ban kezdtek bele a weben levő finn kulturális örökség szisztematikus megőrzésébe. Szelektív (esemény/téma/hírforrás) és teljes körű webarchiválást is végeznek, utóbbi minden évben több tíz millió finn webhely mentését jelenti. 2015-ben a webarchívum mérete (tömörített tárolással) több mint 80 terabájt volt. Igyekeznek egy reprezentatív mintát begyűjteni, ami azt jelenti, hogy a .fi és .ax (a Finnországhoz tartozó Åland szigetcsoport) domain alatt, valamint a fizikailag az országon belül működő webszervereken túl külföldi webhelyeket is belevesznek az aratásba, ahol a gyűjtőkörbe eső tartalom van. A napilapokat és hírportálokat 2011 óta már naponta mentik. Amit nem tudnak automatikusan leszedni (mert pl. fizetős), annál segítséget kérnek a szolgáltatótól, vagy megkérik, hogy adja be ő a tartalmát.

Az archívum nem nyilvános, de keresni szabadon lehet benne URL cím, illetve teljes szöveg alapján, az archivált tartalomhoz viszont csak dedikált gépekről lehet hozzáférni (egy OpenWayback felületen) a nemzeti ill. más könyvtárakban, és néhány további intézményben (pl. az ottani NAVA-nál). Digitális másolatok helyben sem készíthetők, de saját eszközzel le lehet fotózni a képernyőt, lehet hangfelvételt készíteni, illetve kérhető nyomtatás.


KEN Web Archiving Platform

Elsősorban személyes vagy kisebb intézményi webarchiválás céljára az Aleph Archives által fejlesztett és forgalmazott rendszer Windows, Mac OSX és Linux gépekre, mellyel lementhetők és utána megnézhetők webes tartalmak. Saját, könnyen konfigurálható és ütemezhető crawlert használ és a mentéseket WARC fájlokban tárolja, időbélyeggel és digitális aláírással. A Cobalt nevű megjelenítőt építették bele, ezzel nézhető vissza az archivált tartalom, ami PDF-be is exportálható. Van továbbá egy archívum-menedzselő felület is hozzá. Fizetős szoftver, de 14 napos ingyenes próbaidőszak kérhető.


khtml2png

2005 és 2010 között fejlesztett (így már eléggé elavult), parancssorból meghívható program weboldalakról PNG formátumú képernyőfotók készítéséhez.


Khttrack

A HTTrack-hez írt régi GUI Linux-os KDE felületre. (Korábban csak a Windows-os HTTrack-nek volt grafikus felülete, Unix/Linux rendszereken csak parancsmódban lehetett használni.)


Kulturarw3

A svéd nemzeti könyvtár által - Európában elsőként - 1996-ban indított webarchiválási projekt. Az első aratás 1997 tavaszán történt a Combine Harvester egy módosított verziójával, ezt 2003-ig 10 alkalommal ismételték meg és akkorra 185 millió fájl (több mint 5.5 terabájt) gyűlt össze. A webarchívum mérete 2014-ben 1,7 milliárd objektum, kb. 72 terabájt volt. 2009 novembere és 2011 vége között szünetelt a begyűjtés. A svéd webhelyek évi 2-3-szori aratása mellett 2002 óta szelektíven is archiválnak, jelenleg 170 újságot minden nap. 2004 óta lehet hozzáférni az anyaghoz, de a copyright szabályok miatt csak a könyvtáron belüli dedikált gépekről. A jelenleg használt szoftverek: WCT, Wayback, Heritrix, Solr.


LAWA (Longitudinal Analytics of Web Archive data)

2010-ben indult 3 éves EU projekt a webarchiválással keletkező, igen nagy tömegű heterogén adat vizsgálatához szükséges infrastruktúra, jól skálázható módszerek és könnyen használható szoftverek kutatására és fejlesztésére. Az egyik részcél egy "virtuális web obszervatórium", egy tesztrendszer felállítása volt, amely az European Archive hatalmas anyagát a FIRE (Future Internet Research) projekt elosztott környezetében teszi kutathatóvá. Emellett open source szoftvereket fejlesztettek web archívumokhoz statisztikai elemzés (idődimenzió mentén is), visszakeresés, osztályozás, tárolás céljára. A projekt vezetője a német Max Planck Gesellschaft volt, a résztvevők közt az Internet Memory Foundation és a Hanzo Archives mellett ott volt a magyar SZTAKI is.


LAWAP (Latin American Web Archiving Project)

A University of Texas LANIC (Latin American Network Information Center) nevű, latin-amerikai és karibi országokkal foglalkozó információs központjának webarchiváló projektje. Az Archive-It szolgáltatással 2005 óta mentik elsősorban a kormányzati és politikai témájú webhelyeket különböző gyűjteményekbe:

A projekt keretében archivált webhelyek nyilvánosan elérhetők az Internet Archive szerverein.


LCWA (Library of Congress Web Archives)

A Library of Congress 2000-ben indított szelektív webarchiváló projektje, akkor még MINERVA (Mapping the Internet the Electronic Resources Virtual Archive) néven. Kezdetben a HTTrack-kel mentettek fontosabb webhelyeket, első lépésben csak 35-öt, majd az Internet Archive-val és egyetemi intézményekkel együttműködve a 2000-es elnökválasztási kampány alatt már 200 site-ról csináltak napi mentéseket a Heritrixszel. 2002 második félévére 1.3 terabájtnyi anyagot gyűjtöttek össze, 2005 végén 40, 2009 májusában közel 100, 2011 szeptemberében 254, 2013 májusában 420 terabájt volt az archívum mérete és 7741 webhelyet lehetett visszakeresni az akkor elkészült új felületen (2017 áprilisában ez a szám már 11,330, ebből 10,504 a nyilvánosan hozzáférhető). Igyekeznek minél hűbb mentéseket csinálni, a beágyazott médiát is mentik, és nem módosítják a HTML-kódot (csak a megjelenítéskor).

A tematikus gyűjtések mellett sokszor valamilyen eseményről készítenek kisebb-nagyobb speciális archívumokat (pl. a szeptember 11-i terrortámadás, a 2002-es téli olimpia, az iraki háború) 2012-ben 54 részarchívumuk volt, de a 2010-es Single Sites Web Archive projektjükben elkezdtek olyan webhelyeket is menteni (köztük magyarokat is), amelyek egyik részgyűjteménybe sem illettek bele. 2004 óta egy webarchiváló munkacsoport végzi a válogatást (külső szakembereket is bevonva), engedélykérést, minőségellenőrzést, a saját fejlesztésű DigiBoard keretrendszer segítségével. A Heritrix-Wayback párost használják, korábban ARC, ma már WARC fájlokba mentenek, de BagIt csomagok formájában tárolják őket. A katalogizáláshoz a cURL-t használva kigyűjtik a weboldalakból az esetleges metaadatokat, amiket azután a katalogizálók még átnéznek, javítanak és kiegészítenek a kötött szótárakból vett fogalmakkal, témakategóriákkal. A metaadatok a webhelyek esetében a MODS séma alapján XML fájlokba kerülnek (egy Lucene kereső van hozzájuk), a belőlük kialakított tematikus- vagy esemény-alapú részgyűjteményekről pedig MARC rekordok készülnek, amelyek a könyvtár központi katalógusába is bekerülnek.


LGA (Longitudinal Graph Analysis)

Két szövegfájlból álló zip csomag, amely egy webarchívumból kinyerhető összes URL címet tartalmazza (a mentés időpontjával együtt), valamint azt is, hogy mely URL címekről milyen más URL címekre vannak linkek. Az ezekből az adatokból készíthető gráf kiválóan felhasználható olyan vizualizációkhoz, amelyek a webhelyek közötti kapcsolatokat, valamint ezek időbeli változatásait mutatják.


Link hop count

A seed-től számolt linkmélység, vagyis hogy az adott URI címet a kiindulóponttól kezdve hány linket követve érte a crawler. (A seed URL-k esetében ez a szám természetesen nulla.) A link hop count fontos paraméter lehet a crawl frontier konfigurálásánál, mert gyakran csak bizonyos mélységig aratnak, hogy ne töltsön le túl nagy mennyiséget a robot.


Link rot (Reference rot)

Az interneten található információforrásokra, dokumentumokra mutató URL hivatkozások, linkek és könyvjelzők tönkremenésének jelensége, mivel idővel törlődnek, máshová kerülnek, vagy megváltoznak a mögöttük levő tartalmak. Ez a folyamat nemcsak a tudományos publikációk és az oktatási anyagok esetében okoz komoly problémát, hanem például a keresőrendszerek találati listáinál és a személyes könyvjelző-gyűjteményeknél is frusztrációt okoz. A felhasználók legtöbbször egy 404 error formájában tapasztalják ezt, amikor egy weblap nem jelenik meg, de hosszabb távon az is megtörténik, hogy egész webszerverek, domainnevek tűnnek el, vagy kerül rájuk teljesen más tartalom. A jelenség sebességére különböző mérési adatok vannak, attól függően, hogy mikor és milyen jellegű linkeket vizsgáltak: az éves linkromlásra 5-20% közötti értékeket kaptak, a felezési időt pedig 5-10 év között becsülik. Sokféle módszerrel lehet csökkenteni a problémát, pl. stabil azonosítókkal (URN, DOI, Handle, permalink stb.), a webszerveren beállított átirányításokkal, az eltűnt lapokat megkereső szoftverekkel, de az igazi megoldást az igény szerinti archiváló szolgáltatások (pl. WebCite, Perma.cc) és a hosszú távon működő webarchívumok jelentik (feltéve persze, ha elmentették az adott dokumentumot, lásd: Robust Links Tools).


Live web

A jelen időpillanatban az eredeti szolgáltató webszervereken elérhető tartalom, ellentétben a webarchívumokban levő mentésekkel, illetve pl. a keresőgépek gyorsítótáraiban (web cache), vagy a proxy szervereken levő ideiglenesen tárolt változatokkal, melyek nem feltétlenül egyeznek meg egy adott weboldal "élő" változatával, ha az időközben módosult.


Live web leakage

Az a hibajelenség, amikor az archivált weboldalakban az élő webre kimutató linkek maradnak, vagy onnan jelennek meg beágyazott tartalmak (pl. hírcsatornák, streamelt média). Olyankor fordul elő, amikor az archiváló szoftver nem tudja lokálisra átírni a scriptekben, applikációkban, videókban és egyéb fájlokban található linkeket.


LIWA (Living Web Archives)

2008-2011 között lezajlott EU-s projekt a webarchiválási eszközök új generációjának fejlesztésére, melyekkel sokféle forrásból lehet hű és hiteles másolatokat készíteni, s hosszú távon is megőrizni a megjeleníthetőségüket. Ilyen területeket kutattak: spam szűrés és trap elkerülés, időbeli koherencia megőrzése, szemantikus és terminológiai változások kezelése a visszakeresésnél, közösségi és média-gazdag tartalmak letöltése. Két minta alkalmazást is kifejlesztettek, egyet a közösségi web, egyet pedig az audiovizuális tartalom archiválása területén. A projekt vezetője a hannoveri L3S Research Center volt, a résztvevők pedig többek közt az Internet Memory Foundation, a Max Planck Institut for Computer Science, a Hanzo Archives, a cseh nemzeti könyvtár, és Magyarország részéről a SZTAKI.


LoC Twitter Archive

A Library of Congress 2010-ben megállapodott a Twitterrel az összes nyilvános tweet archiválásáról. A legfeljebb 140 karakterből álló rövid webes üzeneteket 2006 márciusáig (ekkor indult a Twitter) visszamenőleg is megkapta a könyvtár, előremenetben pedig folyamatosan átveszi az újakat. A LoC hat hónapos embargót vállalt és azt, hogy a törölt vagy priváttá tett tweet-eket nem szolgáltatja. A szerződés megkötésekor a napi gyarapodás elérte az 50 milliót, de ez az átlagérték 2014-re megtízszereződött. 2013 elején a LOC kiadott egy tájékoztatást a projekt állásáról. Eszerint a 2006-2010 közötti, 170 milliárd tételes archív állomány mérete 133,2 terabájt lett (nemcsak az üzenetek szövegét, hanem a bennük levő linkeket és több mint 100-féle metaadatot is tárolni kell), s megoldották a bejövő, "élő" üzenetfolyam biztonságos és fenntartható fogadását és őrzését is a Gnip nevű - a közösségi médiából származó adatok aggregálásával foglalkozó - vállalaton keresztül (melyet 2014-ben a Twitter felvásárolt). Közölték azt is, hogy további magáncégek bevonására lesz szükség a technikai és infrastrukturális problémák kezeléséhez, melyek miatt egyelőre nem tudnak hozzáférést biztosítani az archívumhoz (mert pl. egyetlen keresés lefuttatása egy napig tart). 2014 közepére ígértek egy kísérleti szolgáltatást, de az azóta sem készült el, a technikai és jogi kérdések megoldatlansága miatt továbbra is elérhetetlen a LoC Twitter archívuma.


Lucene

Lásd: Solr


MAFF (Mozilla Archive Format) fájlformátum

A "Mozilla Archive Format" nevű Firefox kiegészítő telepítése után használható nyílt formátum weblapoknak és azok elemeinek (kép, média, CSS stb. fájloknak) egy ZIP csomagba mentésére (időbélyeggel együtt) pl. archiválási célból. (Ez a kiegészítő egyébként MHTML formátumba is tud menteni, illetve meg tudja nyitni az így elmentett weboldalakat, valamint konvertálni is tud a MAFF és az MHTML között.)


Magyar nyelvű szakirodalom


Malware

Mindenféle kártékony vagy legalábbis zavaró tevékenységet (is) folytató szoftver, illetve programkód (pl. vírus, zsaroló vírus, féreg, trójai, adathalász, kémprogram, agresszív reklám, cookie nyomkövető).

Mivel ilyenek a webről archivált dokumentumokban is előfordulhatnak, a webarchívumoknak ki kell alakítaniuk egy erre vonatkozó gyakorlatot, figyelembe véve egyrészt azt, hogy az ellenőrző programok túl vannak biztosítva, így olyankor is beriaszthatnak, amikor nincs valós fenyegetés a kódban (false positive), valamint azt is, hogy a malware jelenléte egy weboldalban vagy egyéb dokumentumban szintén megőrzendő információ lehet (pl. a vírusok történetét és terjedését kutatók számára), ugyanakkor kárt okozhatnak az archívum óvatlan használóinak. A fertőzött vagy annak látszó fájlok törlése viszont mindenképpen a megőrzendő tartalom teljességének rovására megy.

A Google biztosít egy ingyenes szolgáltatást és hozzá egy API-t, amivel leellenőrizhető, hogy a megadott URL címen levő weboldal biztonságos-e.


Maria

A lengyel Strawbits cég által 2010-2011 között fejlesztett, a wget-re épülő, egyszerű webhely-letöltő alkalmazás Mac OS X rendszerre. A HTTP és HTTPS protokollok mellett az FTP-t is támogatja, és felhasználói azonosítást igénylő szerverekre is be tud lépni. A letöltendő URL címek egy txt fájlban is megadhatók.


mcurl

Parancssoros Memento kliens, mellyel lekérhetők (pontos vagy körülbelüli dátumot is megadva) a webarchívumokból egy adott URL cím archivált példányainak adatai.


MediaWiki Memento Extension

Az Old Dominion University és a Los Alamos National Laboratory által a Memento Project keretében fejlesztett kiterjesztés a Wikipédiához is használt népszerű MediaWiki rendszerhez, mellyel a felhasználó úgy navigálhat a wiki szócikkek között, ahogy azok egy általa megadott időpontban kinéztek.


Memento

Egy internetes forrás (pl. weboldal) korábbi, elmentett verziói. A Memento Project-nek köszönhetően a világ különböző webarchívumaiban levő mementok együttesen előkereshetők és visszanézhetők. Erre a célra böngészőkiegészítők, bookmarkletek és online szolgáltatások is léteznek.


Memento Project

A Los Alamos National Laboratory és az Old Dominion University által vezetett (de a Library of Congress által is támogatott) projekt a HTTP protokoll "content negotiation" funkciójának kibővítésére egy Accept-Datetime elemmel. Ennek segítségével a webböngésző kliensek le tudják kérni egy adott URL cím adott időpontbeli (vagy ahhoz legközelebb eső) állapotát (egy ún. "memento"-t) valamelyik webarchívumból, egy TimeGate szerver közvetítésével. Az új funkciót az RFC 7089 dokumentum írja le. A projekt honlapján pedig elérhetők a szükséges kliens- és szerveroldali kiegészítő szoftverek.


Memento TimeGate

A Memento Project keretében kidolgozott "datetime negotiation" protokollbővítést kihasználó szerveroldali kiegészítő, amivel egy HTTP szerver képessé tehető időpontot is tartalmazó kérések kiszolgálására, vagyis el tudja küldeni a kliensnek a kért weblap adott időpontbeli (vagy ahhoz legközelebbi) mentett változatát is, legyen az a saját szerveren vagy pl. egy webarchívumban.


Memento TimeMap

Memento-k adatainak géppel olvasható, az archiválási időpont szerint rendezett listája, mely vagy egy, vagy több (közösen lekérdezett) webarchívumból származik.


MemoryBot

Az Internet Memory Foundation egyik leágazásaként létrejött Internet Memory Research által használt crawler. 2015-ben néhány kisebb szerverről indítva 4 hét alatt 2 milliárdnál több forrást talált, több mint 60 millió domain címen (ez kb. akkor a világon aktív domainek fele lehetett).


Metadata Extraction Tool

A National Library of New Zealand által 2003 óta fejlesztett open source Java program metaadatok XML-be való kigyűjtésére különböző formátumú fájlokból (pl. Office dokumentumok, BMP, GIF, JPEG, TIFF, WAV, MP3, FLAC, HTML, XML, ARC, WARC).


MetaProducts Inquiry

A MetaProducts cég terméke régebbi Windowsokra, amely önállóan vagy az Internet Explorerrel integrálva (vagy más böngészők jobb egérgombos context menüjébe beépülve) használható az éppen nézett weboldal, vagy annak egyes részeinek - akár a belinkelt fájlokkal együtt való - lementésére. A mentések menedzselhetők, kereshetők, kommentelhetők, szerkeszthetők, összefűzhetők, különféle formátumokba (pl. MHTML, CHM, Word, önálló EXE) konvertálhatók, sőt a Professional Edition nevű verzióban szabványos hivatkozások is készíthetők hozzájuk és egyszerre kinyomtathatók. AutoSave módba kapcsolva folyamatosan menti a megnézett oldalakat.


METS (Metadata Encoding and Transmission Standard)

A Library of Congress és a Digital Library Federation által felügyelt nyílt szabvány a digitális objektumok leíró, technikai, adminisztrációs és szerkezeti metaadatainak XML formátumban való tárolására. Nagy előnye, hogy rugalmasan módosítható, bővíthető a legkülönbözőbb gyűjtemények és dokumentumtípusok jellemzőihez, és hogy a szerkezeti metaadatoknál az összetartozó fájlok közötti kapcsolatok, sorrendek és hierarchiák is leírhatók vele. Egy METS fájl max. hét szakaszból állhat: a header után a leíró és a adminisztrációs metaadatok jönnek, majd a fájl lista (ha több fájlból áll a digitális dokumentum), ezt követi a szerkezetet leíró "térkép", majd pedig ezen "térkép" egyes csomópontjai közötti hiperlinkek (különösen hasznos lehetőség archivált webhelyek leírásához!), végül pedig lehet egy "behavioral" szekció, ahol megadhatók pl. a digitális objektum megjelenítése vagy konvertálása esetén szükséges alkalmazások, futtatandó programok. Az elterjedt dokumentumtípusokhoz (pl. könyvek, fotók, kották, hang- és videófeltételek) általánosan használt, "kvázi szabványnak" tekinthető METS profilok léteznek. Több webarchívumban is használják már a METS-t az archiválási és a megőrzési folyamat egyes fázisaiban keletkező metaadatokhoz.


MHTML (MIME HTML) fájlformátum

Egy weboldal HTML kódjának és a hozzá tartozó (pl. kép, Flash, CSS) fájloknak egyetlen csomagban való tárolására szolgáló nyílt formátum. A felépítése olyan, mint egy HTML formátumú (MIME típus: multipart/related) e-mail üzeneté (sőt az .mht kiterjesztéstől eltekintve teljesen megegyezik a levelezőprogramokból való mentéskor használt .eml formátummal): fejléc, a HTML kód, és a többi fájl (eredeti URL címeikkel együtt) BASE64 kódolással. Az MHTML-t több böngésző is támogatja, de mivel nem teljesen szabványosított, ezért vannak eltérések a mentéskor és a megjelenítéskor. Először az Internet Explorer 5.0-ás változatában jelent meg, az Opera a 9.0 verzió óta ismeri. A Chrome-ban be kell kapcsolni a chrome://flags oldalon a "Save Page as MHTML" opciót, a Firefox-hoz kiegészítőt kell telepíteni hozzá. Léteznek önálló MHTML megjelenítők és konvertálók is, és néhány HTML szerkesztő szoftver is támogatja.


Micro archiving

Internetes tartalmak egy adott célra történő, kis volumenű, általában nem hosszú távú megőrzésre szánt archiválása, tipikusan egyes emberek vagy munkacsoportok által.


MINERVA

Lásd: LCWA


Mink

Ingyenes kiegészítő a Chrome böngészőhöz, amivel a Memento Project által bevezetett HTTP protokoll-bővítés segítségével a felhasználó látja, hogy az éppen nézett weboldalnak hány mentése van a különböző webarchívumokban és böngészni is tudja ezeket. Ha nincs még belőle mentés sehol, akkor a Mink segítségével a felhasználó kezdeményezheti az oldal mentését az Internet Archive vagy az Archive.today archívumaiba. Androidos alkalmazás is létezik belőle Mobile Mink (vagy MobileMemento) néven.


MirrorWeb

Manchesteri székhelyű, honlapok és közösségi csatornák archiválásával foglalkozó angol cég. Elsősorban olyan intézményeknek szolgáltat, amelyeknek törvényi kötelességük (hiteles másolatban) megőrizniük legalább 5 évig minden kommunikációjukat - beleértve az internetes felületeken zajlókat is. Napi mentéseket is tudnak csinálni, melyek szinte azonnal visszanézhetők, kereshetők, menedzselhetők egy kezelőfelületen át. Az archív fájlokat digitális aláírással és időbélyeggel látják el. Változásfigyelő szolgáltatásuk is van, ami értesítést küld, ha a megfigyelt webhelyen módosítás történik.


MobileMemento

Lásd: Mink


MODS (Metadata Object Description Schema)

A Library of Congress által 2002 óta fejlesztett XML-alapú metaadatséma bibliográfiai leírásokhoz. A MARC bonyolultsága ill. részletessége és a DC túlzott egyszerűsége közötti köztes megoldás, amely a MARC-ból is átvett adatelemeket (de számkódok helyett szöveges neveket rendelt hozzájuk). Főként digitális könyvtárakban használják, de webarchívumok esetében is előfordul, hogy a MODS-t választották a lementett webes források leírására, mert a DC elemkészlete túl kevésnek bizonyult.


mod_oai

Az amerikai Old Dominion University munkatársai által fejlesztett modul az Apache webszerverhez, amivel a digitális könyvtáraknál már elterjedt OAI-PMH protokoll szerint lehet lekérdezni az új, a módosult és a törölt weboldalak metaadatait, így a webhely egyszerűbben archiválható.


Mummify It

2013-ban indult, de egy év után meg is szűnt on-demand weboldal archiváló szolgáltatás, amely az Amazon felhőtárhelyére mentette a felhasználók által megadott URL címeken levő oldalakat és egy olyan URI azonosítót adott vissza (pl. https://www.mummify.it/B7H7CC27), ami mindaddig az élő weblapra mutatott, amíg az nem változott meg vagy nem tűnt el, utána pedig az archív példányra. A szolgáltatás havi 100 címig ingyenes volt.


Nanite

A DROID és az Apache Tika programokra épülő open source eszköz, amellyel igen nagy méretű webarchívumokban lehet hatékonyan elvégezni a fájlok típusának és technikai jellemzőinek beazonosítását.


NARA Web Harvests

A National Archives and Records Administration (Egyesült Államok nemzeti levéltára) által gondozott webarchívum, mely az Internet Archive segítségével begyűjtött kormányzati és kongresszusi honlapokat tartalmazza 2004-ig visszamenőleg. (De már 2001 januárjában is csináltak egy egyszeri mentést a Clinton adminisztráció időszakának végén.) 2015 elején 11 terabájt (80 milló fájl) volt a gyűjtemény.


NAS workshop

A NetarchiveSuite keretrendszert használók 1-2 évente tartott rendezvénye. 2017-ben az osztrák nemzeti könyvtárban volt április 26. és 28. között.


National Digital Stewardship Alliance

Lásd: NDIIPP


NCollector Studio

Windowsra fejlesztett shareware offline browser és crawlerrel kombinált fájl-letöltő szoftver (csökkentett változata 30 napig ingyen kipróbálható). Mirror módja is van, ilyenkor lokalizálás nélkül az eredeti site szerkezetét megőrizve ment, továbbá keresőgépek találati listájából is tud képeket gyűjteni. A konfigurálást egy wizard segíti, a beállítások .wrp projektfájlokba menthetők és újrafuttathatók. Parancsmódban is fut, így a Windows feladatüzemezőjével is indíthatók az aratások.


NDIIPP (National Digital Information Infrastructure and Preservation Program)

Az amerikai kongresszus által 2000-ben alapított program, melyet a Library of Congress irányít - egy országos szintű együttműködés keretében - a digitális információforrások megőrzése érdekében. 2010 júliusában a LoC létrehozta a National Digital Stewardship Alliance (NDSA) nevű partnerségi programot is, hogy még több intézményt (pl. egyetemeket, vállalatokat, kormányhivatalokat) tudjon bevonni a közös munkába. (Ennek a szervezetnek 2016-tól a Digital Library Federation ad otthont.) Az együttműködések keretében közös szabványokat és jó gyakorlatokat alakítanak ki, válogatják a megőrzésre érdemes digitális tartalmakat és elteszik őket valamelyik nemzeti gyűjteménybe, valamint közös projekteket - köztük webarchiválási tevékenységeket (pl. Web-at-Risk) - indítanak.


NEDLIB (Networked European Deposit Library)

A Conference of European National Libraries által kezdeményezett, nyolc (francia, norvég, finn, német, portugál, svájci, olasz, valamint a projektvezető holland) nemzeti könyvtár részvételével 1998-2000 között lezajlott projekt. A célja egy európai könyvtári infrastruktúra megalapozása volt az online és offline digitális anyagok begyűjtése és hosszú távú megőrzése céljából. Egy, az OAIS elvekre épülő DSEP (Deposit System for Electronic Publications) rendszer szabványos elemeinek kidolgozását tűzték ki célul. A végül ténylegesen ki is fejlesztett szoftvermodulok közül a legsikeresebb a finn kezdeményezésre készült NEDLIB Harvester nevű crawler lett, melyet az NWA projekt résztvevői mellett pl. a cseh nemzeti könyvtár is használt 2004-ig webaratásra.


NEDLIB Harvester

A NEDLIB projekt keretében 2000-2002-ben a finn EVA, illetve a skandináv NWA archívumokhoz kifejlesztett (de pl. a csehek, az izlandiak és az észtek által is használt) open source crawler. A metaadatokat MySQL tárolja, a begyűjtött fájlokat pedig TAR+ZIP csomagokban. Feladatát ma már mindenhol a fejlettebb Heritrix vette át.


NetarchiveSuite (NAS)

2005-ben két nagy dániai könyvtár által elkezdett, majd később más nemzeti könyvtárak (pl. az osztrák és a francia) által is támogatott szabad szoftver: a Heritrix crawler köré épített Java-alapú webarchiváló keretrendszer Linuxra. Jól skálázható, így egyaránt alkalmas szelektív, tematikus és domain-szintű archiválásra.


Netarchive.dk (Netarkivet.dk)

A dán weben található dokumentumok könyvtári archiválása 1998-ban kezdődött, de akkor még csak egyedi mentésekkel. A Netarchive.dk projekt 2001-ben indult, ezzel csatlakozott Dánia a skandináv NWA-hoz. A pilot fázisban a The Royal Library, a State and University Library, Aarhus és a Centre for Internet Research működött együtt a Danish Electronic Research Library pénzügyi támogatásával. 2001 nyarán csinálták az első tömeges aratást a NEDLIB Harvesterrel, ez 1,9 millió dokumentumot eredményezett, ami 43 gigabájtnyi (tömörítetlen) adatot jelentett. 2005-ben a kötelespéldány törvény felhatalmazta a nemzeti könyvtárat az internet dán részének megőrzésére (sőt a robots.txt korlátozások megkerülésére is). 2007-re elkészültek a NetarchiveSuite keretrendszerrel és áttértek a Heritrix aratógépre. 2008-ban 450.000 eurós költségvetéssel két könyvtárból 15 ember dolgozott az archívumon, és eddigre már hat teljes aratásból 61 terabájt, 80 webhely szelektív mentéséből 9.5 terabájt, kilenc esemény (pl. választások) archiválásából pedig 5,6 terabájt gyűlt össze. A 750 ezer .dk végződésűn kívül felderítettek 42 ezer további dán webhelyet is (pl. a kifelé mutató linkek elemzésével, vagy dán szavakra és településnevekre való Google keresésekkel). Egy teljes aratás akkoriban kb. 80 napot igényelt (8 gépről) és 20 terabájtot eredményezett (ennek 30%-át meg lehetett spórolni a deduplikációval). 2015 novemberében a teljes Netarchive mérete 654 terabájt volt és a deduplikáció aratásonként már 50-70%-os megtakarítást eredményezett.

Jelenleg évi négyszer mentik a teljes dán webteret (100 Mbájtra és max. 25 szintnyi mélységre korlátozva az egy domainról begyűjtött tartalmat, néhány fontos webhely kivételével). 2016 nyarán így 242 millió objektumot, 11,2 terabájtot mentettek le (ugyanakkor a teljes .dk domain méretét 542 terabájtra becsülik - a multimédia tartalommal együtt). A főbb hírportálokat akár naponta hatszor is mentik. Ha valami rendkívüli esemény van, akkor előre konfigurált aratást tudnak indítani egyetlen kattintással, hogy ne maradjanak le a legelejéről sem. Már 20 ember (IT mérnök, informatikus és webkurátor) foglalkozik a webarchívummal, ez 4,5 főállású alkalmazott munkaidejének felel meg. Az archívum csak kutatóknak (PhD vagy doktori fokozattal) és az eredeti tartalomgazdáknak hozzáférhető, a benne levő személyes adatok védelme miatt. Böngészni (az OpenWayback megjelenítővel) és szövegesen keresni (Netsearch/Blacklight) egyaránt lehet benne.


Netarkivet screen-recorder

2012-2014-ben eredetileg a dán Netarchive számára kifejlesztett open source Java program, amivel időzítve lehet adott URL címről videofelvételt készíteni (pl. élő stream-et rögzíteni), és még arra is képes, hogy a felvétel előtt "rákattintson" valamire a weboldalon, vagy beírjon valamit egy input mezőbe (pl. bejelentkezzen).


Netlab

A Danish Digital Humanities Lab és az Aarhus University Centre for Internet Studies projektje, amely a Netarchive.dk hasznosításával, az archívumra épülő kutatási infrastruktúra létrehozásával foglalkozik. 2017-ben egy távoktatási kurzust is indítottak a témában.


NetLab Workshops

A dán NetLab projekt keretében 2015 óta néhány havonta rendezett workshop-sorozat a webes források megőrzése és a webarchívumok kutatási célú hasznosítása témájában.


Nettarkivet Norge

Lásd: Paradigma (norvég)


NetTrack

Az amszterdami székhelyű Capsis cég webarchiváló szolgáltatása elsősorban cégeknek és kormányzati szerveknek. 2004 óta foglalkoznak a témával és Presurf néven egy kész rendszert is árulnak. A NetTrack Control nevű előfizetéssel korlátlan számú webhely archiválható, az olcsóbb és egyszerűbb NetTrack Easy változat pedig elsősorban a saját honlap mentésére szolgál 100 gigabájtig. Lokális másolat is készíthető a felhőtárhelyen levő archívumról, ami azután a Presurf rendszerrel kezelhető. Teljes szövegű keresést és digitális aláírással való hitelesítést is nyújt a szolgáltatás.


New Zealand Web Archive

A National Library of New Zealand 1999-ben kezdett el szelektíven webhelyeket archiválni, 2005-től pedig már üzemszerűen végzik ezt. Mindenféle témát gyűjtenek a közélettől a sportig, valamint eseményekhez kapcsolódóan is mentenek webes tartalmakat. A felhasználók is javasolhatnak Új-Zélanddal foglalkozó honlapokat vagy blogokat megőrzésre. Az .nz domain aratásával 2008-ban próbálkoztak először az Internet Archive segítségével (2010 elején 3 terabájt volt ez az anyag). A Heritrixt és az új-zélandi fejlesztésű WCT-t használják, és utóbbit összekötötték az Ex Libris cég Rosetta nevű, digitális megőrzésre szolgáló szoftverével, így az archivált webhelyek is abba kerülnek a többi digitális tartalommal együtt. (A PREMIS elveket követve és a METS metaadat sémát használva.) Az archívum nyilvános, de csak a könyvtári OPAC-ban ill. a discovery tool-lal találhatók meg egyes lementett webhelyek, nincs saját kereső és böngésző felület hozzá.


NIFC (Nalanda iVia Focused Crawler)

A Data Fountains szoftvercsomag részét képező focused crawler, melyet eredetileg az Indian Institute of Technology (Bombay) egyik munkatársa fejlesztett. Öntanuló algoritmusa segítségével képes a seed listában megadott weboldalakhoz hasonlóakat találni az azokban levő linkek elemzésével (és a PageRank értéket is figyelembe veszi a leginkább releváns források kiválogatásánál).


NLI Web archive

A National Library of Ireland 2007-ben rendelt meg az Internet Archive-tól egy teljes aratást az .ie domainről, de végül jogi okok miatt nem tudtak belőle szolgáltatást csinálni, egyelőre csak őrzik a WARC fájlokat és remélik, hogy legalább helyben hozzáférést adhatnak majd ehhez az anyaghoz. 2011 óta, az Internet Memory Foundation segítségével végzik az ír vonatkozású szelektív webhelyek mentését és nyilvános szolgáltatását. A honlapok mellett Twitter és YoutTube csatornákat is mentenek és tervezik Facebook, Instagram és más közösségi tartalmak archiválását is. 2016-ban, az 1916-os Húsvéti felkelés századik évfordulóján egy akciót is meghirdettek "Remembering 1916, Recording 2016" címmel, hogy összegyűjtsék az 1916-ra emlékező, illetve a 2016-os Írországot legjobban bemutató honlapokat. 2017 áprilisában az NLI webarchívum mérete 3,8 terabájt volt.


Nomination

Archiválásra javasolt webhely. (A javaslat érkezhet például egy konzorciumi partnertől, az intézmény munkatársaitól, vagy akár magánemberektől is.)


NTUWAS (National Taiwan University Web Archiving System)

A National Taiwan University Library 2006-ban indult projektje. A HTTrack-kel mentenek szelektíven webhelyeket ill. weblapokat tíz nagy témakörben (pl. felsőoktatás, kormányzat, kultúra, gazdaság, események). A szolgáltatás 2008 áprilisában kezdődött. 2017 tavaszán már 9595 site volt visszakereshető a nyilvános felületen, ami saját fejlesztés, látványos megoldásokkal (pl. időskálára és térképre vetítések). Az adminisztrátori keretrendszert is maguk fejlesztették, mellyel a mentési folyamat menedzselhető és ütemezhető.


NutchWAX (Nutch Web Archive eXtensions)

Az NWA, az Internet Archive és az IIPC által támogatott, Java-ban írt szabad szoftver ARC/WARC fájlok szöveges tartalmának Lucene-típusú indexelésére és visszakeresésére.


NWA (Nordic Web Archive)

A skandináv országok nemzeti könyvtárai által 2000 szeptemberében indított webarchiválási projekt, amelynek első szakasza 2002 júniusában zárult, a NWAII nevű második fázisa pedig 2002-2004 között tartott. (Előzménye a svéd Royal Library első európai webarchívuma: a Kulturarw3 körül 1997-ben szerveződő, a svédek mellett dán, finn, izlandi és norvég tagokból álló szakmai fórum volt.) Az egyes országok webtereinek kísérleti jellegű archiválása mellett több nyílt forráskódú eszközt is kifejlesztettek NWA Toolset néven (részben az Internet Archive-val közösen), melyeket átadtak más országoknak (pl. Csehország, Észtország) és az IIPC-nek is. Előbb a NEDLIB harvesterrel kísérleteztek, majd áttértek a Heritrix crawler-re. Az archívumban a Wayback Machine-hoz hasonló, WERA nevű eszközzel lehetett keresni URL cím vagy teljes szöveg alapján (utóbbit a NutchWAX szoftverrel).


NWA Toolset

A skandináv NWA projekt keretében 2000 végétől 2004-ig fejlesztett open source szoftvercsomag a webarchívumokban való kereséshez és böngészéshez. Négy fő komponense van: Retriever (kiszedi a fájlokat és metaadataikat az archívumból), Exporter (indexelhető XML-re alakítja őket a kereső számára), Search Engine (ez végzi a keresést, Lucene is lehet), Access Module (felhasználói felület kereséshez, böngészéshez és navigáláshoz). A szoftverek PHP, Perl és Java nyelven íródtak.


OAIS (Open Archival Information System)

A CCSDS (Consultative Committee for Space Data Systems) munkacsoport által eredetileg űrkutatási adatok megőrzésére kidolgozott, de ma már sokféle digitális archívumnál, elektronikus könyvtárnál is alkalmazott elméleti modell. Először 2002-ben szabványosították, az átdolgozott második változata 2012-ben lépett életbe. Egy olyan keretrendszert ír le, amely lefed minden feladatot, amivel egy hosszú távra tervezett archívum esetében foglalkozni kell. Csak elveket fogalmaz meg, semmilyen konkrét technológiához nem kötődik.

Az információs modell része ilyen elemeket különböztet meg:

A referencia modell ezeket az információs csomagokat definiálja:

A funkcionális modell főbb komponensei:

Ezek az elvek, elemek és funkciók jól alkalmazhatók a webarchívumok esetében is, több ilyen projekt (pl. PANDORA, NEDLIB) kifejezetten az OAIS-t vette alapul a rendszere kialakításánál, és a legtöbb digitális megőrzésre kidolgozott szoftver is már erre épül.


OASIS (Online Archiving & Searching Internet Sources)

A dél-koreai nemzeti könyvtár 2001-ben kezdett el a webes dokumentumokkal foglalkozni, csináltak is egy demó rendszert ezek gyűjtésére és megőrzésére. Utána különböző felméréseket végeztek és munkacsoportokat alakítottak, hogy szervezettebbé tegyék ezt a tevékenységet és 2004-ben már egy teszt gyűjteményt is kialakítottak. 2005-ben egy szavazás eredményeképpen kapta a webarchívum az OASIS nevet, melynek a rendszerét ebben az évben továbbfejlesztették, és 2005 februárjában a nyilvános szolgáltatása is elindult. Kezdetben a WebBee nevű crawlert használták (amit egy szoftvercéggel közösen fejlesztett a könyvtár). 2011-től áttértek a Heritrixre és 2016-ban megpróbálkoztak az első tömeges aratással is. A kereséshez a Solrt, a megjelenítéshez a Waybacket használják, a metaadatokat pedig a MODS séma szerint írják le. Szelektíven mentenek webhelyeket és egyedi dokumentumokat egyaránt, tematikus és esemény-alapú (pl. választások, olimpiák, katasztrófák, nemzetközi konferenciák) gyűjtéseket is végeznek. 2010-ig 21 ezer webhelyet és 246 ezer önálló dokumentumot archiváltak, ezek száma 2016-ra 225 ezerre ill. 898 ezerre nőtt. Újabban igyekeznek a multimédia és a webkettes tartalmakat is gyűjteni.


OCLC WAM (OCLC Research Library Partnership Web Archiving Metadata Working Group)

2016 elején az OCLC könyvtárak szakembereiből létrehozott munkacsoport, azzal a céllal, hogy felmérjék az archivált webtartalmak metaadatolásának jelenlegi helyzetét és ajánlást készítsenek a legjobb gyakorlatra.


Offline browser

Olyan szoftver (böngészőbe beépülő modul vagy önálló böngésző), amellyel weboldalak vagy webhelyek menthetők le későbbi, internet kapcsolat nélküli böngészés céljából (pl. bemutatókhoz, oktatáshoz, vagy utazás közbeni olvasáshoz). Általában az archívum menedzseléséhez és kereséséhez is vannak benne funkciók. Mivel a mentés a böngészőn keresztül történik, ezért "élethűbb" mentések készíthetők vele, mint egy crawlerrel, és a jelszóval vagy másként védett weboldalak/webhelyek mentése sem jelent akadályt, mert ha a felhasználónak van hozzáférése, akkor a böngészőben be tud jelentkezni a letöltés elindítása előtt.


Offline Browser (Gashaw Mola)

Hirdetéseket tartalmazó, de ingyenes offline browser Androidos készülékekre. Bejelentkezés után jelszóval védett tartalmak is letölthetők vele. Külső böngészőből is indítható a "megosztás" gombbal. A mentés mélysége, a követett linkek száma, a képek letöltése konfigurálható, és ezek a beállítások később is változtathatók. Az archivált tartalmak frissíthetők, akár automatikusan is. Videókat nem tud elmenteni.


Offline Browser (Nikodroid)

Ingyenes (de hirdetéseket tartalmazó) offline browser Androidra. Másik böngészőből is indítható a "megosztás" gomb megnyomása után, illetve beállítható, hogy ő milyen user-agentként azonosítsa magát (Firefox, Internet Explorer, iPhone, iPad). A letöltésnél csak néhány dolog paraméterezhető (pl. maximális mélység és linkek száma, adott stringet tartalmazó linkek követése, képek és videók letöltése). A mentéseket tudja frissíteni egyenként vagy egyszerre is. Bejelentkezést igénylő site-okon nem használható.


Offline Explorer

A MetaProducts Systems cég által 1997 óta mind a mai napig fejlesztett fizetős webhely-letöltő szoftver Windows-ra. Közösségi site-ok mentésére is alkalmas, sőt az FTP és a torrent protokollt is támogatja. Ki tudja nyerni a linkeket a Javascriptekből és a Visual Basic scriptekből, valamint a Java, a Flash, az XML/XSL/DTD, a PDF és más egyéb formátumú fájlokból is. A mentések részletesen paraméterezhetők és ütemezhetők, az egyes projektek beállításai eltárolhatók és akár parancsmódból is újrafuttathatók. Telepítést nem igénylő változata is van Portable Offline Browser néven.


Offline Pages

A redmondi székhelyű Codium Labs által 2010 óta terjesztett fizetős offline browser iOS (iPad és iPhone), ill. Mac OS X rendszerű eszközökre. Nagy méretű (akár 50 ezer oldalas) HTML5 website-okat is le tud tölteni (a hátterben futva is) nagy pontossággal, mindenféle fájltípust megőrizve és megjelenítve a saját böngészőjével. A crawler "intelligens módban" is futtatható, ami azt jelenti, hogy csak a fő szövegben levő linkeket követi, a menüket, navigációs elemeket, reklámokat stb. nem. Jelszóval védett területek is menthetők vele és az eszköz saját titkosítását használva ezek továbbra is védettek maradnak (jó megoldás olyankor, amikor csak nyílt, nem biztonságos internet kapcsolat áll rendelkezésre, pl. egy konferencián). A mentések mappákba rendezhetők és címkézhetők a visszakeresés megkönnyítése céljából.


oldweb.today

A Rhizome szervezet által 2015-ben indított szolgáltatás, amellyel visszanézhetők egy webhely különböző webarchívumokban tárolt verziói régi böngészők (pl. Mosaic, Netscape, Internet Explorer) emulációival. Így a felhasználó úgy láthatja a weboldalakat, ahogy azokat a korabeli browserek mutatták.


Ondarenet (baszk)

2007-ben a baszk kormányzat és annak EJIE (Eusko Jaurlaritzaren Informatika Elkartea) nevű informatikai szerve által indított webarchiválási projekt. Az IIPC szoftvereit használják: Heritrix, NutchWAX, WCT és Wayback. Az archiválásra válogatott webhelyeket 12 fő témakörbe sorolják, melyeket a kormány könyvtári szolgálata definiált (pl. baszk nyelv, művészet, tudomány és technika, oktatás és kutatás). Egy 2006-os és 2007-es törvénycikk alapján kezdték el az internetes tartalmak gyűjtését és szolgáltatását, de az eredeti tartalomgazdák utólag levetethetik a webhelyüket a nyilvános felületről. (Bár 2017 tavaszán egyáltalán nem működött a megjelenítő szerver, csak keresni lehetett.)


OOcities

Az 1994-ben indult GeoCities.com az első ingyenes webhosting szolgáltatás volt és az évek során több millió honlapot hoztak rajta létre a használói. 1999-ben a Yahoo! megvette, majd 2009-ben bezárta. A bezárás előtt több kezdeményezés is volt a tartalom megmentésére, ezek egyike az önkéntesek által létrehozott OoCities.com szerver, amire az utolsó napokban, 2009. október 20. és 27. között kb. 2 millió weboldalt lemásoltak. Igyekeztek a fontosabbakat archiválni, pl. amelyekre volt hivatkozás a Wikipédiából.

Egyéb GeoCities mentések: GeoCities.ws, ReoCities, Geociti.es (már megszűnt), Internet Archaeology. Továbbá az Internet Archive is sok site-ot megőrzött, valamint az Archive Team a bezárás után egy évvel egy 641 gigabájtos tömörített torrent fájlt tett közzé a GeoCities anyagából, amit 2011 áprilisában még kiegészítettek.


OpenGovData Russia Archives

Az OpenGovData.ru egy non-profit magánkezdeményezés az orosz kormányzati adathalmazok "open data" formában való közzétételére. 2010 óta webarchiválással is foglalkoznak, 2012 márciusáig 37 kormányzati honlapot mentettek le a HTTrack-kel, de már a Heritrix, Wayback párossal is kísérleteznek és saját fejlesztéseik vannak a közösségi oldalak (pl. Twitter, YouTube) mentésére. 2017 áprilisában 115 website-ot tartalmazott a gyűjtemény, 39 gigabájt méretben (tömörítve). Szolgáltatást még nem tudtak építeni rá, de kérésre hozzáférhetővé teszik az adott mentést. Egyes webhelyeket inkább adatbázissá konvertálnak, hogy könnyebben kutathatók, elemezhetők legyenek. A jövőben szeretnének áttérni a WARC fájlokban való tárolásra, megoldani minél többféle webkettes tartalom mentését, és hozzáférést ill. API-t adni a gyűjteményhez.


OpenWayback

Lásd: Wayback


Opt-out

Azon lehetőség, amivel természetes vagy jogi személyek kivetethetik magukat egy szolgáltatásból vagy nyilvántartásból (pl. nem kérnek reklámanyagokat). Ezt a megoldást használják azok a webarchívumok is, amelyek előzetesen kért egyedi engedélyek nélkül archiválnak. Az ilyen szolgáltatásoknál rendszerint van néhány mód arra, hogy az eredeti tartalomszolgáltató vagy a szerzői jog tulajdonosa eltávolíthassa az archívumból az anyagát, illetve hogy megakadályozhassa, hogy az oda bekerüljön (pl. a robots.txt segítségével).


OutWit Hub

2010 óta fejlesztett program, mellyel különböző tartalmakat (pl. linkeket, e-mail címeket, képeket, RSS feed-eket, táblázatokat, szövegeket) lehet kivonatolni weboldalakból. Ezek azután részben táblázatos formátumokban (pl. CSV, Excel, SQL), részben fájlokként eltárolhatók és menedzselhetők. Önállóan is futtatható szoftver, vagy Firefoxba is beépíthető. Az ingyenes verziónak korlátozottak a képességei, de a fizetős változat nagy tömegű weboldalból (pl. Google találati listákból) is képes kiszedni a felhasználó által beállított feltételeknek megfelelő tartalmakat.


OWA (Offline Web Archive)

A 2006-ban alapított német oia (Organisation Information Archivierung) cég szelektív webarchiválásra kifejlesztett terméke (van egy erre épülő archiváló szolgáltatásuk is DWA néven, valamint egy általános digitális objektum/dokumentum-kezelő és -megőrző DIAS! nevű rendszerük is). Az OWA az OAIS modell alapján menti és tárolja a webes tartalmakat WARC fájlokban. Képes dinamikus és médiagazdag webhelyeket is menteni, megőrizve azok funkcionalitását. Van hozzá felhasználóbarát felület, full text kereső, fájltípus konverter és adatelemző modul is. 2012-ben a német nemzeti könyvtár által kiírt szelektív webarchiválási tendert az oai GmbH nyerte meg. 2013-ban a vállalat csatlakozott az IIPC konzorciumhoz.


PADICAT (Patrimoni Digital de Catalunya)

A Biblioteca de Catalunya, a katalán nemzeti könyvtár 2005 júniusában, a CESCA (Centre de Supercomputació de Catalunya) nevű informatikai intézettel közösen indított webarchiválási projektje. Egy éves előkészítés után kezdtek el menteni (kezdetben önkormányzatok és szakmai szervezetek honlapjait), és 2006 szeptember 11-én már meg is jelent a PADICAT honlapja 30 lementett webhellyel. A pilot fázis és a tervezés 2008-ig tartott, ez után indult a szisztematikus gyűjtés. 2011-ben készült el az új felület, és ekkor már 45 ezer webhely (200 ezer mentés, 300 millió fájl) volt az archívumban, melyek 10 terabájtot foglaltak el. A technológiai partner ekkor már a CSUC (Consorci de Serveis Universitaris de Catalunya). 2013-ban 72.663 website (313 ezer mentés, 432 millió fájl) volt az archívumban, amelyek 17,2 terabájtot foglaltak el (ebből 1,3 terabájt az index). A szelektív mentés (kb. 13 ezer site) mellett a .cat domaint is aratják (ez összesen 52 ezer site). Mintegy 500 katalán intézménnyel, szervezettel van írásos együttműködési szerződésük, ennek köszönhetően az archivált anyag egy része nyilvánosan is elérhető.

A használt szoftverek: Heritrix, NutchWAX, Wera, Wayback, WCT. A katalogizáláshoz egy saját rendszert is kifejlesztettek 2010-ben CAT néven. Az aratást és indexelést egy hat node-ból álló HP ProLiant DL360 G4p végzi, a kereső és szolgáltató felület mögött egy Linux klaszter van, amely rugalmasan alkalmazkodik a terheléshez. A háttértár egy 19 terabájtos NetApp FAS3170 tároló. Az archívum anyagát a könyvtár COFRE (COnservem per al Futur Recursos Electrònics) nevű, digitális megőrzésre szolgáló rendszerébe is elteszik.


PageArchiver (korábban: Scrapbook for SingleFile)

Chrome böngésző kiegészítő, amellyel elmenthető az éppen nézett weboldal SingleFile formátumban, majd offline módban is visszanézhető, kereshető, és ZIP csomagként exportálható/importálható HTML-ben is. A mentések menedzselhetők, rendezhetők, címkézhetők és megjegyzések is fűzhetők hozzájuk, sőt még szerkeszthetők is egy kis WYSIWYG HTML editorral.


PageFreezer

2006-ban alapított, vancouveri székhelyű, megrendelésre végzett webarchiválásra szakosodott cég. (2010 óta európai képviselete is van.) Az archiválási szolgáltatást SaaS (Software-as-a-Service) formában nyújtja, és a webhelyek mellett a közösségi média tartalmának megőrzésére is képes. Kérésre hitelesített bizonyítékot is szolgáltat adott weboldalak tartalmáról, időbélyeggel, digitális aláírással és metaadatokkal (PageFreezer Legal). WebPreserver néven Chrome kiegészítőt is biztosít, amivel az éppen nézett weboldal küldhető el egy felhőtárhelyre digitális aláírással hitelesített formában. Az archív csomagok (jogi ügyeknél bizonyítékként felhasználható) EDRM-XML és WARC formátumokba is exportálhatók.


PageNest (korábban: WebStripper)

A Windows 98 és Vista közötti időszakban fejlesztett, non-profit célra ingyenes offline browser (de létezik egy fizetős, reklámmentes változata is PageNest Pro néven). A webhelyek lokalizált mentése mellett mirror módja is van az eredeti struktúra megőrzésére. Akár 40 szálon is tud menteni mindenféle fájltípust, a CSS és Javascript linkeket is követi. Betárcsázós internetkapcsolatokhoz is vannak benne funkciók. Az egyes mentések egy külön felületen menedzselhetők, és a beépített böngészővel is végignézhetők.


PageRank

A Google keresője által használt algoritmus, amely egy adott weboldalra mutató linkek száma, valamint az ezen linkeket tartalmazó oldalak saját PageRank értéke alapján (rekurzív módon) számolja ki, hogy mennyire "fontos" az adott weboldal: minél több link ("szavazat") mutat rá és minél fontosabb helyekről, annál magasabb ez az érték. A Google a találati listák sorrendjének meghatározásánál felhasználja ezt a PageRank értéket (de még állítólag több mint 250 egyéb paramétert is figyelembe vesz). A PageRank növelése különféle módszerekkel (pl. visszalinkek vásárlásával, linkfarmok működtetésével) az egyik "fekete kalapos" SEO technika, ezért a Google egyre kevésbé támaszkodik erre a paraméterre és a visszaélések csökkentése miatt fokozatosan megszünteti az összes olyan lehetőséget, amivel meg lehetett nézni (egy 0 és 10 közötti skálán), hogy egy adott weboldalnak mennyi a PageRank értéke. A webarchiválás szempontjából pedig ez egy lényeges információ lenne, mert egy webhely kezdőlapjának PageRank-ja jól felhasználható annak megítélésére, hogy érdemes-e archiválni, elég lényeges hely-e az interneten. Ellentétben a SERP (search engine results page) rank értékkel, amely azt mutatja, hogy egy adott keresésnél az adott weboldal ténylegesen hányadik helyen van a Google találati listájában, a PageRank érték független a keresőkérdéstől és egyéb paraméterektől (pl. a felhasználó földrajzi helyétől, mert egy ideje már azt is figyelembe veszi a Google a találatok súlyozásánál), így archiválási szempontból sokkal objektívebb adat (még ha vissza is lehet vele élni), mint a SERP rank. És megőrzendő metaadat is egyben, mert bizonyos kutatásoknál érdekes lehet, hogy az archiválás időpontjában mennyi volt az adott weboldal PageRank értéke, mennyire számított akkor fontos forrásnak.


pageVault

A 2000-es évek első felében forgalmazott ausztrál fejlesztésű szoftver, mely egy szerverre feltelepítve az adott webszerver által teljesített minden kérést egy archívumba ment (persze az azonosakat csak egyszer), így a webmester visszanézheti, hogy különböző időpontokban milyen tartalmakat és milyen módon szolgált ki a szervere (és akár helyre is állíthat weboldalakat az archívumból). Az egy hónapos próbaverzióval egy megadott webhelyről wget-tel letöltött oldalakon (egy szimulált webszerverrel) lehetett tesztelni a pageVault működését.


PANDAS (PANDORA Digital Archiving System)

A National Library of Australia saját fejlesztésű munkafolyamat menedzselő keretrendszere a PANDORA webarchívumhoz (de 2004-2008 közt a UKWAC is ezt használta). Ez volt a világon az első ilyen rendszer, amely a teljes folyamatot lefedi. Az első verzióját 2001 júniusában üzemelték be, jelenleg a 2007-ben kiadott 3. verziót használják. A HTTrack letöltő programra épül és a szelektív archiválást támogatja, fájlrendszerbe mentve az anyagot. A főbb munkafolyamatok, amelyek egy felhasználóbarát webes felületen menedzselhetők (akár a konzorciumi partnerek gépeiről is):

A rendszer már a kiválasztáskor ad egy sorszámot minden letöltendő webhelynek vagy dokumentumnak, amely az archivált példány stabil URI-jába is bekerül. Ebből még további URI-kat is generál minden egyes részdokumentumhoz (pl. egy folyóiratszám cikkeihez) vagy részelemhez (pl. egy weblapon levő képhez vagy táblázathoz). Ezek az URI-k az arcív példány címoldalán látszanak, így felhasználhatók idézésekhez és linkekhez.


PANDORA (Preserving and Accessing Networked Documentary Resources of Australia)

A National Library of Australia által 1996-ban indított, konzorciális munkamegosztással működő webarchiváló projekt. A saját fejlesztésű PANDAS keretrendszert használják az archívum menedzselésére (Java-programok, Oracle adatkezelő és HTTrack letöltő). Nemcsak komplett webhelyeket, hanem egyedi online dokumentumokat/dokumentumcsoportokat is archiválnak. 2000-re 600, 2008-ra 17,900, 2014-re 37,000, 2016 októberéig pedig 48,233 címet mentettek le legalább egyszer (a tárhelyigény ekkor 25.66 TB volt). Szelektív archiválást folytatnak, elsődlegesen a kormányzati, tudományos és kulturális tartalmat gyűjtik. Az archívum nagy része nyilvános és visszakereshető a könyvtári katalógusokban, sőt a nemzeti bibliográfiába is bekerül. Minden lementett tartalom (egészen fájlszintig lemenően) stabil azonosítót kap.

Az Internet Archive segítségével 2005 óta a teljes .au domain-t is aratják évente, de ezt az anyagot nem szolgáltatják jogi okokból, kutatók kérhetnek csak hozzáférést. Ennek mérete 2008-ban: 3 millió site, 1 milliárd fájl, 34.55 terabájt.


Paradigma / Nettarkivet Norge

A 2001. augusztusában a norvég nemzeti könyvtárban indult Paradigma projekt célja mindenféle norvég (és lapp) vonatkozású digitális dokumentum gyűjtése volt, beleértve a webarchiválást is, amit kezdetben csak szelektíven (pl. e-folyóiratok) és eseményekhez kapcsolódva (pl. választások, királyi esküvő) végeztek a HTTrack szoftverrel, majd a .no domainre kiterjedő aratásokkal is kísérleteztek a NEDLIB harvesterrel. Négy munkatárs teljes munkaidőben foglalkozott a projekttel, és további harminc vett részt különféle feladatokban. A Paradigma projekt 2004 végén lezárult, de a webarchiválás folytatódott egészen 2008-ig, amikor az adatvédelmi biztos megkérdőjelezte a teljes körű aratás jogosságát (bár korábban kapott rá időszakos engedélyt a könyvtár). Ezért azóta csak válogatott site-okat mentenek (500-2500 közötti számban) előzetes engedélykérés után. Ezeket 2011-től naponta lementik a Heritrix-szel a Web Curator Tool keretrendszert használva. Az archívum jelenleg nem hozzáférhető.

2016 januártól viszont változott a kötelespéldány szabályozás, és ez már megengedi a teljes norvég webtér aratását a nemzeti könyvtárnak, sőt a kutatási és dokumentációs célú hozzáférést is engedélyezi. Ezért a Nasjonalbiblioteket újratervezi a webarchiváló rendszerét (maradnak a Heritrix és OpenWayback kettősnél, de más eszközöket is használnak majd) és kidolgozza a hozzáférési politikáját.


Parliament's Web Archive

A brit parlament honlapjának és 36 egyéb kapcsolódó webhelynek korábbi verzióit tartalmazó archívum, továbbá a parlamenti csatornák mentései a különböző közösségi média oldalakról (Facebook, Flickr, Twitter, YouTube). Az UKGWA-hoz hasonlóan ez is nyilvános és ezt is az Internet Memory Foundation működteti (de a szolgáltatója a MirrorWeb cég). Az első aratás 2009 júliusában történt és évente háromszor ismétlik.


PastPages

Ben Welsh újságíró 2012-ben indult egyszemélyes projektje és fejlesztése. A rendszer óránként screenshotokat csinál 85 nagy hírportál címoldalairól. 2017 márciusában már több mint 2,4 millió képet tartalmazott a gyűjtemény. 2014 végétől a képernyőfotók készítése mellett az oldalak HTML kódját is lementi a rendszer a StoryTracker segítségével egy-két nagyobb site-ról.


Pavuk

2003 és 2007 között - eredetileg egy szlovák programozó által - fejlesztett, C nyelven írt crawler Linux/Unix rendszerekre. A HTTP mellett FTP és Gopher protokollon is tud letölteni. Sokféleképpen paraméterezhető és opcionális grafikus felület is van hozzá.


PDF/A fájlformátum

Oldalakra tördelt dokumentumok hosszú távú megőrzésére létrehozott ISO szabvány(ok). Az Adobe-féle PDF formátumra olyan korlátozásokat vezettek be, amelyek biztosítják, hogy a fájl eszközfüggetlen, öndokumentáló és mindent tartalmaz a helyes megjelenítéshez. Pl. nem lehet benne hang és videó, Javascript és futtatható program, sem pedig titkosítás, továbbá a betűkészleteket be kell ágyazni és csak szabványos metaadatok lehetnek benne. Az Adobe szoftverei mellett már a jobb szövegszerkesztők (esetleg egy kiegészítő telepítése után) tudnak PDF/A formátumba menteni.


Pearl Crescent Page Saver

Firefox kiegészítő, amivel képernyőfotók készíthetők weboldalakról (Flash tartalmúakról is). Magyar fordítás is létezik hozzá.


Peeep.us

Google fiókhoz kötött ingyenes online szolgáltatás, amivel a felhasználó képernyőfotót tud készíteni egy adott weboldal aktuális tartalmáról. Egy bookmarklet gomb telepítésével közvetlenül a böngészőből is megteheti ezt. A képernyőfotót elvileg korlátlan ideig őrzi a rendszer, de fenntartja a jogot, hogy egy hónap után törölheti, ha senki nem nézi meg ez alatt.


Pending URIs

Azon Discovered URI-k részhalmaza, amelyek még részletes feldolgozásra várnak, még nem döntötte el róluk a crawl frontier, hogy benne vannak-e a scope-ban, illetve nem duplikátumok-e?


Perma.cc

Sok - főként amerikai - könyvtár által támogatott link rot elleni szolgáltatás, melyet a Harvard Law School Library (Harvard's Library Innovation Lab) fejlesztett ki. A rendszer a felhasználó által megadott URL címen levő weboldalt vagy egyéb dokumentumot lementi (és egy PNG képernyőfotót is készít róla), majd egy stabil azonosítót ad neki, amellyel hosszú távon is hivatkozható marad. (Ha a mentés nem sikerülne valamiért, maga a felhasználó is feltölthet egy képet vagy egy PDF fájlt az adott dokumentumról.) A rendszer elosztottan működik a könyvtárak szerverein, így a fennmaradására nagyobb az esély, mint a hasonló, de egyetlen céghez kötődő szolgáltatásokéra. 2017 április 25-én 450 ezer mentett dokumentumhoz tartozott Perma Link és 887 intézmény (ebből 213 könyvtár), illetve 14.587 felhasználó vette igénybe a szolgáltatást. A használat regisztrációhoz kötött és havi 10 mentésig ingyenes mindenkinek, de könyvtárhasználók, folyóiratok szerkesztői, egyetemi oktatók, bíróságok és más szervezetek tagjai korlátlan hozzáférést kaphatnak. Fejlesztők számára API-t is biztosítanak a rendszerhez.


PhantomJS

Open source headless browser Windows, Mac OS X és Linux gépekre, amellyel parancssorból vagy scriptekkel tesztelhetők, illetve jeleníthetők meg weboldalak úgy, ahogyan azok a normál webböngészőkben látszanak. A HTTP kérésekre kapott válaszokat, a kapcsolat és a megjelenítés során keletkezett információkat, valamint a weboldal képét szabványos HAR fájlba tudja menteni. (A UK Webarchive esetében ezt a HAR fájlt beleteszik a WARC csomagba - elsősorban a screenshot megőrzése miatt.)


Pilot harvest in Slovakia

A pozsonyi egyetemi könyvtár (Univerzitná knižnica v Bratislave) 2006 tavaszán végzett egy kisebb archiválási projektet, cseh kollégákkal együttműködve (akik a CULTURE 2000 program keretében 2000 óta a cseh webarchívumon dolgoztak). Az .sk domain alatt akkor 92 ezer bejegyezett aldomain volt, de a pilot projekt csak arra a 260-ra terjedt ki, amelyeknek ISSN azonosítójuk is volt (vagyis főként elektronikus folyóiratokat mentettek le, és végül ezek közül sem mindegyiket). A Heritrix és a NutchWAX szoftverekkel dolgoztak egy mindössze 2 gigás linuxos PC-n, 100 Mbit-es hálózati kapcsolattal. A WERA nevű megjelenítő felületet is felrakták, de szolgáltatást nem csináltak végül az anyagból. Összesen 34.5 gigabájtot (1.3 millió fájlt) mentettek le, melyek 69-féle MIME típushoz tartoztak. A pilot projekt tanulságai alapján megfogalmazták, hogy milyen technikai, szervezeti és jogi feltételek kellenének az üzemszerű webarchiváláshoz, amely végül csak 2015-ben indult el Projekt DIP néven.


Polite crawler

A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a robots.txt protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a robots.txt-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a crawler trapokat.


Portable Offline Browser

Lásd: Offline Explorer


PREMIS (PREservation Metadata Implementation Strategies)

2003-ban az OCLC (Online Computer Library Center) és az RLG (Research Libraries Group) által életre hívott munkacsoport a hosszú távú digitális megőrzéshez használandó metaadatok körének definiálása, valamint útmutatók ill. ajánlások kidolgozása céljából. 2005-ben megjelentették az első változatát a Dictionary for Preservation Metadata című jelentésüknek, mely egy átfogó (237 oldalas) kézikönyv a témában és az OAIS modell részletes kidolgozásának tekinthető a metaadatok terén. Az utolsó verzió 2015 júniusában jelent meg. Öt fő elemkategóriát tartalmaz: intellectual (a bibliográfiai leíró adatok), object (a fájlok/bitsorozatok jellemzői), events (az objektummal történt események, illetve a hozzá kapcsolódó személyek/szervezetek/szoftverek adatai) és rights (az objektummal és annak használatával/másolásával/migrálásával stb. kapcsolatos jogok, előírások). A PREMIS Data Dictionary-ban megfogalmazott ajánlásokat és a hozzá mellékelt XML sémát számos digitális gyűjteményben (pl. webarchívumban) és szoftverben/rendszerben alkalmazzák a megőrzéssel kapcsolatos metaadatokhoz.


Preservica

Felhő alapú tárolást is támogató, professzionális DPS rendszer mindenféle digitális objektum, többek között WARC fájlok megőrzésére az OAIS modell szerint. Összekapcsolható a Heritrix és a Wayback szoftverekkel, így az aratások a Preservica saját adminisztrációs felületén ütemezhetők, a lementett webhelyekhez való hozzáférés pedig a rendszerben definiált jogosultságok alapján szabályozható.


Preserving the present for the future - Strategies for the Internet

A dán Royal Library szervezésében, a Danish Electronic Research Library támogatásával Koppenhágában 2001 június 18-19-én megrendezett kétnapos nemzetközi konferencia az internetes kultúra megőrzésének fontosságáról és a webarchiválás akkori aktuális kérdéseiről.


Presurf

Az amszterdami Capsis cég professzionális webarchiváló terméke, melyet NetTrack néven SaaS szolgáltatásként is kínálnak. A letöltéshez, az archívum menedzseléséhez, a webhelyek és a fájlok megnézéséhez, ill. a visszakereséshez ilyen modulok állnak rendelkezésre: Grabber, Data Management, Viewer, FileViewer, Presurf. Utóbbi még ilyenekkel egészíthető ki: Publisher, Connectivity, API, Event-driven module, Continuous module, (ezekkel megoldható a nyilvános szolgáltatás, a más rendszerekkel való összekapcsolás, és az eredeti webhelyen való események és változások figyelése és mentése) Mindezekhez egy nagyon egyszerű, felhasználóbarát felület tartozik. A hitelesítés digitális aláírással történik.


PROJEKTEK


Projekt DIP (DIgitálne Pramene)

A 2006-os pilot harvest után a pozsonyi egyetemi könyvtár 2015 áprilisában lett megbízva egy nemzeti webarchívum létrehozásával, valamint az egyedi born-digital dokumentumok gyűjtésével. Egy kb. fél éves tesztidőszak után elkezdték az üzemszerű archívumot építeni, melyhez egy 800 terabájtos tárhely áll rendelkezésre. A Heritrix, Wayback, WCT szoftverekkel dolgoznak, a WARC fájlokat az Invenio nevű digitális könyvtári rendszerben tárolják. Tematikus, esemény-alapú és .sk domain szintű aratásokat egyaránt csinálnak. Utóbbit 2016 októberében kezdték, és 2017 februárjában futtatták le a másodikat egy hétig. Ekkor a 352 ezer bejegyzett szlovák domainból 279 ezret learattak, 400 megabájtra, valamint 10 ezer objektumra és 2 órára korlátozva az egyes webhelyeket, így 14 terabájt gyűlt össze (tönörítve 5 terabájt), multimédia tartalmak nélkül. A Solr keresővel lehet a metaadatokban keresni, témakörök szerinti szűkítési lehetőséggel. A találati listában az archiválás dátuma látszik és egy link az élő webhelyre. Az archivált verzió többnyire csak a könyvtáron belül nézhető meg, kivéve, ahol engedélyt kaptak a nyilvános szolgáltatásra. A szelektív archiválás keretében az 550 megkeresett intézmény közül 2017 júniusáig 111-el kötöttek szerződést.


PROMISE (PReserving Online Multiple Information: towards a Belgian StratEgy)

2017 júliusában induló 2 éves pilot projekt a belga nemzeti webarchívum megteremtése céljából. A partnerek: a nemzeti könyvtár, a nemzeti levéltár digitális megőrzéssel foglalkozó részlege, a Ghent egyetem két kutatóközpontja és a Haute École Bruxelles-Brabant. A célok közt a külföldi gyakorlat megismerése, a módszertan és a szabályzatok kidolgozása, egy prototípus webarchívum létrehozása és a kutathatóság ill. a fenntarthatóság kérdéseinek megválaszolása szerepel.


PromptCloud

Web scrapinggel foglalkozó indiai cég, amely DaaS (Data as a Service) szolgáltatást nyújt a megrendelőinek. Open source szoftverekre épített technológiájukkal egyaránt tudnak adott site-okra fókuszált vagy széles körű aratással történő információgyűjtést végezni, valamint Twitter üzeneteket kielemezni. Az adatokat XML, JSON vagy CSV formátumban kapja meg az ügyfél. Korábbi gyűjtéseket is meg lehet venni a DataStock nevű szolgáltatásuk keretében, illetve ingyenes adatfeed-eket is biztosítanak az e-kereskedelem, a turizmus és az álláspiac területén.


PRONI Web Archive

A Public Record Office of Northern Ireland webarchívuma, melyet az Internet Memory Foundation működtet. Szelektíven mentenek Észak-Írország társadalmával, történelmével, gazdaságával és kultúrájával kapcsolatos webhelyeket 2010 óta, évente néhány alkalommal. 2017 áprilisában az archívum mérete 5 terabájt volt. A hozzáférés nyilvános, kivéve, ha az eredeti tartalomgazda ezt kifogásolja.


PWID URI Scheme Specification

A Royal Danish Library által az IETF (Internet Engineering Task Force) számára készített, egyelőre csak "draft" állapotban létező javaslat, amely egy stabil (Persistent Web IDentifier) azonosító bevezetését javasolja a webarchívumokban levő tartalmakhoz. A javasolt URI séma tartalmazza a webarchívum azonosítóját, az archivált forrás URI-ját és időbélyegét, valamint a terjedelmét (pl. egy weboldal vagy annak valamely része, vagy egy webhely vagy annak egy része). Példák:

pwid:archive.org:2016-04-20_18.21.47Z:page:http://resaw.eu/resources/
pwid:archive.org:2016-10-20_22.26.35:site:https://www.doi.org/

pylibwarc

Pythonban írt segédprogramok WARC és CDX fájlok olvasásához, illetve WARC -> CDX konverzióhoz.


PyWb

Python írt Wayback Machine ARC és WARC fájlok böngészéséhez, amellyel komplex (Javascriptet, ill. audiovizuális anyagokat tartalmazó) dinamikus webhelyek is helyesen jeleníthetők meg. Egy API is van hozzá, amivel lekérdezhető az archivált tartalom indexe. Teljesen kompatibilis a Memento Projectben bevezetett (RFC-7089) protokollal.


Q-Suite

A svájci Qumram mindenféle internetes tartalmat és kommunikációt archiváló rendszere, melyet még 2010-ben kezdtek fejleszteni. Elsősorban egy cég vagy intézmény saját online felületeinek és az azokon zajló interakcióknak, felhasználói tevékenységeknek megőrzésére ill. rögzítésére, valamint visszanézésére szolgál. Három komponensből áll, melyek külön is megvehetők, valamint integrálhatók más rendszerekkel:

A mentések helyben vagy a felhőben egyaránt tárolhatók, illetve hibrid megoldás is megoldható.


Queued URIs

Azon Discovered URI-k részhalmaza, amelyek éppen feldolgozás (bejárás) alatt vannak, vagy már csak a feldolgozásra várnak (beleértve azokat is, amelyeket a crawler nem tudott bejárni, de újra próbálkozik majd még velük).


RafaBot

A Windows 95 és Windows XP közötti időszakban fejlesztett nagy teljesítményű webhely-letöltő szoftver. Akár több száz webhelyet is le lehet vele tölteni egy menetben, vagy egy URL címlista, vagy egy webes linkgyűjtemény (pl. Yahoo directory), vagy akár egy keresőrendszer találati listája alapján. A mentés mélysége és egyéb jellemzői paraméterezhetők, a webhelyeket az eredeti fájlstruktúrát megőrizve menti el.


Reborn digital material

Niels Brügger által az archivált webes tartalmakra javasolt megnevezés, ami azt fejezi ki, hogy az archív változat nem tekinthető az eredeti tökéletes másolatának. Valójában egy adott időpontban az archiváló szoftver kéréseire a webszervertől kapott válaszokból a megjelenítő rendszerrel újraalkotott digitális tartalomról van szó. Hogy mekkora és milyen jellegű a különbség az élő és archív példány között, az az archiválást végző intézmény/személy előzetes döntésein és az archiváló, valamint a megjelenítő szoftver beállításain és képességein múlik.


Reed Archives

A pennsylvaniai székhelyű Reed Tech vállalat, mely a - főként jogi és üzleti informatikával foglalkozó - LexisNexis cégcsoport tagja, 2010-ben indított SaaS-típusú szolgáltatása a Reed Tech Web Preserver rendszerre alapozva, webhelyek, blogok, RSS feed-ek, közösségi oldalak, Twitter csatornák stb. hitelesített lementésére, főleg cégek számára. Egy browser kiegészítőt is kifejlesztettek, amivel böngészés közben is lehet az archívumba menteni egy weboldalt, vagy akár az egész böngészési folyamatot. 2012-ben pedig kiadtak egy mobil alkalmazást, mellyel iPad, iPhone és androidos készülékekről tudnak az ügyfeleik webes és közösségi média tartalmakat menteni a szolgáltató által biztosított tárhelyre, időbélyeggel és digitális aláírással. Reed Tech SM@RT Preserver néven egy témafigyelő szoftvert és szolgáltatást is kifejlesztettek, amely azonnal lementi a közösségi médiából a beállított keresőkérdésnek megfelelő új tartalmakat.

2013-ban a kulturális örökség megőrzése irányában is nyitottak, és az Internet Archive Archive-It szolgáltatását kezdték el reklámozni és árulni.


Reed Tech Web Preserver

Lásd: Reed Archives


Reference crawl

Egy olyan jól sikerült mentés (target instance), amely összehasonlítás alapként szolgálhat az adott target minden további mentésénél a minőségellenőrzés során. Ennek az adataival (összméret, linkek száma, hibák száma stb.) érdemes összevetni a többi mentést és ha jelentős eltérés van valamelyik adatban, akkor megnézni, hogy mi okozhatta (pl. megszűnt a site, vagy más webhely került az adott domain névre, vagy rosszul archiválható CMS rendszerre tértek át).


RENDEZVÉNYEK


ReoCities

Jacques Mattheij informatikus egyszemélyes projektje 2009 őszén, hogy megőrizze a bezárás előtt álló GeoCities tárhelyen levő honlapokat. Végül csaknem 2.4 millió accountról sikerült átmásolnia 31.7 millió fájlt és amennyire lehetett, megpróbálta rekonstruálni a honlapok eredeti állapotát (de sok a hiány/hiba benne). A webhelyek a GeoCities eredeti directory struktúrája alapján böngészhetők.


RESAW (A Research Infrastructure for the Study of Archived Web Materials)

2012-ben indult európai szerveződés egy, az archivált webes tartalmak kutatására alkalmas nemzetközi infrastruktúra megteremtése és fenntartása céljából. A kutatási hálózatot a EU "Horizon 2020" alapjából finanszíroznák. 2017-ben a RESAW együtt tartja a konferenciáját az IIPC tagok szokásos éves tanácskozásával Londonban.


RESAW Events

A webarchívumok tudományos célú hasznosításával foglalkozó RESAW 2013 óta szervez különböző konferenciákat, szemináriumokat és találkozókat a témában. A 2017-es konferencia Londonban lesz június 14-15. között.


Rhizome

1996-ban alapított, New Yorkban működő non-profit szervezet, mely a digitális művészet és a digitális média megőrzésével foglalkozik. Az 1999-ben indult ArtBase nevű archívumukban internetes és egyéb számítógépes alkotásokat (több mint kétezret) őriznek. 2014-ben elkezdtek open source szoftvereket fejleszteni webarchiváláshoz. Még ebben az évben készült el a közösségi médiatartalmak mentésére és visszajátszására alkalmas Colloq, 2016 augusztusában pedig kiadták a Webrecordert, amivel bárki rögzítheti a webes böngészéseit. 2015 végén elindították az oldweb.today oldalt, ahol a felhasználók emulált régi browserekkel nézhetik meg a régi weboldalakat.


RIA (Rich Internet Application)

A webes szolgáltatások viszonylag új generációja, amely sokkal több interakciót tesz lehetővé a böngészőn belül, továbbá rugalmasabban, aszinkron módon is tud kommunikálni a háttérben a kliens és a szerver. Egy weboldal lekérésekor a szerver nemcsak az oldal HTML kódját és a beágyazott fájlokat küldi el a kliensnek, hanem a végrehajtható programkódot is, ami lehet pl. JavaScript, AJAX (Asynchronous JavaScript and XML), Silverlight, Flash, Java Applet. A böngésző pedig (az első kettő kivételével egy külön telepítendő plugin segítségével) lefuttatja ezt a kódot bizonyos események bekövetkeztekor (pl. ha a felhasználó valahová kattint, vagy ha az egérkurzort egy adott helyre viszi). Így anélkül módosítható egy oldal tartalma, hogy az URL címe változna és hogy kapcsolatba kellene lépni a szerverrel. Az ilyen weboldalak bejárására a hagyományos crawlerek alkalmatlanok, mert sem a változó tartalmat, sem a változó linkeket nem veszik észre. Ezért olyan kiegészítők vagy újfajta crawlerek kifejlesztésére van szükség, amelyek tudják szimulálni az emberi interakciókat: a lehetséges események kiváltásával elő tudják állítani a weboldal valamennyi állapotát (lásd: event-based crawling).


RIA web crawling

A RIA típusú, a hagyományos crawlerekkel bejárhatatlan webhelyek felderítésére alkalmas módszerek és technológiák összefoglaló neve.


Robots meta tag

A HTML fájlok head részében elhelyezhető metaadat elem, amellyel a weboldal gazdája szabályozhatja, hogy egy crawler, illetve a mögötte levő keresőrendszer/archívum mit tehet az adott oldallal. A lehetséges opciók: indexelheti-e a tartalmát, követheti-e a rajta levő linkeket, archiválhatja-e a tartalmát, megjeleníthet-e belőle részletet a találati listában? Lásd még: robots.txt.


robots.txt

Egy egyszerű szövegfájl a gyökérkönyvtárban, mellyel a website adminisztrátora szabályozni tudja, hogy a keresőgépek és az archiváló szolgáltatások által indított crawler-ek a webszerveren levő tartalom mely részét járhatják be, sőt akár ki is tilthatja őket teljesen. (Viszont a crawler szoftverek egy része tartalmaz olyan opciót, amellyel figyelmen kívül hagyhatók a robots.txt-ben megadott tiltások.) A tiltások és engedélyek alkönyvtárakra, fájlokra és az egyes crawler-ekre (user-agent-ekre) korlátozhatók.

A szabályozás másik lehetséges módja a magukban a weboldalakban elhelyezett robots meta tag-ek használata. Lásd még: opt-out.


Robust Links - Tools

A Memento Project keretében kidolgozott megoldás a linkek tartósságának növelésére, a link rot elleni védekezésre. A különböző webarchívumokban elmentett példányoknak, illetve az archive-on-demand szolgáltatásokkal bármikor létrehozható mentéseknek köszönhetően a "robosztus" linkek akkor is működőképesek maradnak, ha a hivatkozott forrás már eltűnt az élő webről (vagy ha megváltozott a tartalma), mivel az ilyen linkek mellett megjelenő kis nyílra kattintva a felhasználó megnézheti a link létrehozásának időpontjához legközelebb eső memento-t valamelyik archívumból. Ehhez a linket tartalmazó oldal gazdája két megoldást is választhat: vagy "kidekorálja" a linket annak készítési dátumával és az ahhoz a dátumhoz közeli memento URL címével, vagy egyszerűen csak megadja az oldal fejlécében a metaadatok közt az oldal létrehozási és utolsó módosítási dátumát, mert ezek alapján egy Memento TimeGate szerver már ki tudja keresni az ezen időpontokhoz közeli memento-kat. Ahhoz, hogy a kis nyíl megjelenjen a linkek mellett, még szükség van egy Javascript és egy CSS fájlra is, melyek letölthetők a projekt GitHub oldaláról.


RvIE (Revolver Internet Edition)

A MetaProducts cég által még Windows XP-re fejlesztett fizetős szoftver weboldalak vagy webhelyek letöltésére (akár 500 csatornán egyszerre), bírósági ügyekben bizonyítékként való felhasználáshoz. Figyelni is lehet vele webhelyeket és ha azokon egy megadott szöveg megjelenik, akkor automatikusan csinál egy mentést. A streamelt médiát is letölti, és képernyőfotókat is készít a letöltött weboldalakról, valamint ellenőrző összeget és időbélyeget generál minden fájlhoz. A mentett tartalom teljes szöveggel kereshető.


SAA Web Archiving Roundtable

Az amerikai levéltáros egyesület (Society of American Archivists) éves találkozója keretében 2013 óta megtartott megbeszélés a webarchiváló szekció tagjainak részvételével.


SAPERION ECM Web Content Archive

Az elsősorban vállalatok részére kifejlesztett SAPERION szoftver (mely most már a Lexmark cég tulajdonában van) webarchiválásra szolgáló modulja. 2011-ben a svájci Qumram cég Chronos Web Archiving Software Suite nevű termékét építették be a SAPERION nevű ECM (Enterprise Content Management) rendszerbe, így az a többi dokumentumtípushoz hasonlóan már tud hiteles másolatokat befogadni, biztonságosan tárolni és megjeleníteni webes tartalmak esetében is. A szokásos kliens oldali mentések mellett a tranzakció-alapú archiválást is támogatja, vagyis amikor a webszerver minden olyan oldalt elküld az archívumba, amit egy felhasználó lekért (utóbbi például webshopok esetében hasznos a vásárlási folyamat rögzítésére). Nemcsak teljes weboldalak menthetők, hanem azok előre meghatározott részei is (pl. a navigációs elemek, vagy a képek és reklámfelületek kihagyhatók), így helytakarékos módon tárolható a valóban releváns tartalom. Hosszú távú megőrzés és hiteles bizonyíték céljára PDF/A fájlokat is tud készíteni a rendszer a mentett oldalakról.


SavedWebHistory

Ingyenes online szolgáltatás, ami idősoros statisztikai adatokat közöl egy adott domain-ről: pl. Google pagerank és egyéb rendszerekben elért fontossági szint, a Google által indexelt oldalak száma, találati listákban gyakori kulcsszavak, forgalmi adatok, a domain-ra mutató külső linkek.


Save Page Now

A WayBack Machine kezdőlapján található szolgáltatás, amellyel a felhasználó (anonim módon) javasolhatja egy webcím archiválását. Ha technikailag nincs akadálya, akkor az archiválás azonnal megtörténik (a weboldalon levő linkek követése nélkül), megjelenik a lementett weboldal képe és az archív példányra mutató URL (ami máris megosztható Facebookon vagy Twitteren is), majd pedig néhány órán belül bekerülnek a mentés adatai a WayBack Machine indexébe is, így ezután már mások számára is visszakereshető, elérhető.


SCAPE (Scalable Preservation Environments)

2011-2014 közötti EU-s projekt komplex, nagyon heterogén és nagyon nagy méretű digitális tartalom (pl. webarchívum) hosszú távú megőrzésére alkalmas, jól skálázható technológiák kifejlesztésére. A projekt keretében készülő eszközök kipróbálására teszt állományokat is létrehoztak a brit, holland, osztrák és dán webarchívumok anyagából.


Scheduling

Az ismételt mentések ütemezése a webarchívumoknál. Célszerű a fontos és a gyakran változó webhelyeket/weboldalakat gyakrabban menteni, lehetőleg az ottani idő szerint éjszakai órákban, amikor kisebb rajtuk a forgalom. Továbbá, ha csak a korábbi mentés óta megváltozott ill. az újonnan felkerült fájlokat akarjuk begyűjteni, akkor az sűrűbben is megtehető, de érdemes ilyenkor is időnként egy teljes mentést beiktatni, hogy legyen egy konzisztens másolat újra az egészről (amiben pl. az időközben törölt fájlok nincsenek benne).


Scope

A digitális objektumoknak az a halmaza, amelyre egy archívum gyűjtőköre kiterjed. Egy webarchívum esetében ez lehet például egy legfelső vagy alsóbb szintű domain (pl. .hu vagy gov.hu), egy bizonyos dokumentumtípus (pl. blog, videó), egy bizonyos téma/esemény (pl. tudomány és oktatás, olimpia), illetve ezek kombinációja által lehatárolt halmaz. Hogy a ténylegesen archivált tartalom minél jobban lefedje a scope-ot, azt szelektív archiválás esetében a lementendő források gondos megválogatásával, automatikus aratás esetén pedig jó seedek megadásával és a crawl frontierben tárolt szabályokkal lehet elérni.


ScrapBook

Japánok által 2004 óta fejlesztett ingyenes Firefox plug-in weboldalak és webhelyek letöltésére, és a mentések menedzselésére, melyek teljes szöveggel kereshetők, sőt még szerkeszteni is lehet a mentett oldalakat (pl. kiemelni, jegyzetelni, linket tenni). Az egyes mentések össze is fűzhetők, egy saját "webhelyet" alakítva így ki belőlük. A projektet 2016-ban egy tajvani programozó vette át és átnevezte ScrapBook X-re. Ez már tud - további kiegészítők telepítése után - MAFF fájlba is menteni, és konvertálni is oda-vissza .enex, .maff, .epub, .zip és egyéb tárolási formátumok között. Sok nyelvre lefordították, magyarítás is van hozzá.


Scrapinghub

Webarchiválással és a webtér bejárásával történő adatgyűjtéssel foglalkozó nemzetközi cég, illetve az általa nyújtott "scraped data as service" szolgáltatás. 2010 óta az ügyfeleik megrendelésére már több millió webhelyet arattak le és jelenleg 4 milliárd fölött weboldalt járnak végig a robotjaik minden hónapban. A Scrapy Cloud platformjukon felhőszolgáltatásként lehet webarchívumokat, webes adatgyűjteményeket építeni. A bejárandó site-ok és a crawlerek adminisztrálása az open source Portia nevű felületen történik, és a szintén ingyenes Scrapy framework-öt, a Frontera nevű crawl frontiert, ill. a scriptelhető Splash browsert is ők fejlesztik jelenleg.


Scrapy

Pythonban írt open source web crawling keretrendszer, első változata 2008-ban jelent meg. Eredetileg keresőrendszerekhez szánták, de alkalmas arra is, hogy weboldalakból strukturált adatokat gyűjtsön ki, de általános célú crawlerként is használható (pl. webarchiváláshoz), illetve webmesterek tesztelhetik is vele, hogy a webhelyüket hogyan tudják bejárni a robotok. Jelenleg a Scrapinghub gondozza a projektet.


Screenshots.com

A DomainTools cég Whois adatbázisára épülő ingyenes képernyőfotó gyűjtemény a fontosabb webhelyek kezdőlapjáról, időbeli böngészési lehetőséggel. A rendszer minden jelentősebb tartalom- vagy külalakváltozás esetén automatikusan új képet készít az adott oldalról. A gyűjtemény 2017 elején 250 millió képet tartalmazott. A képadatbázishoz ingyenes API is rendelkezésre áll, így a képernyőfotók más alkalmazásokba is beépíthetők.


Screenshot.net

Ingyenes pillanatfelvétel készítő szoftver és online szolgáltatás, valamint képszerkesztő és felhőtárhely, többek között weboldalakról készített (a teljes oldalt tartalmazó) képernyőfotók készítésére, esetleges módosítására és tárolására. Az online változatánál elég csak megadni egy URL címet és pár másodperc múlva már letölthető vagy a felhőbe feltölthető az 1000 pixel széles kép JPG vagy PNG formátumban.


Seed

A kiindulópont egy crawler számára, egy URL cím, amelyet elsőként arat le és utána követi az abban található linkeket. Az URL rendszerint egy webhely kezdőlapja vagy egy olyan weboldal, ahonnan sok link mutat befelé vagy kifelé. Nagyobb méretű aratásoknál a crawler egy seed listát kap és abból indul el több szálon egyszerre, amely lista nagyon sok URL címet is tartalmazhat. Egy jó seed lista összeállítása és karbantartása fontos feltétele az adott webarchiválási cél elérésének. Történhet emberi szakértelemmel (pl. az Open Directory Projectre vagy más hasonló linkgyűjteményre alapozva, vagy különböző szakértők közös munkájával, esetleg a laikus tömegeket is bevonva (crowdsourcing). Vagy pedig megoldható algoritmusokkal is (pl. a PageRank értékeket vagy a látogatottsági adatokat figyelembe véve).


Selective harvest

Lásd: Focused crawl


SEO (Search Engine Optimization)

Olyan technikáknak a gyűjtőneve, mellyel egy weboldal visszakereshetősége optimalizálható és minél előrébb tornázható fel a keresőrendszerek találati listáiban (pl. a PageRank érték növelésével). Mivel a webkeresők (pl. a Google) az elsődleges navigációs eszközök az interneten, ezért a SEO sok tartalomszolgáltató számára fontos, így crawler-friendly site-okat alakítanak ki (vagy eleve ilyen CMS-t használnak), ami a webarchívumok számára is egy kedvező jelenség, hiszen azok robotjai hasonló módon működnek, mint a keresőrendszerekéi. Ugyanakkor például az, hogy a visszaélések miatt már a legtöbb nagy kereső nem veszi figyelembe a beágyazott metaadatokat a weboldalakban, azt jelenti, hogy ezekre kevesebb figyelmet fordítanak a webmesterek, pedig az archívumokban nagyon fontos szerepük lenne ezeknek a lementett objektumok beazonosításánál, metaadatolásánál és visszakeresésénél.


Server-side web archiving

A webhelyet alkotó fájlok, adatbázisok és esetleg programok, scriptek közvetlen átmásolása vagy rendszeres tükrözése a webarchívumba. Így elvileg megvalósítható a tökéletesen pontos megőrzés (ami a client-side és a transaction-based módszerekkel nem), de még ilyenkor is nagy az esély, hogy az eltérő operációs rendszer, programkörnyezet, illetve webszerver- és egyéb beállítások miatt a másolat nem ugyanúgy fog működni, mint az eredeti. Továbbá, ha a weboldalakon külső forrásokból beágyazott tartalmak is megjelennek, akkor ezek nem fognak archiválódni, hiszen nem részei az átmásolt csomagnak.


SHARC (Sharp Archiving of Web-Site Captures)

A németországi Max Planck Institute for Informatics munkatársai által kidolgozott módszer, mellyel az "elmosódás" jelenségét próbálják csökkenteni a webarchiválás során. Mivel egy nagyobb site learatása órákig, sőt akár napokig is eltarthat egy polite crawlerrel, ezért időközben megváltozhatnak egyes oldalak, vagyis az archív példány nem egy éles pillanatfelvétel a site adott időpontbeli állapotáról, ami pl. jogi bizonyítékként való felhasználás esetében gond lehet, de archiválási szempontból sem szerencsés az ilyen inkoherencia. A SHARC módszer esetén a crawler egy webhely minden oldalát bejárja, majd újra visszamegy ezekre az oldalakra, és megnézi, hogy változott-e valamelyik. Ha a látogatási és visszalátogatási időszakok átfedésben vannak egymással és közben egyetlen oldal sem változott, akkor a webhely archív példánya olyan "élesnek" tekinthető, mintha egyetlen időpillanatban sikerült volna lementeni. Ezzel a technikával optimalizálni lehet egy webhely mentési gyakoriságát és maximalizálni ha nem is a teljes archivált site, de legalább egyes részeinek időbeli koherenciáját, javítva ezáltal az archívum minőségét.


SHINE

A UKWA webarchívum által a Big UK Data Arts and Humanities projekt számára fejlesztett teljes szövegű kereső (facettás találati listával), de egyben egy prototípusként létrehozott szolgáltatás is. Utóbbihoz az Internet Archive-tól kapott, az .uk domain aratásával 1996 és 2013 között gyűjtött WARC fájlokat indexelték le, melyek mintegy 3.5 milliárd objektumot tartalmaznak. Az egyszerű és összetett keresőűrlap mellett van egy Trends nevű oldal is, ahol a keresett szó vagy szavak (utóbbiakat vesszővel kell elválasztani) előfordulásának időbeli változását nézhetjük meg egy grafikonon (sőt a trendvonal valamely pontjára kattintva max. 100 véletlenszerű weblapot is kilistáz, ahol az adott időpontban előfordult a keresett szó, s ezek archivált verzióit is megtekinthetjük). A SHINE keresőt használják a kanadai WALK projekthez is.


SingleFile fájlformátum

A Chrome böngészőhöz telepíthető kiegészítő, amivel egy weboldal minden elemével együtt egyetlen HTML fájlba menthető, kihasználva a legtöbb böngésző által támogatott "data URI" sémát, amivel bináris adatok tehetők bele egy URL címbe (BASE64 kódolással szövegként). Az így elmentett fájl Firefox, Opera, Safari és - korlátozásokkal - Internet Explorerrel is megnézhető, külön kiegészítő telepítése nélkül.


SiteCrawler

A svéd Lighthead Software által Macintosh gépekre fejlesztett, eredetileg shareware, de ma már nyilvánossá tett licenckóddal ingyen használható webhely-letöltő alkalmazás (az utolsó frissítése 2007-es). Együttműködik a Safari böngészővel, át tudja venni abból a megnyitott sessiont, így védett tartalmakat is le lehet vele menteni, ha előtte a felhasználó a Safariban bejelentkezik az adott webhelyre. A letöltendő URL címek esetében mintázatok is használhatók (szögletes ill. kerek zárójelezéssel). A letöltési paraméterek menet közben is változtathatók, a megszakított mentések pedig folytathatók. Fájlrendszerbe ment, lokalizált linkekkel. Támogatja az AppleScript-et, így más alkalmazásokból is indítható, paraméterezhető.


SiteStory

A Los Alamos National Laboratory Research Library által fejlesztett open source Apache webszerver kiegészítő, amely telepítés után minden olyan weboldalból eltesz egy példányt egy archívumba, amelyet egy kliens lekér a szervertől. Ez a fajta transactional archiving típusú mentés nagyobb eséllyel őrzi meg egy weboldal minden időbeli változását, mint a crawlerekkel végzett időnkénti aratás (legalábbis a nagy forgalmat bonyolító webhelyek esetében). Az archivált verziók a Memento protokollon keresztül érhetők el, exportálhatók WARC fájlokba, melyek azután beküldhetők valamelyik nagy webarchívumba is, illetve nézegethetők a Wayback rendszerrel.


SiteSucker

Mac OS és iOS rendszerekre írt webhely letöltő program. A lementett verzióban lokalizálja a linkeket az offline böngészéshez, de ez az opció kikapcsolható. Jelszóval védett helyeket is le tud szedni, miután bejelentkeztünk a böngészőben. A mentés bármikor megállítható, majd folytatható, illetve később újra megismételhető az eltárolt paraméterekkel.


Social Feed Manager

A George Washington University könyvtárai által a közösségi médiatartalmak (jelenleg: Twitter, Tumblr, Flickr és Sina Weibo) API-kon keresztül való archiválására fejlesztett open source szoftver. Első változata még 2012-ben készült, de 2016 júniusában egy jelentősen újraírt verziót adtak ki belőle. A szoftverrel gyűjtemények definiálhatók, megadhatók a menteni kívánt tartalomhoz tartozó account-ok vagy kulcsszavak, az aratás gyakorisága és egyéb paraméterei, és menedzselhető ill. különböző formátumokba, adatbázisokba (pl. Excel) menthető a begyűjtött anyag. A postokba és tweetekbe belinkelt/beágyazott képek és weboldalak is leszedhetők vele.


SocSciBot

A brit University of Wolverhampton egyik munkacsoportja által fejlesztett ingyenes crawler Windows-ra, mellyel egy vagy több webhely linkstruktúrája deríthető fel (és korlátozott mértékben szövegkeresésre és -elemzésre is használható).


Solr

Java-ban írt open source kereső, ami a Lucene szoftverkönyvtár indexelő és kereső funkcióira épül. (2010-ben egyesítette is az Apache Software Foundation a két fejlesztési projektet). A Lucene/Solr párost sok területen, így webarchívumok esetében is (pl. NutchWAX) használják teljes szövegű keresésre.


Spider

Lásd: crawler


Spider Test Tool

Ingyenes online szolgáltatás, amivel megnézhető, hogy egy crawler mit lát egy adott weboldalból (metaadatok, szövegek, linkek).


Spletni Arhiv NUK

A szlovén nemzeti és egyetemi könyvtár (Narodna in Univerzitenta Knjiznca) 2007-ben indult webarchiválási projektje, melyet a 2006-os kötelespéldány törvénymódosítás tett lehetővé. 2011-ig 3 terabájtot gyűjtöttek be. 2014-ig csak szelektíven archiváltak, illetve időnként eseményeket is mentettek. 2017 elején kb. 1300 webhely volt a gyűjteményben, melyek nagy része nyilvánosan elérhető. Van teljes szövegű (csak HTML fájlokban) és URL alapú keresés, valamint tematikus és ábécé szerinti böngészés is. 2014-2015-ben csinálták az első teljes körű aratást a .si domain-re, de ennek az anyagához még csak a könyvtárosok férnek hozzá. (Tervezik ennek az anyagnak az automatikus ETO-zását.) A használt szoftverek: Heritrix, Wayback és WCT. Twitter csatornákat is mentenek (pl. politikusokét) a PhantomJS segítségével. Olyan fejlesztéseket is terveznek, melyekkel a felhasználók - az élő webhez hasonlóan - bevonhatók az archív web építésébe és gazdagításába is (pl. címkézés, annotálás, saját válogatások, közösségi oldalakon való megosztás), hogy minél inkább hasznosuljon az archívum tartalma.


Stillio

Weboldalak képernyőfotóinak mentésével foglalkozó holland cég fizetős online szolgáltatása (14 napos ingyenes teszt lehetőséggel). A mentések gyakorisága lehet óránkénti, napi, heti vagy havi, és több száz URL is megadható (az előfizetés ára ezek számától és a gyakoriságtól függ). Sokféle plusz funkciót biztosít: képméret, mobil nézet, a kliens földrajzi helye, címkézés, keresés, a képek letöltése zip csomagban, megosztási lehetőség stb. Több mint 1500 előfizetője van 50 országból.


Storytracker

Pythonban írt parancsmódú eszközkészlet online híroldalak mentésére, kielemzésére és az időbeli változásokat mutató animációk készítésére.


SurfOffline

A Bimesoft cég által a Windows XP óta fejlesztett shareware offline browser (30 napos próbaidővel). Akár 100 fájlt is tud egyszerre tölteni, és egy mentés max. 400.000 fájlból állhat. Jelszóval védett területeket is lehet vele menteni, és a CSS, Flash és JavaScript linkeket is kielemzi. Sokféle szempont szerint paraméterezhető, a user-agent is állítható benne. A mentések CHM és MHTML formátumokba exportálhatók, továbbá a beépített webszerverével akár szolgáltathatók is a helyi intraneten belül.


SURT (Sort-friendly URI Reordering Transform)

Egy URL cím (illetve általában mindenféle URI azonosító) olyan egységes alakra konvertált változata, amely alkalmasabb a crawler programok számára, mint az eredeti írásmód, mert így abc sorrendben egymás után kerülnek az azonos domainhoz tartozó címek, ill. egyértelműen összehasonlíthatóvá válnak különböző címlisták. A konverzió során a címeket kisbetűsítik, megfordítják a domain névben a szintek sorrendjét és zárójelbe teszik, a "https"-t "http"-re cserélik, és van, amikor le is vágják a végét (az utolsó / jelnél), mert így egy olyan SURT prefix-et kapnak, ami minden bejárandó URL cím elé oda tehető.

Pl. a https://www.library.unt.edu/collections/digital­ URL cím SURT prefix formában: 
      http://(edu,unt,library,www,)/collections/


SWAP (Stanford Web Archive Portal)

A kaliforniai Stanford University Libraries 2014-ben indult webarchívuma. A könyvtárosok mellett az egyetemi oktatókat és kutatókat is be kívánják vonni a válogatásba, és rendszeresen mentik az egyetem különböző egységeinek honlapjait is. A lementett anyag a Stanford Digital Repository rendszerbe kerül, visszakereshető a SearchWorks nevű discovery eszközzel és megjeleníthető a Wayback-kel. A könyvtár honlapján egy részletes útmutatót is közzétettek a válogatási szempontokról és arról, hogy hogyan kell jól archiválható webhelyeket kialakítani. A komoly elméleti előkészületek ellenére 2017 tavaszán még csak néhány webhely nézhető vissza a nyilvános felületen és nincsenek adatok arról, hogy valójában mekkora az archívum.


Synchronicity

Az Old Dominion University-n fejlesztett Firefox kiegészítő, amely 404-es hiba esetén egyrészt felajánlja az oldal archivált változatait a Memento Project segítségével, másrészt különböző módszerekkel megpróbálja a webes keresőgépekkel megtalálni az új helyét (amennyiben máshová költözött), illetve legalább egy hasonló oldalt találni helyette (ha már nem létezik sehol).


SZABVÁNYOK


SZERVEZETEK


SZOFTVEREK


SZOLGÁLTATÁSOK


Target

A webnek egy archiválásra kiválasztott része. Ez lehet akár csak egyetlen dokumentum vagy fájl, egy vagy több weboldal, egy webhely része vagy részei, egy teljes webhely, vagy akár webhelyek halmaza. Ennek egy egyszeri adott mentése a target instance.


Teleport Webspiders

A Tennyson Maxwell Information Systems (Tenmax) által a Windows 95 óta mind a mai napig fejlesztett, különböző teljesítményű fizetős crawlerek (a legnagyobb teljesítményű akár 40 millió URL címet is végig tud járni egy projektben, és scriptelhető is, vagyis beépíthető egy archiváló rendszerbe). 30 napos ingyenes próbaidőszak van hozzájuk.


Tempas (Temporal Archive Search)

Időbeli szűkítést is biztosító webarchívum kereső, az Alexandria Project egyik fejlesztése. Első verziója a Delicious közösségi könyvjelző-gyűjtemény 2003 és 2011 között készült, időbélyeggel rendelkező linkjeinek címkéi közt keres a felhasználó által beállított időintervallumon belül, majd a találati listából kiválasztott webhely választott időpontbeli mentését (vagy az ahhoz legközelebbit) letölti az Internet Archive-ból vagy valamelyik másik, a Memento Projectben résztvevő archívumból. Mivel a Delicious adatbázisa korlátozott időben és bizonyos témák (pl. a technológia) túlreprezentáltak benne, ezért a Tempas második verziója a közösségi címkék helyett az adott időszakban az adott webhelyre mutató linkek szövegében keres, és a linkek száma alapján próbálja a keresett időszakban fontos webhelyeket megtalálni. (Ez a második verzió csak az Internet Archive-ból származó német webanyag - és az onnan linkelt külföldi site-ok - link-gráfjában keres.)


Temporal drift

Az a jelenség, amikor a felhasználó egy webarchívumban a linkeket követve időben is ide-oda ugrál, mert azok a mementók, amiket a Wayback Machine-ban lát, nem pontosan egy időben készültek. Hosszabb böngészés után akár évekkel is eltávolodhat a kiinduló weboldal archiválási dátumától, ami téves következtetésekhez vezethet. (Bár a Wayback minden oldal felett jelzi a mentési időpontot, de nem mindenki figyeli ezt.) Még kevésbé észrevehető és még zavaróbb az időeltolódás olyankor, amikor egy weboldalon belül a más szerverről beágyazott elemek (pl. időjárási adatok, reklámok, kommentek) egy másik időpontban történt mentésből származnak (temporal inconsistency), vagy egyenesen az élő webről jönnek (live web leakage).


Temporal information retrieval (T-IR)

Az információ visszakeresés során az időbeli relevanciát is figyelembe vevő technikák összefoglaló neve. A webarchívumok esetében ez a felhasználó számára érdekes időintervallumban mentett tartalmak megtalálhatóságát jelenti, vagy például a temporal drift jelenség kiküszöbölését.


TempWeb (Temporal Web Analytics Workshop)

Az internetes, webes tartalmak időbeli aspektusaival foglalkozó, 2011 óta minden évben, különböző országokban megrendezett egynapos workshop. Az előadások közt rendszeresen vannak webarchívumokkal foglalkozók is. 2017 április 3-án az ausztráliai Perth-ben tartották meg a WWW2017 (a 2017-es World Wide Web) nemzetközi konferencia keretében.


Time Travel

Lásd: Memento Project


Történeti kutatások

Az internetarchívumoknak köszönhetően a világhálónak múltja is van, így az kutathatóvá válik. Az internet története (pl. technológiák fejlődése, a weboldalak külalakjának változása, egyes webhelyek vagy online műfajok népszerűségének alakulása), és az emberek személyes, ill. a társadalom életének internetes leképeződése (pl. nyelvi folyamatok, divatok és mémek terjedése, politikai eszmék támogatottsága) időtengely mentén vizsgálható, azoknak a hatalmas információhalmazoknak köszönhetően, amelyek ezekben az archívumokban vannak.


Transaction-based web archiving

A weboldalak archiválásának az a módja, amikor a webszerver a kliensek által lekért weboldalakat automatikusan beküldi az archívumba is. Ez nem túl gyakori megoldás, mert a szolgáltató együttműködését igényli, és megvan az a hátránya is, hogy azok a weboldalak nem kerülnek megőrzésre, amelyeket senki nem kér le. Leginkább intézményeken belül használják olyankor, ha szükség van annak pontos rögzítésére is, hogy ki mikor és mit töltött le.


Trusted/Trustworthy digital repository (TDR)

Olyan digitális objektumtár, amelynek egyik fő célja a tartalom hosszú távú megőrzése, fenntartható és megbízható szolgáltatása a célközönsége számára a jelenben és a jövőben egyaránt, és ennek érdekében egy sor kívánalomnak megfelel. A TDR szintet tanúsító igazolvány elnyerése érdekében auditáltatnia is kell magát.


TubeKit

Pythonban írt és Creative Commons licenc alatt terjesztett eszközkészlet Youtube videók és metaadataik mentéséhez vagy crawler-típusú aratásához és gyűjteménybe szervezéséhez. Firefox-ba beépülő toolbar is létezik hozzá. (A YouTube API-jainak legutóbbi átalakítása miatt jelenleg sok funkció nem működik, de a fejlesztők dolgoznak a frissítésén.)


twarc

Az amerikai DocNow (Documenting the Now) projekt keretében fejlesztett parancssori eszköz és Python könyvtár a Twitter API-ján keresztül leszedhető üzenetek JSON objektumokként való archiválásához. Az elmentendő tweetek halmaza különböző paraméterekkel szűrhető (pl. hashtag-ek szerint), illetve "hidratálni" is lehet vele korábban kigyűjtött azonosítók alapján tweeteket, vagyis lekérni a Twittertől az egyes ID-khez tartozó üzeneteket és metaadatokat.


TwitterVane

A British Library prototípus stádiumban maradt fejlesztése, mellyel Twitter üzenetekből lehet kiszedni a bennük levő rövidített URL címeket, ezeket a rövidítéseket feloldani, majd az így helyreállított eredeti címekből a website kezdőlapjának URL-jét, ill. a domain nevét kinyerni. Az így keletkező lista azután seedként átadható egy crawlernek, hogy arassa le őket a webarchívum számára.


UKGWA (UK Government Web Archive)

A brit nemzeti levéltár webarchívuma, amely a kormányhivatalok online tartalmait gyűjti, beleértve a Twitter üzeneteket és a Youtube videókat is. Tekintve, hogy ezeknél általában nincs gond a jogokkal (a közösségi médiából is csak a kormányzati oldal kommunikációját mentik), az archívum nagy része nyilvános és egy látványos felületen kereshető, böngészhető kategóriák szerint, illetve tematikus gyűjtemények formájában is. A szolgáltatást 2015-től az Internet Memory Foundation biztosítja. Az archiválást csak 2004-től kezdték a UKWAC együttműködés keretében, de az Internet Archive-tól 1996-ig visszamenőleg megkapták a régebbi anyagokat. A Web Continuity program keretében azt is megoldották, hogy a kormányzati honlapok automatikusan a webarchívumba irányítják a felhasználókat, ha egy már nem létező weboldalt próbálnak elérni. Azt is sikerült megszervezni, hogy a webmesterek előre értesítik az archívumot, ha el akarnak távolítani valamit az "élő" szolgáltatásból, így van idő lementeni. Ez az együttműködés különösen hasznosnak bizonyult a nagy átszervezések idején, illetve amikor a kormányzati anyagokat a Gov.uk webhelyre költöztették át.


UKWAC (UK Web Archiving Consortium)

A 2001-es Domain.UK pilot után a brit nemzeti könyvtár - ausztrál mintára - intézményközi együttműködés szervezésébe kezdett a webarchiválási feladatok közös megoldása érdekében. A hat tagú konzorcium (British Library, Joint Information Systems Committee (JISC), National Archives (UK), National Library of Wales, National Library of Scotland, Wellcome Library) 2004 és 2010 között létezett. A szelektív archiválást - felosztva egymás közt a gyűjtőköröket - 2005-ben kezdték el az ingyen megkapott PANDAS rendszerrel, majd 2008-ban áttértek a WCT-re (a National Library of Scotland viszont a NetarchiveSuite mellett döntött).

Bár az együttműködést eredetileg csak 2 évre tervezték, később többször meghosszabbították, míg végül 2010 oszlott fel a konzorcium. A szakmai együttműködést a DPC kezdte el koordinálni, de a UKWAC keretében létrejött webarchívumok (pl. UKWA, UKGWA) építése és szolgáltatása tovább folyik jelenleg is.


UKWA (UK Web Archive)

A 2004-ben alakult UKWAC együttműködés keretében létrejött brit webarchívum. Szelektív archiválással kezdtek, egyedi engedélyeket kérve egészen 2013-ig, a kötelespéldány törvény kiterjesztésig. Kezdetben a PANDAS és a HTTrack szoftvereket használták, de 2008-tól már a WCT-Heritrix párossal dolgoznak. Ekkorra 2,769 webhelyet (kevesebb, mint 2 terabájtot) mentettek le, tematikus és esemény-alapú válogatással. Az alacsony számok magyarázata részben a betanulási időszak és a PANDAS problémái, részben az alacsony válaszadási arány (2008-ban 6609 kiválasztott site-tól 7,476 engedélyt kértek, de csak 1,872 jött meg, 51 elutasítás mellett). 2013-ra már 13,500 webhely (61,900 instance) volt az archívumban. A 2017 áprilisi adatok: 15,112 website (79,276 instance), 28 terabájtnyi adat. Az anyagot előbb egy külső cég (Magus Research Ltd.) hostolta, majd a University of London Computing Centre, végül átkerült a British Library digitális objektumkezelő rendszerébe. A szolgáltatás nyilvános és a visszakereshetőség mellett különböző plusz funkciók, statisztikai elemző és vizualizációs megoldások is kapcsolódnak hozzá.

Az amerikai Internet Archive és a brit JISC (Joint Information Systems Committee) partneri kapcsolatának köszönhetően 1996-tól 2010-ig, majd 2011-től 2013-ig (egy 32 és egy 26 terabájtos csomagban WARC fájlokként) megkapták az IA-tól azt a részhalmazt, amely az Egyesült Királyság webhelyeinek anyaga (UK Web Domain Dataset). 2013-tól pedig saját maguk aratják az .uk domaint (Non-Print Legal Deposit UK Web Archive). Mindkét archívum jelenleg csak helyben használható a kötelespéldány törvény alá tartozó hat brit könyvtárban, de vizsgálják, hogy hogyan lehetne belőlük nyilvánossá tehető tartalmakat kinyerni.

A British Library három webarchívumában 2015-ben 8 millió mentés volt, több mint 160 terabájt méretben (tömörített tárolással). Egy 2017 júniusi előadás szerint a teljes méret már 400 terabájt.


Umbra

Eredetileg az Archive-it szolgáltatás számára kifejlesztett szoftver, ami egy normál webböngészőn (Chrome) keresztül térképezi fel egy webhelyen belül a linkeket, így egy emberi felhasználót szimulálva a Javascript-alapú site-okat is be tudja járni (ellentétben a hagyományos crawlerekkel). A talált linkeket azután továbbadja a Heritrixnek letöltés céljából.


UNT nomination tool

A University of North Texas szolgáltatása, mellyel esemény-alapú vagy téma szerint fókuszált archiválási projektekhez lehet javasolni megőrzésre érdemes webhelyeket, weboldalakat. Általában egy már korábban összeállított seed listát szoktak vele bővíteni külső szakértők, vagy akár a téma iránt érdeklődő egyéb személyek. A szolgáltatást e-mailben lehet igényelni, és meg kell adni az archiválási projekt célját, a nevezésekre rendelkezésre álló határidőt, illetve, hogy kell-e regisztráció az ajánláshoz. Továbbá meg kell határozni, hogy az URL cím és a javaslattevő néhány adata mellett milyen mezők legyenek még az űrlapon (pl. a site fontossága, típusa, nyelve, földrajzi helye, rövid ismertetője). Az egyes projektekhez bookmarklet-ek ill. plugin-ek is kapcsolhatók, melyekkel a felhasználók a böngészőjükből közvetlenül is tudják ajánlani az éppen nézett weboldalt megőrzésre. Arra is lehetőség van, hogy egy már korábban javasolt URL-t fel- vagy lepontozzunk ("In Scope" és "Out of Scope" opciók), így jelezve annak relevanciáját az archiválási projekt szempontjából. A javaslatokat természetesen egy adminisztrátor átnézi, és törli vagy javítja vagy kiegészíti a hibás vagy hiányzó adatokat. A javasolt webcímek kereshetők, böngészhetők, különböző statisztikai összesítések nézhetők meg róluk, és letölthetők JSON fájlként (SURT írásmóddal is). A University of North Texas open source szoftverként is hozzáférhetővé tette az eszközt Django Nomination néven.


URI-M

Lásd: URI-R


URI-R

A Memento Project terminológiájában az élő weben levő eredeti forrás azonosítója (pl. URL-je). Az erről készült mentések (memento-k) azonosítói pedig az URI-M-ek.


Url Info

Egy linkgyűjtemény olyan online szolgáltatásokra, amelyek egy adott URL címmel kapcsolatban adnak vissza információkat, pl. letöltési sebesség, domain név információk, robots.txt, PageRank, cached változat. A megadott URL címet nem minden esetben tudja automatikusan továbbadni a linkelt szolgáltatásnak és nem is működik mindegyik link, pedig a copyright dátum alapján karbantartott weboldalnak tűnik.


User-agent

A felhasználó nevében/helyett valamilyen feladatot ellátó szoftverek összefoglaló neve. A web esetében ide tartoznak a böngészők, a linkellenőrök, a letöltő programok, és a különféle bot-ok - köztük a keresőrendszerek és archívumok által indított crawler-ek is. Ezek a szoftverek, amikor kapcsolatba lépnek valamelyik szerverrel, a HTTP protokollon keresztül azonosítják magukat, pl. megadják a nevüket (user agent string), a használt operációs rendszert és egyéb technikai ill. tulajdonosi adatokat. A crawler-ek gyakran egy URL és/vagy e-mail címet is megadnak, hogy a webmesterek probléma vagy kérdés esetén kapcsolatba tudjanak lépni a mögöttük álló üzemeltetőkkel. Ezek az azonosítók "hamisíthatók" is, vagyis például egy asztali gépen futó böngésző program kiadhatja magát valamilyen mobil browsernek vagy akár egy crawlernek is (Firefoxban pl. a User Agent Switcher kiegészítő telepítésével), így egyszerűen tesztelni lehet, hogy egy webszerver milyen tartalmat ad vissza, ha egy mobil kliens vagy ha egy robot kéri azt.


User Agent Switcher

Firefox kiegészítő, amivel könnyen át lehet állítani, hogy a böngésző milyen user-agentként azonosítsa magát a webszerverek felé. Van benne néhány előre definiált string (pl. iOS/Safari 10, Android/Chrome 40, Google Bot), de a kiegészítő beállításainál a "Switch to Text Mode"-ra váltva továbbiak is beírhatók, pl. a WCT esetében ez a sor:

Web Curator Tool: Mozilla/5.0 (compatible; heritrix/1.8.0 +http://dia-nz.github.io/webcurator/)

így tesztelni lehet, hogy egy adott szerver milyen tartalmat ad vissza a Google vagy a WCT robotjának.


Virginia Web Archive

A Library of Virginia 2005-ben - néhány más közgyűjteménnyel együtt - csatlakozott az Internet Archive kísérleti projektjéhez, amely az Archive-It szolgáltatás kifejlesztéséhez vezetett. Pilotként először az akkori kormányzó adminisztrációjának weboldalait archiválták, majd a 2005 őszi választások internetes anyagát is. 2006-tól már minden kormányzati webhelyet, 2007-től néhány egyéb politikai honlapot, 2008-tól pedig virginiai székhelyű szervezetek oldalait is elkezdték gyűjteni. A nem kormányzati oldalak gazdáitól egyedi engedélyeket kérnek a nyilvános szolgáltatáshoz, de ha valaki két megkeresés után sem válaszol, akkor azt beleegyezésnek veszik (de persze utólag is letilthatja a tartalomgazda a nyilvános hozzáférést). Az archívum az Archive-It Wayback Machine felületén kívül a könyvtár honlapjáról is böngészhető és kereshető (teljes szöveggel is). 2017 elején 2795 site volt benne, melyeket 18 részgyűjteménybe szerveztek.


Vizualizáció

Az archívum tartalma grafikusan is megjeleníthető különböző szempontok szerint.

Például:

Példák:


VRC (Virtual Remote Control)

Az amerikai Cornell University egyik projektje a 2000-es évek első feléből. A célja olyan módszerek kidolgozása és olyan szoftverek összeválogatása, tesztelése és értékelése volt, amikkel felmérhető egyes internetes források megszűnésének kockázata. Elsősorban a digitális kulturális örökség megőrzéséért felelős intézményeknek kívántak segítséget nyújtani, melyek a VRC Tool Boxban összegyűjtött eszközök segítségével figyelhetik a számukra fontos webhelyeket, webes forrásokat, és intézkedhetnek, ha úgy tűnik, hogy veszélyben van valamelyik fennmaradása (pl. archiválhatják azt). A webhelyek monitorozására alkalmas szoftvereket ilyen csoportokba sorolták: változásfigyelők, HTML validálók, linkellenőrök, site-menedzserek, honlaptérkép készítők, szerverállapot figyelők, web crawlerek, egyebek. Egy teszt site-ot is felállítottak, amelyben törött linkek, és más, a magára hagyott webhelyekre jellemző hibák voltak, és ezen próbálták ki az egyes eszközöket.


W3ACT (Annotation Curation Tool)

A British Library webarchívuma számára fejlesztett keretrendszer curatori feladatok ellátására: az archivált webhelyek metaadatolása, annotálása és minőségének ellenőrzése, a mentések gyakoriságának beállítása, a szolgáltathatóságra vonatkozó engedélyek nyilvántartása stb.


w3mir

Egy norvég programozó által 1997-től 2001-ig fejlesztett, Perl-ben írt ingyenes website letöltő program. Támogatja a HTML4-et, és részben a CSS-t, Java-t és az ActiveX-et. Fájlrendszerbe ment, az eredeti struktúra megőrzésével.


WA-KAT

A cseh Webarchiv számára Pythonban fejlesztett open source szoftver az archiválandó webhelyek katalogizálásának félautomatikus módszerekkel való támogatására. Pl. szerző-, cím-, dátum-, kulcsszavak-, nyelv- és hely-adatok kinyerése a dokumentumból.


WAB (Web Archiving Bucket)

Az Aleph Archives cég által 2012 óta fejlesztett ingyenes (de nem open source) szoftvergyűjtemény könyvtárak és más szervezetek számára, mely webarchiváláshoz és az archívumok kezeléséhez hasznos eszközöket tartalmaz. A főbb komponensek:

A készlet része továbbá még egy programfelügyelő, egy feladatütemező és egy karakterkészlet konvertáló program is, de ezek már nemcsak webarchiváláshoz hasznosak.


WAC 2017

Teljes név: IIPC Web Archiving Conference
Időpont: 2017. június 14-16.
Helyszín: University of London Senate House, Russell Square, London
Társrendezvény: RESAW 2017 konferencia (Research Infrastructure for the Study of Archived Web Materials)

A három napos konferencia a június 11. és 16. között tartó "Web Archiving Week" része, melyet a British Library és a School of Advanced Study (University of London) szervez a webarchiválással foglalkozó szakemberek számára tapasztalatcsere céljából, illetve hogy felhívják a közfigyelmet ennek a tevékenységnek a fontosságára.


WADL (Web Archiving and Digital Libraries Workshop)

Az észak-amerikai JDCL (Joint Conference on Digital Libraries) keretében 2013, 2015, 2016 és 2017 években megtartott workshop a webarchiválással foglalkozók számára. (2011-ben Web Archive Globalization Workshop néven rendezték meg.)


WAHR (Web Archives for Historical Research group)

A kanadai University of Waterloo, a Western University és a York University szakembereiből álló - a Microsoft által is támogatott - 2015 májusától létező szerveződés a webarchívumok anyagának kutatása céljából. Olyan projekteken dolgoznak, mint a WALK, a Warcbase, továbbá a megszűnt GeoCities 2009-es mentésének elemzése, valamint a Twitter üzenetek archiválhatósága. A csoport feladatai közé tartozik a webarchívumok fontosságának tudatosítása is a közvéleményben és a történészek között.


WAIL (Web Archiving Integration Layer)

Pythonban írt felhasználóbarát grafikus felület a Heritrix és a OpenWayback programokhoz. Leginkább egy személyes webarchívum menedzselésére alkalmas, de a szabványos WARC fájlokban való archiválás miatt intézmények számára is hasznos lehet. Windows és MacOS alatt futtatható, a Linux verzió tervben van.


WALK (Web Archives for Longitudinal Knowledge)

Egy leendő kanadai webarchiválási portál prototípusa, melyet a University of Waterloo, a York University és a University of Alberta működtet. Jelenleg csak a University of Toronto Archive-It gyűjteménye kereshető itt vissza a SHINE szoftverrel, mely a kanadai pártok és politikai csoportok webhelyeinek 2005 októbere és 2015 márciusa között archivált anyaga (14,5 millió objektum). A keresés mellett trendek is kirajzoltathatók a SHINE-nal. Továbbá néhány adathalmazt is közzétettek: az ebből a webarchívumból kigyűjtött linkeket gráf fájl formátumban (GraphML), valamint Twitter üzenetek azonosítóit.


WAM (Web Archive Manifest] fájlformátum

Egyszerű szöveges fájl egy webarchívum jellemzőinek leírására. Megadható benne például az archívum neve, URL címe, részgyűjteményei, valamint, hogy milyen domain-ra terjed ki, hogy támogatja-e a Memento protokollt és a Wayback Machine-t, van-e CDX szerver hozzá és hogy milyen API-kon keresztül érhető el.


WANE (Web Archive Named Entities)

A Stanford Named Entity Recognizer szoftver segítségével egy webarchívumból kinyert személy-, intézmény- és földrajzi neveket, valamint az őket tartalmazó weblapok vagy egyéb szöveges dokumentumok URL címeit és a mentés időpontját tartalmazó, JSON formátumú fájl. Minden WARC fájlból készíthető egy ilyen WANE fájl, ami azután felhasználható különböző statisztikai elemzésekhez, összekapcsolható névterekkel, vagy pl. a Wikipédiával.


Wappalyzer

2009 óta fejlesztett, open source JavaScript program, mellyel megállapítható egy webhelyről, hogy milyen eszközöket használ (pl. webszerver, média szerver, CMS rendszer, wiki rendszer, blogmotor, Javascript keretrendszer, forgalommérő, reklámszolgáltató, kommentelő modul, webáruház rendszer). 2017 áprilisában több mint ezer webes technológiát tartalmazott az adatbázisa, beleértve azokat az "ujjlenyomatokat" is, amelyekkel ezek távolról is beazonosíthatók (pl. a webszervertől kapott válaszoknak, az oldalak forráskódjának, vagy a srcipteknek az elemzésével). Böngészőkiegészítőként és bookmarkletként is használható, így az éppen nézett oldal egy kattintással kielemezhető, de szerverre is telepíthető és beépíthető nagyobb rendszerekbe, valamint a Wappalyzer honlapján online is kipróbálható. Hasznos eszköz lehet szelektív webarchiválásnál az egyes webhelyek technikai jellemzőinek felderítéséhez, amelyeket azután a crawler beállításainál figyelembe lehet venni.


WAR (Web application ARchive) fájlformátum

Valójában egy tömörített JAR csomag, amelyben a statikus HTML és a weblapot alkotó egyéb fájlok mellett Java servlet-ek, Java osztályok, XML állományok stb. is lehetnek, vagyis egy komplett webes alkalmazás belecsomagolható és digitális aláírással hitelesíthető. A Konqueror open source böngésző is támogatja, el lehet vele menteni weboldalakat .war fájlokba.


war2maff

WAR fájlokat MAFF formátumra konvertáló open source Python program.


WARC (Web ARChive) fájlformátum

A crawler által begyűjtött digitális objektumok és metaadataik tárolására szolgáló formátum. Az eredetileg az Internet Archive által bevezetett ARC fájltípus továbbfejlesztett változata, szabványos (ISO 28500), nyílt formátum. A WARC fájl egy olyan (jellemzően nagyméretű) csomag, amely egy vagy több WARC rekordot tartalmaz (ezeknek 8 fajtája létezik), melyek mindegyike egy header-ből és egy content block-ból áll. Utóbbiban bármilyen fájltípus tárolható.


warc-mapreduce

Java-ban írt program WARC és WET fájlok feldolgozásához a Hadoop keretrendszer MapReduce nevű API-jával. Így terabájtos méretű adathalmazok dolgozhatók fel párhuzamos módon egy több ezer node-ból álló klaszteren is hibamentesen, úgy, hogy kisebb, független csomagokra osztja fel őket a rendszer.


Warcat

Python könyvtár WARC csomagfájlokon való műveletekhez (validálás, egyesítés, szétvágás, tartalom listázása, fájlok kiszedése).


Warcbase

A kanadai University of Waterloo szakemberei által Java-ban fejlesztett, scriptelhető és jól skálázható open-source eszköz Hadoop keretrendszeren webarchívumok tartalmának menedzseléséhez, a WARC/ARC fájlokból adatok kinyeréséhez (pl. linkek, nyers szövegek), melyek azután továbbadhatók különböző kereső, elemző és vizualizáló programoknak.


WARCgames

A Webrecorder és a Perma.cc fejlesztői által összeállított mintapélda- és programkönyvtár, amely a webarchívumokat érintő biztonsági kockázatokat demonstrálja. Ezek az utóbbi időben megnövekedtek a Javascript-alapú webhelyeknek headless browserekkel vagy böngészőkbe beépülő modulokkal történő archiválásának elterjedésével, és például személyes adatok megszerzéséhez, vagy az archivált példány meghamisításához, sőt esetleg törléséhez vezethetnek. A kártékony kódokat tartalmazó archívumok pedig a felhasználóik számára is veszélyt jelentenek.


WARCIO (WARC and ARC Streaming Library)

Open source Python könyvtár streamelt (vagyis egy szerverről érkező) WARC fájlok írására és olvasására. A PyWb fejlesztésének leágazása, a Webrecorder egyik fontos komponense.


WarcManager

A University of Maryland által Java-ban fejlesztett open source eszköz WARC fájlok tartalmának elemzéséhez, böngészéséhez, indexeléséhez és kereséséhez. Egy lokális webszolgáltatást hoz létre (Tomcat és MySQL alapon), amivel URL-re lehet keresni és megnézhetők az egyes archivált objektumok.


WARCMerge

Python segédprogram WARC fájlok egyesítéséhez.


Warcprox (WARC writing MITM HTTP/S proxy)

Pythonban írt open source web proxy, ami a HTTP vagy HTTPS kérésekre érkező válaszokat WARC fájlokba írja (a védett HTTPS kapcsolatokhoz saját tanúsítványt biztosít). A segítségével egy webböngészőn keresztül is lehet szabványos WARC csomagokat készíteni, például a Crawljax programmal, így az olyan webkettes oldalak is archiválhatók, amelyek bejelentkezést és emberi interakciót igényelnek.


WARCreate

A Chrome böngészőhöz készült kiegészítő, amivel az éppen nézett weboldal elmenthető egy szabványos WARC fájlként. Integrálható a WAIL keretrendszerrel is.


warc

Python könyvtár az Internet Archive fejlesztésében, mellyel ARC és WARC fájlok fejlécei és rekordjai írhatók és olvashatók.


warc

Az R nevű programozási nyelven írt, Linux és Windows alatt is futtatható parancssoros eszközök WARC és CDX fájlok manipulálásához.


WARC Tools

A Hanzo Archives és az Internet Archive által fejlesztett, Pythonban írt open source eszközkészlet WARC fájlok kezelésére és az ARC formátumú régebbi állományok WARC-ra konvertálására. A három fázisban fejlesztett programkönyvtár scriptelhető ill. programozható komponenseivel minden olyan feladat elvégezhető, ami egy webarchívumban a WARC fájlok manipulálása során előfordul. A Hanzo egy bővítést is kiadott Search Tools néven, amiben a teljes szövegű ill. a metaadat-kereséshez szükséges segédprogramok vannak.


WARP (Web Archiving Project)

A japán National Diet Library 2002-ben indult webarchiváló projektje. Kezdetben egyedi engedélyekkel mentettek eseményeket, e-folyóiratokat, kormányzati és egyetemi honlapokat, 2006-ig csak teszt fázisban, utána kezdődött az üzemszerű aratás (akkoriban még a Wget-tel). A 2009-es törvénymódosítás lehetővé tette a nemzeti könyvtár számára az állami hivatalok és az egyetemek weboldalainak archiválását, de a szolgáltatáshoz, illetve a többi webhely esetében az archiváláshoz is továbbra is engedélyeket kérnek, így az archívumnak csak egy része nyilvános, a többi pedig helyben férhető hozzá. (Magáncégek és magánemberek oldalait nem gyűjtik, személyiségi és szerzői jogi megfontolásokból.)

A lementett webhelyekből a fontosabb publikációkat egy különgyűjteménybe is átmásolják, ahol részletesebb metaadatokat adnak hozzájuk. (2015 áprilisában 280 ezer ilyen "önállósított" e-dokumentumot katalogizáltak, melyek a nemzeti bibliográfiába és a 2.8 milliós digitális gyűjteményükbe is bekerültek.) 2012-ben volt egy újabb jogszabályi változás, ami előírta a kiadóknak, hogy az elektronikus publikációikat (PDF, EPUB vagy DAISY fájlok, illetve ISBN, ISSN vagy DOI azonosítóval rendelkező dokumentumok) küldjék be a nemzeti könyvtárnak, vagy engedjék azok begyűjtését. Az archívum gyorsan nő: 2005-ben 3,388 webhely (12,021 mentés, 3.108 terabájt), 2010-ben 6,181 webhely (27,317 mentés, 51.696 terabájt), 2015-ben 10,886 webhely (102,891 mentés, 705.904 terabájt).

2013-tól már a WARP rendszer harmadik generációja üzemel: Heritrix, Wayback és Solr alapokon. A előbbinél a de-duplication mód be van kapcsolva, így - egy három hónapos teszt adatai alapján - 70%-kal csökkenthető a szükséges tárhely. Keretrendszernek a WCT-t használták az előző WARP verziónál, de nagy tömegű párhuzamos job esetében visszaesett a teljesítménye, ezért egy saját rendszert csináltak, ami akár 120 feladatot is képes kezelni egyidejűleg. A szolgáltató felület szintén saját fejlesztés, amivel keresni (teljes szövegben is) és böngészni lehet, de például a japán kormányzati webhelyek közötti link-kapcsolatokat is meg tudja jeleníteni. Az archivált webhelyeket leíró metaadatok a könyvtár közös keresőjében is megtalálhatók, sőt a 2011-es nagy japán földrengés tematikus portálja, a HINAGIKU számára is továbbadják azokat, amelyek ezzel a témával kapcsolatosak.


Warrick

Az Old Dominion University-n fejlesztett parancssoros alkalmazás, ami a nagy webes keresők cache-ben tárolt fájljaiból, valamint a Memento Project-hez csatlakozott webarchívumokban levő másolatokból megpróbálja helyreállítani egy webhely tartalmát (pl. véletlen törlés, vagy hacker-támadás után).


WAS (Web Archiving Service)

A California Digital Library Heritrix, Wayback és NutchWAX szoftverekkel működtetett, non-profit webarchiváló szolgáltatása partnerintézmények számára. Mintegy húsz amerikai (nagyrészt egyetemi) könyvtár vette igénybe a rendszert és épített különböző tematikus gyűjteményeket vele. 2013-ban 58 nyilvános archívum volt (5258 webhely, 675 millió fájl, 35.4 terabájtnyi mennyiségben). A szolgáltatás 2005 és 2014 között létezett, utána a gyűjteményeket átadták az Archive-It-nek, mert már nem tudták tovább finanszírozni és lépést tartani a technológiai fejlődéssel.


WASAPI (Web Archiving Systems API)

Az Archive-It, a Stanford University Libraries, a University of North Texas és a Rutgers University 2016-ban indított két éves projektje, melynek keretében szabványos API-kat, export és import funkciókat alakítanak ki a webarchívumokban levő metaadatok cseréjéhez, elősegítve ezzel az adatok megőrizhetőségét és kutathatóságát.


WAS (Web Archive Singapore)

A szingapúri National Library Board (mely alá a nemzeti könyvtár és a levéltár, valamint 26 közkönyvtár tartozik) által működtetett webarchívum. Az IIPC által ajánlott Heritrix, Nutchwax és WERA szoftverekkel kezdték el a munkát. Mindenféle témájú webhelyet gyűjtenek 2006 októbere óta, és a tematikus besorolás mellett egy néhány mondatos angol nyelvű ismertetőt is írnak róluk. 2005-ben egy ezer tételes archívumot céloztak csak meg, de már 2007-ben meghaladták a háromezret. Akkor mintegy 72 ezer aldomain volt az .sg alatt és ezeknek a teljes körű aratását is elkezdték évente egyszer, de technikai korlátok miatt 2009-re még csak mintegy 20 ezret tudtak letölteni. Azok a szelektíven mentett webhelyek, amelyekre az eredeti tartalomgazda engedélyt adott, nyilvánosan is hozzáférhetők.


WAT (Web Archive Transformation) fájlformátum

JSON formátumban tárolt strukturált metaadatok és URL-ek, amelyek az ARC és WARC csomagok fejlécéből nyerhetők ki. (A WAT fájl 20-25%-kal kisebb, mint az ARC/WARC.) Az így kigyűjtött és optimális formátumú metaadatok azután már könnyen elemezhetők és feldolgozhatók nagy adatmennyiségekhez tervezett elosztott alkalmazásokkal (pl. Hadoop).


WAT Utilities

A WAT metaadat-fájlok előállítására és kezelésére az Internet Archive által kifejlesztett open source Java segédprogram.


WAX (Web Archiving Collection Service)

Az amerikai Harvard University könyvtárának és néhány más egyetemi partnernek 2006-ban kezdett szelektív webarchiválási pilot projektje és szolgáltatása, mely a Heritrix, a Wayback és a NutchWAX szoftvereket használja, valamint egy Quartz nevű feladatüzemező programot. Egy saját adminisztrációs felületet is kifejlesztettek WAXI néven, amivel a válogatás, a crawler paraméterezése és ütemezése, valamint a metaadatolás elvégezhető. A crawler tiszteletben tartja a robots.txt-ben levő előírásokat. A tárolás a könyvtár DRS (Digital Repository Service) rendszerében van megoldva. A nyilvános böngésző és kereső felület 2009 februárjában készült el. Néhány témakörben gyűjtenek webhelyeket, témánként néhányszor tízet vagy százat. Az egyetem bármely egysége használhatja a rendszert, ha egy részgyűjteményt szeretne építeni webes tartalmakból, csak ki kell jelölni egy kurátort, aki tartja a kapcsolatot a könyvtárral, valamint kitölteni egy kérdőívet. (A szolgáltatás és az archiváló rendszer igénybevételéért és a tanácsadásért 2015 nyaráig a könyvtár díjat számolt fel, de azóta már ingyenessé tették, csak a tárhelyért kell fizetni.)


WAXToolbar

Egy Firefox kiegészítő, amivel a Wayback Machine vagy egy NutchWAX index böngészőből lekérdezhető. Ha van archivált változata az éppen nézett weboldalnak, akkor oda-vissza lehet vele kapcsolni az élő és az archív példány(ok) között.


Wayback/OpenWayback

Az Internet Archive által fejlesztett open source szoftver a Heritrix crawlerrel begyűjtött és WARC formátumban tárolt weboldalak URL alapján történő időskálás megjelenítéséhez. A Wayback Machine eredetileg perl programjának Java-ra átírt változata. Újabb verziója az IIPC által támogatott OpenWayback.


Wayback Machine

Az Alexa Internet cég által az 1996 óta az Internet Archive-ban archivált weboldalak visszakereső és megjelenítő felülete. A szoftverjét eredetileg perl-ben írták, de 2005-től egy nyílt forráskódú Java verziót is fejlesztenek wayback néven. A visszakeresés URL cím alapján történik (vagyis ismerni kell az eredeti weboldal címét), de a 2016 őszén béta változatban elindult új verzió már keresni tud a weboldalakra hivatkozó linkek szövegében is. (A weboldalak teljes szövege továbbra sem kereshető, mert bár 2009-ben az IA megpróbálkozott az 1996-2000 közötti időszak kereshetővé tételével, a relevancia szerinti rendezést nem tudták jól megoldani, így használhatatlanul szemetesek voltak a találati listák.)

Egy adott weboldal mentései az éveket mutató időskála alatti naptáron láthatók pöttyökkel jelölve. Ezek színe a crawler által a szervertől kapott kódtól függ: a kék a 200-as kódokat jelenti, vagyis a sikeresen teljesített kérést, a zöld a 300-as átirányítást, a narancs a 400-as kliens hibákat (pl. a 404: a kért oldal nem található), a piros pedig az 500-as, vagyis a szerver oldali hibakódokat.


Wayback Machine Downloader

Fizetős szolgáltatás, amely letölti a Wayback Machine-ból valamely website mentését és helyreállítja azt (eltávolítja a WM fejlécét, átírja a linkeket, sőt kérésre WordPress formára konvertálja), majd elküldi egy ZIP csomagban a megrendelőnek (az esetleges hiányok listájával együtt). Néhány lehetséges ok, amikor ez a szolgáltatás hasznos lehet:

Havonta max. 100 webhely helyreállítását lehet megrendelni, 10 szint mélységig és egy ilyen ZIP csomag átlagosan nem lehet nagyobb 10 Mbájtnál.


Wayfinder

A WebArchivist.Org szervezet egy tagjának 2006-ban megjelent "Web Campaigning" című, az internetes politikai kampányokat elemző könyvéhez tartozó digitális melléklet egyik szolgáltatása, mellyel - regisztrálás után - tanárok és diákok hozzáférhettek egy, az amerikai választásokról készült kisebb webarchívumhoz, és címkézhették, ill. kommentelhették a benne található oldalakat.


WCT (Web Curator Tool)

Open source munkafolyamat nyilvántartó szoftver szelektív webarchívumok építéséhez. A Heritrix-szel van összeépítve és egy felhasználóbarát felületen lehet vele a válogatást, az aratási folyamatot és annak ütemezését, a minőségellenőrzést, a metaadatolást, az engedélyeket stb. menedzselni. 2006-ban a National Library of New Zealand és a British Library kezdte fejleszteni (az IIPC kezdeményezésére). Java-ban írják, és Oracle, MySQL ill. PostgreSQL adatbázisokat egyaránt támogat. A Heritrix mellett ezeket a szoftvereket használja még: Wayback, Acegi Security System, Apache Tomcat, Apache Axis, Apache Commons Logging, Hibernate, Quartz, Spring Application Framework. Együtt tud működni az ExLibris cég Rosetta nevű DPS rendszerével is, így az új-zélandi könyvtár ebben tárolja a WCT-vel archivált anyagot.


web-archive@groupes.renater.fr

A francia nemzeti könyvtár 2001 óta működtetett nemzetközi levelezőcsoportja a webarchiválás, az online kiadványok kötelespéldány beszolgáltatása és a digitális megőrzés témájában, beleértve ezek technikai, jogi és szervezeti kérdéseit. A lista archívuma nyilvános és bárki feliratkozhat.


Web-Archiv des Deutschen Bundestages

A német parlament webarchívuma, mely a www.bundestag.de és néhány további kapcsolódó webhely rendszeres mentéseit tartalmazza 2005-től. Általában 4 hetente mentenek, hacsak nincsen valamilyen különleges esemény (pl. választások), mert olyankor gyakrabban. Saját fejlesztésű rendszerrel dolgoznak, melyet a Bundestag informatikai szolgálata és a levéltára közösen alakított ki. A mentett tartalom előbb egy technikai szerkesztésen esik át (pl. a külső szerverekre mutató linkeket deaktiválják) és ellenőrzik, hogy helyesen jelenik-e meg, utána kerülhet csak át a nyilvános szolgáltatásba.


Web-at-Risk

A California Digital Library és több partnerintézmény 2005-2009 között, az NDIIPP támogatásával megvalósult projektje. A fő célja egy webarchiváló rendszer és szolgáltatás, a WAS kifejlesztése volt, mely a válogatás, a mentés, a gondozás, a megőrzés és szolgáltatás fázisaira egyaránt kiterjed. E mellett kérdőíves felméréseket és egyéb kutatásokat is végeztek, valamint útmutatókat és jelentéseket írtak a webarchiválás témájában. A projekt során lementett webes tartalmakat és magát a WAS rendszert 2015-ben átadták az Internet Archive Archive-It szolgáltatásának, mert már nem tudták biztosítani a folyamatos fejlesztését.


Web2Warc

Java-ban írt, igény szerint alakítható, paraméterezhető, egyszerű crawler, ami CDX és WARC fájlokba ment. A Scala és az SBT programkörnyezetet használja.


Web@rchiv Österreich

A 2001-es első AOLA pilot után az Österreichische Nationalbibliothek 2008-ban kezdett újra webarchiválással foglalkozni. A 2009 januárjában megjelent új média törvény megteremtette a webarchiválás jogi alapját. Egy ismételt pilot szakasz után 2010 tavasza óta üzemszerűen mentik az osztrák weboldalakat, valamint az Ausztriával kapcsolatos külföldi honlapokat. A NetarchiveSuite rendszert használják, a megjelenítés az OpenWayback szoftverrel történik, a kereső pedig a NutchWAX. A robots.txt-t figyelmen kívül hagyják a Heritrix konfigurálásánál. Nem mentenek stream-elt AV tartalmat, kereshető adatbázisokat, közösségi médiát. Háromféle archiválást végeznek:

Az archívum a nemzeti könyvtáron belül férhető hozzá, valamint néhány további osztrák könyvtárban is, de az URL-alapú és a teljes szövegű kereső nyilvánosan használható a honlapon. (Csak a mentések időpontja tudható meg belőle, viszont ezek könyvjelzőzhetők, e-mailben elküldhetők és a könyvtárban ezekre a linkekre kattintva megnézhetők a hozzájuk tartozó archivált példányok.) 2017 áprilisában 3 milliárd objektum volt itt visszakereshető URL cím alapján, illetve közel 14 millió szöveges dokumentumban lehetett keresni. Az archívum mérete ekkor 96 terabájt volt.


WebAnalyzer

A cseh Webarchiv számára kifejlesztett open source szoftver, ami különböző kritériumok alapján pontozza a crawler által talált weboldalakat, és ha ez a pontszám elér egy határértéket, akkor az az oldal a cseh web részének tekinthető és archiválásra kerül.


Webarchief KB

A holland nemzeti könyvtár, a Koninklijke Bibliotheek 2007 szeptemberétől működő szelektív webarchívuma. Elsősorban a tudományos és kulturális, továbbá az innovatív webhelyekre koncentrálnak a válogatáskor (mert a politikai ill. az audiovizuális tartalmakat más holland webarchívumok mentik), és engedélyt kérnek a robottal való bejáráshoz, a lementéshez és a szolgáltatáshoz. A tartalomgazdának 4 hete van egy opt-out nyilatkozat visszaküldésével megtagadni ezt. A felhasználók is javasolhatnak megőrzésre érdemes honlapot. Egy webhelyet évente egyszer-kétszer archiválnak, de a főbb hírportálokat naponta, viszont csak hónapok múlva válik a mentés visszakereshetővé. A Heritrix és Wayback párost használják, de még fejlesztik a rendszert. A Heritrix részben polite crawler módban dolgozik: ötször annyi ideig vár a következő kéréssel, mint amennyire az előző kérés teljesítéséhez szüksége volt a webszervernek, de a robots.txt-t figyelmen kívül hagyják (hacsak a site gazdája külön nem kifogásolja), mert a tapasztalatok szerint sokszor nem szándékosan vannak kitiltva a robotok, csak mert ez a webszerver vagy a CMS rendszer alapbeállítása.

Az .nl top domain teljes aratásával nem próbálkoznak, túl nagy a feladat (5.74 millió regisztrált domain) és inkább kevés, de teljes értékű mentést akarnak, sok töredékes helyett. 2017 elején 12 ezer webhelyről 25 terabájt adatot tároltak (ezek negyede már időközben eltűnt az élő webről). Hozzáférés (2011 óta) csak helyben lehetséges, jogi okok miatt (nincs még kötelespéldány szabály a webes tartalmakra), de saját célra lehet másolatot készíteni.


Webarchive fájlformátum

MAC OS és Windows rendszereken használt bináris csomagformátum weblapok tárolására (beleértve az oldalhoz tartozó kép, média, CSS, Javascript és egyéb fájlokat, valamint azok neveit is). Elsősorban a Safari böngésző támogatja (bár iOS rendszereken az sem). Kicsomagolni olyan segédprogramokkal lehet, mint a WebArchive Extractor és a WebArchive Folderizer, de a Microsoft Word is beolvassa és utána el lehet vele menteni a Fájl/Mentés weblapként... menüponttal.


webarchive-indexing

Nagyméretű webarchívumok indexelésére is alkalmas Python scriptek, melyekkel kinyerhetők az URL-ek a WARC (vagy ARC) csomagokból CDX indexfájlokba.


WebArchivePlayer

Pythonban írt ingyenes program OS X és Windows rendszerekre WARC és ARC fájlok böngészőben való nézegetésére. Egy helyi (localhost) szervert indít és azon keresztül jeleníti meg a megnyitott archív fájlt tartalmát (internet kapcsolat sem kell hozzá). A szoftvert már nem fejleszti a készítője, helyette a Webrecorder Playert javasolja.


WebArchivist.Org

A University of Washington és a State University of New York Institute of Technology kutatással és szoftverfejlesztéssel foglalkozó - a 2000-es évek elején aktív - munkacsoportja, melyben tudósok, könyvtárosok és levéltárosok dolgoztak együtt a weben található tartalom elemzésén és megőrzésén. Néhány projekt, amelyben részt vettek: Asian Tsunami Web Archive, Election 2002 Web Archive, September 11 Web Archive, Internet & Elections Project Web Archive, Student Project Archiving System. (Utóbbi egy olyan rendszer volt, mellyel diákok válogathattak - tanári felügyelettel - a saját tematikus projektjükhöz kapcsolódó webes tartalmakat, amelyeket azután a WebArchivist.org archivált.) WebArchivist toolkit néven egy keretrendszert is fejlesztettek a mentésre kiválasztott webhelyek nyilvántartására.


WebArchivist toolkit

Lásd: WebArchivist.Org


WebArchiv

A cseh nemzeti könyvtár webarchiváló projektje, mely - egy egyetemi partnerrel együttműködve - 2000-ben indult egy 2 éves pilot fázissal. Teljes körű (site-onként max. 5000 fájl), szelektív és esemény-alapú archiválást is végeznek a Heritrix programmal (2004-ig a NEDLIB Harvestert használták). A projekt melléktermékeként URN szervert, DC- és MD5 checksum generátort is beüzemeltek.

2001 őszétől 2017 tavaszáig 245 terabájtnyi tartalmat gyűjtöttek be és 5129 tartalomszolgáltatóval kötöttek szerződést. Csupán az anyag egy része nyilvános (amire engedélyt adtak a tartalomgazdák), a teljes archívum csak a könyvtáron belül érhető el. Kiemelten gyűjtik a kulturális, tudományos és történeti értekkel rendelkező, eredeti és különleges, hosszú távon is értékes tartalmakat.

A gyűjtőkört a nemzeti bibliográfia alapján határozták meg:

minden, ami a Cseh Köztársaság területén jelenik meg,
minden, ami cseh nyelven van,
minden, amit cseh alkotó hozott létre,
és minden, aminek köze van a cseh néphez vagy országhoz.


Webarchiv Schweiz

A Schweizerische Nationalbibliothek 2008 óta archivál webhelyeket a Heritrix-szel. A lementett tartalom a svájci nemzeti könyvtár e-Helvetica rendszerében érhető el a digitális állomány többi részével együtt, de van ott egy külön űrlap is a webarchívumban való kereséshez (akár a teljes szövegben is). A metaadatok a könyvtár Helveticat katalógusába is bekerülnek és más intézmények számára is átvehetők OAI-PMH protokollal. Az archivált tartalom csak helyben nézhető meg a nemzeti könyvtár és néhány partnerintézmény gépein (utóbbiak a válogatásba is besegítenek).


WebART (Web Archive Retrieval Tools)

Az amszterdami egyetem, a holland nemzeti könyvtár és a Centrum Wiskunde and Informatica kutatóintézet 2010-2015 közötti projektje, olyan keresési, elemzési és egyéb megoldások kifejlesztése céljából, amelyekkel a webarchívumokban tárolt tartalmat jobban, könnyebben lehet kutatni (elsősorban humán tudományok művelői számára).


WebAssistant

Java-ban írt, így Windows, Mac OS X és Linux rendszereken egyaránt futtatható, magánhasználatra ingyenes, weboldal-letöltő szoftver, amely proxy szerverként beépül a távoli webszerverek és a felhasználó böngészőprogramja közé, és archivál mindent, amit a browser lekér az internetről, illetve automatikusan frissíti a már korábban letöltött fájlokat. Offline állapotban ugyanazokkal az URL címekkel (pl. könyvjelzőkkel) érhetők el a lementett weboldalak, mint az eredetiek, ill. össze is hasonlíthatók az esetleges különbségek köztük. Az archívum kereshető és más alkönyvtárakba vagy adathordozókra is kimásolható (így ezek a másolatok már nem frissülnek automatikusan). Webhely letöltő üzemmódja is van, mellyel a kezdőlaptól számítva megadott mélységig mindent lement automatikusan.


WebBase

A Stanford Digital Libraries Project keretében (a Google keresőjéhez vezető korábbi kutatásokra építve) a 2000-es évek első évtizedében fejlesztett webarchiváló rendszer és archívum is egyben, főként tudományos célokra (pl. történészeknek, szociológusoknak, nyelvészeknek). Fókuszált gyűjteményeket építettek (pl. kormányzati oldalak, újságok, egyetemek, választások, és a Katrina hurrikán után is mentettek minden nap néhány hétig 350 webhelyről), melyeket részben vagy egészben streamelt (multicast) módon gyorsan letölthetett bárki egy Wibbi nevű webfelületről. 2004 és 2008 szeptembere közt (tömörítetlenül) 117 terabájtnyi anyagot mentettek le a WebVac crawlerrel (korlátozva a mélységet és a méretet), de 2011 augusztusában már 260 terabájt (7 millárd fájl) volt a teljes mérete az archívumnak, melyet saját formátumról előbb ARC, később WARC formátumra konvertáltak egy C++ programmal.


WebCapture

A 2000-es évek elején, eredetileg a Tower Technology cég által fejlesztett, Seraph nevű intézményi/céges elektronikus dokumentumkezelő rendszer tranzakciós-elvű webarchiváló komponense, melyet 2004-ben megvett a Vignette vállalat (de ma már ők sem forgalmazzák).


WebCite

Elsősorban szerzőknek, szerkesztőknek stb. szánt ingyenes on-demand archiváló szolgáltatás (de intézményi partnerprogramjuk is van, pl. könyvtáraknak), amely archiválja és stabil URI-val látja el a felhasználó által javasolt publikációkat és egyéb online forrásokat, így biztosítva, hogy az ezekre való hivatkozások hosszú távon is működőképesek maradnak. Böngészőbe beépíthető könyvjelző alkalmazás is van hozzá.


WebCopier

Windows és Macintosh gépekre fejlesztett fizetős offline browser. Saját böngészőt használ, amiben látszik a webhely struktúrája és a letöltési folyamat is. WebCopier Pro nevű változata is van, több képességgel (pl. adatbányászat). Java, Flash, PDF és CSS fájlokat is ki tud elemezni és a bennük levő linkeket is követi. Fájlstruktúrába ment, de tud ZIP, MHTML és CHM fájlokba is menteni, illetve iPhone/iPad mobilokra exportálni. A letöltések ütemezhetők.


webcurator-users

A WCT keretrendszert használók számára létrehozott levelezőcsoport.


WebDam

2009-2013 közötti EU-s projekt, melynek a francia INRIA számítástechnikai kutatóintézet adott helyet. A fő célja egy formális modell kidolgozása volt a webes adatok kezelésére. Egy olyan univerzálisan elfogadott keretrendszert kívántak megalkotni, amellyel komplex, rugalmasan együttműködő webes alkalmazások írhatók le, beleértve az adatok cseréjét, megosztását, integrálását, lekérdezését és frissítését, ezzel segítve a jövőbeli webes szoftverfejlesztéseket. A projektben dolgozó egyik szakember témája a robottal való bejárásos-aratásost módszer helyett a blogbejegyzések és hírek RSS/Atom feed-eken keresztül való archiválásának kutatása volt.


Webhely helyreállítás

A webarchívumokban tárolt mentésekből többé-kevésbé rekonstruálni lehet egy korábbi webhelyet, vagy legalább a tartalmát visszamenteni, ha a funkcionalitása nem is állítható automatikusan teljesen. Erre pl. véletlen törlés, vagy hacker támadás esetén lehet szükség, amennyiben nem volt saját biztonsági mentése az eredeti szolgáltatónak vagy tartalomgazdának. De lehet például nosztalgiából is újra életre kelteni régen eltűnt webhelyeket (amennyiben ennek szerzői jogi akadálya nincs). Ilyen célra fejlesztett szoftverek például a Warrick és a Wayback Machine Downloader.


webkit2png

A Safari böngésző által is használt WebKit-re épülő parancssori eszköz weboldalról PNG képernyőfotók készítése céljából.


WebPreserver

Lásd: PageFreezer


Webrary

A könyvtárak által épített webarchívumokra Niels Brügger által javasolt megnevezés, amivel megkülönböztethetők lennének a levéltárak webarchívumaitól (tekintve, hogy az angol "archive" szó valójában levéltárat jelent). A könyvtárak hagyományos feladata a publikált (a mindenki számára nyilvánosan elérhetővé tett) dokumentumok gyűjtése, míg a levéltáraké a nem publikált (csak szűk körnek vagy csak saját használatra szánt) dokumentumoké, és ez a munkamegosztás nagyjából megmaradt a digitális dokumentumok megjelenése után is. Ugyanakkor az is igaz, hogy a weben elmosódik a határ a publikált és a nem publikált (vagy legalábbis nem annak szánt) tartalmak között, így e kétféle memóriaintézmény típus gyűjtőköre átfedésbe kerül (pl. a könyvtárak is gyűjtenek a webről levelezőfórumokat, blogokat, személyes digitális fotókat és videókat, intézményi és céges iratokat, amely műfajok korábban jellemzően csak a levéltárakban voltak megtalálhatók).


Webreaper

Az egyik legelső, ingyenes, crawler-típusú webhelyletöltő program Windows-ra, amit 1998 és 2006 között fejlesztett a készítője. Fájlrendszerbe ment, a linkeket lokálissá alakítja és még a Flash fájlokban is tudja őket módosítani. Egy nagyon komplex, 12-féle, hierarchikusan egymásba ágyazható szűrőrendszert lehet definiálni, amivel a crawler viselkedése szabályozható (ehhez egy beállítás-varázslót is tartalmaz és az egyes beállítások el is menthetők). A letöltés több szálon megy és felhasználói megszakítás esetén folytatható. Parancsmódban is futtatható valamilyen Windows-os feladatütemezővel. A GetRight fájlletöltő programmal is összekapcsolható nagy méretű fájlok hatékonyabb letöltése céljából.


Webrecorder

A Rhizome non-profit szervezet által 2016 óta fejlesztett és az Andrew W. Mellon Foundation támogatott, Pythonban írt open source program a weben való böngészések archiválására és utólagos visszanézésére (csak a felhasználó által meglátogatott oldalak nézhetők újra). Elsősorban a közösségi média megőrzésére optimális, olyan regisztrációhoz kötött, interaktív, dinamikus, média-gazdag oldalakhoz, amelyekkel a hagyományos crawler-ek és egyéb letöltők nem boldogulnak. Az archív tartalom WARC formában tárolható (és fel- ill. letölthető az WebRecorder.io szerverre, ami 5 GB ingyen tárhelyet ad), a session-ok fájlkezelő-szerű felületen menedzselhetők és megoszthatók másokkal.


Webrecorder Player

A Webrecorder-re épülő, OS X, Windows és Linux rendszereken futó ingyenes megjelenítő WARC, ARC és HAR formátumú archív fájlokhoz. Internet kapcsolat nem kell hozzá, vagyis offline is visszajátszható egy korábban a Webrecorder-rel rögzített böngészés.


WebShot

Internet Explorerre épülő (utoljára 2013-ban frissített) ingyenes képernyőfotó készítő program weboldalakról.


Website2PDF

A WebZIP-et is fejlesztő Spidersoft egyik terméke régebbi Windows-okra (2009-es az utolsó verzió), amivel egy URL címlistát lehet létrehozni és menedzselni, majd egy gomb megnyomása után a program betölti ezeket a weboldalakat a saját böngészőjébe és egyetlen PDF fájlba menti az egészet. Maga a címlista is elmenthető egy hierarchikus XML fájlba szabványos OPML (Outline Processor Markup Language) formátumban.


Website Ripper Copier (WRC)

Az amerikai Tensons Corporation cég nagy teljesítményű, funkciógazdag offline browsere Windowsra. Shareware program 30 napos próbaidővel. 2004 óta fejlesztik, az Internet Explorerre épül rá. HTTP, HTTPS és FTP kapcsolatokon keresztül tud letölteni, jelszóval védett webhelyek is menthetők vele, a letöltések sokféle szempont szerint paraméterezhetők (még a linkek szövege alapján is), és a mentések folytatására ill. menedzselésére is vannak külön funkciói. A mentett webhelyek esetében linkellenőrként is használható, továbbá adott fájltípusokat ki lehet vele gyűjteni belőlük.


WebSpider 2

A német Xaldon Technologies által fejlesztett ingyenes webhely letöltő szoftver Windows-ra. Egyszerűen kezelhető, de jól paraméterezhető felhasználói felülete van. A mentések leállíthatók és folytathatók, ill. frissíthetők. A Java appleteket és a Flash vidókat is kielemezi.


WebVac

A WebBase projekt keretében kb. 2012-ig használt crawler. (2003 augusztusáig Pita volt a neve.)


WebVCR

Az amerikai NetResults Corporation webhely letöltő szoftvere Windows 95-re és Windows NT-re. A videomagnókhoz hasonló felületen lehet vele (akár előre programozott időpontokban, megadott mélységig, összméretig vagy ideig) "felvenni" és "lejátszani" site-okat. Ismételt mentéskor csak a megváltozott oldalakat tölti le. Közvetlenül lehet vele menteni hordozható winchesterekre és optikai lemezekre is.


WebWhacker

A Blue Squirrel cég által egészen régóta, 1997-től fejlesztett webhely letöltő és offline böngésző Windowsra. (Fizetős termék, ingyenes kipróbálási lehetőséggel.) Megőrzi az eredeti fájlstruktúrát és linkellenőrzést is végez. A letöltések, illetve a korábbi mentések frissítései időzíthetők. Automatikusan figyeli az eredeti website-ot és értesítést küld, ha változik a tartalma.

A British Library első webarchiválási kísérleténél: Domain.UK a HTTrack mellett ezt a szoftvert is kipróbálták.


WebZIP

A Windows 98 és Windows XP közötti időszakban egy ausztrál cég által fejlesztett, könnyen kezelhető webhelyletöltő shareware program (a 28 napos próbaidőszak után már csak 20 oldalt ment le site-onként). Részletesen konfigurálható és ütemezhető. Fájlrendszerbe ment, de lehet vele konvertálni CHM formátumba is, illetve ZIP csomagként is tudja kezelni a mentéseket.


Web Archives 2015: Capture, Curate, Analyze

A University of Michigan Library és a Bentley Historical Library szervezésében 2015 novemberében megtartott kétnapos konferencia a webarchiválás aktuális problémáiról, valamint a webarchívumok oktatásban és kutatásban való hasznosíthatóságáról.


Web Archives Workbench

Lásd: ECHO DEPository


Web Archive Analysis Workshop

Az Internet Archive fejlesztésében készült eszközkészlet WARC fájlok feldolgozására (pl. CDX és WAT indexfájlok generálására, metaadatok, szövegek és linkek kinyerésére és elemzésére, gráfok generálására stb.)


Web Archive Commons

IIPC tagok által fejlesztett Java-s eszközkészlet WARC fájlok manipulálásához. Dokumentáció sajnos nincs hozzá.


Web Archive Discovery

A UK Webarchive projekt keretében fejlesztett teljes szövegű indexelő rendszer, amely az ARC vagy WARC formátumban tárolt tartalmakat teszi visszakereshetővé a Solr számára. Az indexelés mellett még egyéb funkciókat is elvégez az archív csomagokból kinyert fájlokon, pl. formátum elemzés, megőrzési kockázat-felderítés, linkek és metaadatok kinyerése.


Web Archive Downloader

Website letöltő Windowsra. (Fizetős program, az ingyenes próbaverzió csak 20 fájlt ment le.) Egyszerű kezelőfelülete van: meg kell adni a kezdő URL címet, és először csak a linkeket tölti le, amelyek listájában kijelölhetjük, amikre nincs szükségünk. A HTML fájlok mellett a CSS fájlokat és a beágyazott képeket, ill. videókat is képes letölteni. Ismételt mentéskor csak a változásokat szedi le.


Web Archive Explorer (Wayback Player)

Java-ban írt eszköz ARC és WARC fájlok indexeléséhez, majd Waybackben való megtekintésükhöz.


Web Archive Groningen

Hollandia Groningen nevű tartományának és a hasonló nevű városnak a webarchívuma, melyet - más digitális és hagyományos gyűjteményekkel együtt - a Regionaal Historisch Centrum Groninger Archieven gondoz (az üzemeltető az Archiefweb.eu). A helytörténet, helyismeret szempontjából érdekes webhelyeket és blogokat gyűjtik (beleértve az audiovizuális tartalmakat is), de a közösségi média mentése még csak terv. Egy év alatt kb. ezer site-ot válogattak össze és mentettek le. A felhasználók is javasolhatnak megőrzésre érdemes URL címeket. Jelenleg nincsen nyilvános szolgáltatás belőle.


Web Archive of Cacak

Amikor 2008-ban elkezdődött a szerb webszerverek átállítása a korábbi .yu-ról az .rs domainre, akkor sok webes tartalom elveszett és rengeteg link, hivatkozás megszűnt működni. A közép-szerbiai Čačak város könyvtárának digitalizációs központjában 2009-ben összeállítottak egy kb. 50 tételes listát főként a város és környékének kulturális és helytörténeti témájú webhelyeiről, amelyeket azután a HTTrack-kel letöltöttek. Ez a szám később 130-ra nőtt (negyedéves mentésekkel) és 2010-ben 255 ezer fájl, 13 gigabájt volt az archívum (egy 2011-es adat szerint pedig már 26 gigabájt), de hozzáférést nem biztosítottak, mert csak a szolgáltatók 10%-át tudták e-mailben elérni, bár azok szinte 100%-ban engedélyt adtak rá.

A szerb nemzeti könyvtár - főként a jogi felhatalmazás hiányában - még nem működtet webarchívumot, de a tervezik azt.


Web archive of the EU institutions

2013 végén indult pilot projekt az Európai Unió intézményeinek (pontosabban az europa.eu domain alatt levő összes webhelynek) legalább negyedévenkénti mentésére és nyilvános szolgáltatására. A projektet a Historical Archives of the European Union és a Publications Office of the European Union irányítja, magát az archiválást és a szolgáltatást az Internet Memory Foundation végzi.


Web Archive Taiwan

A tajvani nemzeti könyvtár 2006-ban elindított egy pilot projektet webhelyek megőrzésére, ebből nőtt ki a jelenleg is működő rendszer. Szelektíven gyűjtenek sokféle témában: kormányzat, oktatás, tudomány, könyvtárak, kultúra és a társadalom életének további nagy területei. A gyűjtemény méretét és változatosságát intézményi partnerek bevonásával szeretnék növelni a jövőben (beleértve a .tw domainen kívüli webhelyek gyűjtését is). 2017 áprilisában 6.530 site (34.202 mentés, 857 millió fájl) volt elérhető a nyilvános felületen, ahol az NCL (National Central Library) mellett az NTU (National Taiwan University) webarchívuma is kereshető.


Web Archive Wales

A National Library of Wales webarchiválási projektje, amelynek kezdetei 2003-ig nyúlnak vissza és jelenleg is aktív, bár nyilvános szolgáltatás nincs belőle. Részt vesznek a British Library vezette UKWA archívum munkálataiban is.


Web Archiving: Preserving the History of Data-Driven Society

Az észt nemzeti könyvtár által a Digital Memory VI. Programme keretében 2015 január 28-án szervezett egy napos szeminárium a webarchiválásról, külföldi és helyi előadókkal.


Web Archiving 101

A University of London DPTP (Digital Preservation Training Programme) programja keretében 2015-től rendszertelen időközönként megtartott egy napos webarchiváló kurzus, meghívott vendégelőadókkal.


Web Archiving Collaboration: New Tools and Models

A Columbia University Libraries rendezésében 2015. június 4-és és 5-én tartott meghívásos konferencia az új technológiákról és a webarchívumok együttműködéséről. Az első napi előadások után workshop-szerű megbeszélésekkel folytatódott a találkozó. Az előadások videói megnézhetők a Youtube-on.


Web Archiving Policies and Practices in the US

2012 május 10-11-én a Columbia University Libraries által szervezet találkozó, melyre több mint 20 amerikai könyvtárból hívtak szakembereket, hogy megvitassák a webarchiválás egyes kérdéseit (pl. intézményi célok az archívumokkal, fenntarthatóság, engedélyek és hozzáférések, az archívumok használói és hasznosítási lehetőségei).


Web Archiving Roundtable

A Society of American Archivists egyik szekciója. Azzal a céllal alakult meg, hogy képviselje a webes információforrások válogatásával, értékelésével, begyűjtésével, kezelésével és megőrzésével foglalkozó szakembereket és növelje a társadalmi tudatosságot munkájuk fontosságával kapcsolatban. Éves találkozókat tartanak, blogot és levelezőcsoportot működtetnek.


Web cache

Web dokumentumok ideiglenes tárolására szolgáló tárhely, illetve ilyen célú szoftver, melynek leggyakrabban az a célja, hogy csökkentsék vele az adatátviteli igényt a hálózaton vagy az eredeti szerver terhelését, mivel így nem szükséges egy weboldal ismételt lekérése esetén az azt alkotó fájlokat újra és újra átküldeni a felhasználónak, hanem elégséges vagy a saját gépének gyorsítótárában levő, vagy egy számára közelebbi/gyorsabb proxy szerveren ideiglenesen tárolt másolatot átadni a böngészőnek. Hogy a cache-ben levő változat lehetőleg ne különbözzön a live weben elérhető eredetitől, arra a HTTP átviteli szabvány különböző mechanizmusokat biztosít.


Web curator

Olyan szakember, aki webes tartalmak archiválásával, ezek gondozásával, leírásával, hitelességük biztosításával és szolgáltatásra való előkészítésével foglalkozik.


Web Infomall

A pekingi egyetemen működő Computer Networks and Distributed Systems Laboratory által fejlesztett webarchívum. Az 1997-től működő Tianwang nevű webes keresőrendszerükre alapozva kezdték el építeni. Az első webarchiváló rendszer 2001 elején állt fel, a jelentősen átírt 2.0-ás verzió 2002 végére készült el. 2005 novemberében 1 milliárd weboldal (15 terabájt) volt az archívumban és napi 1 millió oldalt arattak. 2011-ben már meghaladták a 3 milliárd oldalt, és ezzel az Internet Archive után a második legnagyobb lett a kínai, ami szintén nyilvánosan hozzáférhető. Az archív anyagon különböző elemzéseket, statisztikai vizsgálatokat is folytatnak (pl. megállapították, hogy az üzleti szférában kevesebb mint 2 hónap a weboldalak "felezési ideje", míg a kormányzati és oktatási oldalak esetében kb. 4 hónap).


Web Page Archiver

Shareweare Internet Explorer kiegészítő, amivel az éppen nézett weboldalak CHM formátumba menthetők (utolsó frissítése 2007-es).


Web scraping

Egy crawler segítségével weboldalak begyűjtése, majd ezekből adatok kinyerése automatikus vagy félautomatikus módszerekkel, amelyeket azután egy adatbázis- vagy táblázatkezelőbe töltve ki lehet elemezni tudományos vagy üzleti célokból. Az adatok lehetnek például nevek, telefonszámok és e-mail címek, linkek, technikai jellemzők, a beágyazott metaadatok, vagy az oldalon levő teljes szöveg, vagy az összes kép.


Web Snapper (korábban: Red Snapper)

Mac OS X rendszerre írt shareware program weboldalakról való pillanatfelvételek készítésére, melyek különböző képformátumokba vagy PDF-be menthetők. Safari, Chrome és Firefox böngésző-kiegészítők vannak hozzá, így ezekből egy gombnyomással indítható a mentés.


WERA (Web ARchive Access)

A skandináv NWA projekt keretében készült, de később az IIPC által is támogatott, az NWA Toolset-re épülő, php-ban írt visszakereső és navigáló rendszer webarchívumokhoz. A Wayback Machine-hoz hasonló, de teljes szövegű keresést is biztosít a NutchWAX segítségével. A fejlesztése 2006-ban leállt.


WET (WARC Encapsulated Text)

A WARC fájlokból kinyerhető egyszerű formázatlan szöveg, néhány metaadattal (pl. URL cím, a mentés időpontja, a szöveg hossza) kiegészítve. Alkalmas teljes szövegű indexeléshez, vagy pl. nyelvi elemzésekhez, szövegbányászathoz.


Wget

Linux és Windows alatt is használható, nyílt forráskódú HTTP és FTP kliens, ami a rekurzív letöltést is támogatja. Fájlrendszerbe ment (de az 1.14 verziótól akár WARC-ba is) és a belső linkeket át tudja írni, így a letöltött anyag offline is böngészhető. Nincs saját grafikus felülete, parancssorból paraméterezhető, de Windowshoz létezik egy GUI.


What Did It Look Like?

A Memento Project keretrendszerére épülő szolgáltatás, ami véletlenszerűen választott, ill. a felhasználók által javasolt weboldalak kinézetének változását mutatja meg képernyőfotókból álló slideshowk formájában. A képeket az archívumokból összeszedett mementokról a PhantomJS készíti, majd az ImageMagick gyártja le az animált GIF-eket. A korábbi válogatások is visszanézhetők.


Whitelist

A blacklist-tel ellentétben olyan dolgok nyilvántartása, amelyeket egy adott célra megfelelőeknek nyilvánítottak. Webaratás esetében olyan URL címeket tartalmazhat egy ilyen lista, amelyeket mindenképpen bejárhat a robot, mert megfelelnek pl. egy focused crawl szempontjainak. A whitelist mérete jóval nagyobb, mint a crawler elindításához használt, kiemelten jó, válogatott címeket tartalmazó seed lista, és éveken át építendő, karbantartandó az archiválás során szerzett tapasztalatok alapján.


Whois Lookup

Az internetes bűnözéssel és biztonsági kérdésekkel foglalkozó DomainTools cég - az alapadatok szintjéig - ingyenes online szolgáltatása, amivel megnézhetők egy domain és a hozzátartozó webhely legfontosabb alapadatai, illetve ezen adatok időbeli változásai. Egy Windows-os alkalmazással közvetlenül a böngészőből (Internet Explorer vagy Firefox) is lekérhetők az éppen megnyitott webhely adatai.


WICP (Web Information Collection and Preservation)

A kínai nemzeti könyvtár 2003-ban indult webarchiváló projektje. A Heritrix, Wayback és NutchWAX hármast használják. A teljes .gov.cn aldomaint gyűjtik (több mint 80 ezer site), valamint e-periodikákat, tematikus válogatásokat és jelentős eseményekkel kapcsolatos weboldalakat. 2010-ben 18 terabájt volt az archívum. Jogi okokból csak a könyvtárban lehet hozzáférni.


WikiTeam

Az Archive Team nevű laza szerveződés egyik munkacsoportja, amely a wikik megőrzésére jött létre 2011-ben. 2017 elején már 27 ezer önálló wiki, több wikifarm, a Wikipédia rendszeres backup-ja és a Wikimedia Commons 34 terabájtnyi képanyaga volt lementve, amit az Internet Archive-nál tárolnak, de máshol is vannak részleges biztonsági mentések. Egy szoftvergyűjteményt is gondoznak, amely elsősorban a MediaWiki-alapú site-ok mentésére és helyreállítására tartalmaz eszközöket.


WinMHT

Az ausztrál Spidersoft cég weboldal letöltő shareware szoftvere Windows-ra, melynek fejlesztését 2003-ban lezárták. Egy, az Internet Explorerre épülő saját böngészőben lehet vele archívumokat definiálni, majd ezek valamelyikébe egy gombnyomással elmenteni az éppen nézett weboldalt MHTML formában. Az oldalak aljához hozzáadhatók a mentés adatai (pl. az időpont), valamint tartalomjegyzéket is generálhatunk minden archívumhoz.


Win Web Crawler

A Windows 95 és Windows Vista közötti időszakban fejlesztett fizetős szoftver web scraping céljára. Akár egy URL címlistából, akár online linkgyűjteményekből vagy keresőgépek találati listájából kiindulva - a megadatott paraméterek függvényében - bejárja a webhelyeket és a letöltött oldalakból kigyűjti a metaadatokat, vagy a nyers szöveget, vagy pl. olyan technikai adatokat, mint az oldal mérete vagy az utolsó módosításának dátuma. Az adatok CSV formátumú szövegfájlba menthetők, ami azután betölthető valami adatbázisba vagy táblázatkezelőbe elemzés céljából.


WIRE (Working with Internet Archives for Research Workshop)

A Rutgers University School of Communication and Information által - a Northeastern University és az Internet Archive közreműködésével - 2014-ben rendezett workshop, főként a webarchívumok kutatási célú hasznosíthatóságának kérdéseiről


Working with Web Archives Workshop

A University of Maryland-en a Society for Textual Scholarship 2017-es találkozójának keretében május 31-én megrendezett néhány órás workshop a webarchívumokról. A résztvevők a gyakorlatban próbálhattak ki olyan szolgáltatásokat, mint az Internet Archive, Webrecorder és a weboldalak annotálhatóságát megoldó Hypothes.is.


World Bank Web Archives

A Világbank 2007 márciusa óta menti a saját megszűnő vagy jelentősen megváltozó website-jait a HTTrack-kel, de egészen 1998-ig vannak mentéseik. Az archívum nyilvános és böngészhető típus, ország, nyelv, év stb. szerint.


Wpull

A Wget-hez hasonló, annak helyettesítésére íródott, szkriptelhető crawler. Mivel nemcsak a memóriában tartja az URL-eket, ezért nagyobb aratásokra képes, mint a Wget, viszont lassan fut, mert Pythonban íródott. Egy ráépülő grafikus felület is létezik grab-site néven.


WS-DL (Web Science and Digital Libraries Research Group)

Az amerikai Norfolkban található Old Dominion University számítástudományi kutatóintézetében működő csoport, mely a web tudományos vizsgálatával, az információk vizualizálásával, valamint a digitális könyvtárakkal és a digitális megőrzéssel foglalkozik - beleértve a webarchiválást és a webarchívumokra épülő szolgáltatásokat is.


WWW ARHIVS

A lett nemzeti könyvtár 2008-tól kötelespéldányként gyűjti a lettországi honlapokat, de külföldről is válogatnak. 2013 végére több mint 1600 webhelyről 3500 mentést csináltak. A keresés megkönnyítésére tárgyszavazzák, kategóriákba sorolják, sőt annotálják is a site-okat. A jogi szabályozás miatt csak helyben lehet hozzáférni az archívumhoz, de a metaadatkereső nyilvános és a találati listában az Internet Archive Wayback Machine felületére mutató link is megjelenik, ahol viszont nyilvánosan hozzáférhető a legtöbb website.


Wysigot (korábban: eCatch, majd WebCapture)

1998 és 2009 között franciák által fejlesztett, ingyenes (Wysigot Light) és fizetős (Wysigot Plus) változatban is elérhető offline browser Windowsra. A szokásos lehetőségek (pl. paraméterezhető és ütemezhető letöltések, mentések menedzselése és folytatása/frissítése) mellett olyan plusz funkciókat is tud, mint az automatikus változásfigyelés és az újdonságok, eltérések kiemelése; a mentett webhelyek teljes szövegű keresése és kommentelése, blacklisting (pl. reklámok kiszűrése) és potenciálisan veszélyes vagy zavaró scriptek, cookiek, felugró ablakok deaktiválása; űrlapok offline kitöltése, majd online kapcsolat esetén azok elküldése; proxy szerver (web cache) szolgáltatás nyújtása más szoftvereknek (pl. egy másik böngészőnek).


Xyro

Az INRIA (francia számítástechnikai kutatóintézet) által a Xyleme projekt keretében fejlesztett, az interneten található XML dokumentumok összegyűjtésére készült crawler, amivel a francia nemzeti könyvtár is kísérletezett a 2000-es évek elején webaratás céljából, mert HTML fájlokat is tud kezelni ("XML-izálva" őket), így közel 1 milliárd weboldalt töltöttek le vele.


York University Web Archives

A kanadai egyetem digitális könyvtárába 2012 óta vesznek fel a York University-hez kapcsolódó, lementett webhelyeket is, melyeket az Islandora nevű (Drupal, Fedora, Solr komponensekből álló) open source digitális objektumkezelő rendszerükben tárolnak - más digitális dokumentumokkal együtt. (Emiatt a webarchívumban levő minden fájl - beleértve a MODS és DC metaadatokat, a képernyőfotókat és magukat a WARC fájlokat is - ugyanúgy letölthető, mint pl. egy digitalizált könyvnél.) A mentéshez a Heritrix vagy a Wget programokat használják, a megjelenítés a Wayback-kel történik. Az archívum nyilvános és a teljes szöveg is kereshető.


ZipTabs

Chrome kiegészítő, amivel a böngészőből az összes megnyitott lapot egyetlen ZIP csomagba lehet menteni SingleFile formátumú HTML fájlokként, majd ebből a csomagból azután offline módban is megnyithatók az archivált weboldalak.


Zotero

Egy ingyenes hivatkozás/bibliográfia-menedzser szoftver, amely a metaadatok mellett képes a digitális dokumentumokat (pl. weboldalakat, PDF fájlokat) is lementeni a felhasználó gépére, melyek azután egy helyi archívumban kezelhetők, címkézhetők stb.


Formátumgyűjtemények megőrzési szempontból


Szoftvergyűjtemények


Webarchiváló projektek a világban