OSZK WEBARATÁS – TESZT FÁZIS
              (Legutóbbi módosítás: 2018. augusztus 14.)

HÍREK

2018. 08. 14. A Tudományos és Műszaki Tájékoztatás 2018/7-8. számában megjelent Drótos László és Németh Márton cikke "Az OSZK-ban folyó kísérleti webarchiválási projekt első évének tapasztalatai" címmel. A TMT előfizetői innen tölthetik le.

2018. 07. 26. Az MKE Helyismereti Könyvtárosok Szervezete XX. Országos Konferenciáján Győrben július 26-án Moldován István és Drótos László tartott előadást "Ki őrzi meg a helyi webet? - Helyismereti vonatkozású internetes tartalmak archiválása webaratással" címmel, melyet egy rövid kerekasztal-beszélgetés is követett a városi és megyei könyvtárak lehetséges szerepvállalásáról a webarchiválásban. Az előadás prezentációja innen tölthető le.

2018. 07. 19. Új verzió került fel a dán fejlesztésű SolrWayback szoftverből a demó gyűjteményt szolgáltató szerverre, a http://193.6.201.202/solrwayback/ címre. A mentett webhelyek teljes szövegében lehet vele keresni és a találatok szűkíthetők doménnevek, fájltípusok és a mentés éve szerint. A találati listában a weboldal vagy fájl (nagy betűvel kiemelt) címére kattintva jutunk el az archivált verzióra, az Url: sorban levő cím pedig az eredeti honlapra/fájlra mutat. A Show full post felirat alatt megnézhetők az adott találat részletes adatai. Egy találatra kattintva további információk is megjeleníthetők az adott oldalról vagy doménről, ha a bal felső sarokban levő Toolbar eszköztárat lenyitjuk.

2018. 07. 11. Megjelent a 2018-as BOBCATSSS konferencia kiadványa, benne Németh Márton és Drótos László "Web-Archiving: responsibility of Public Collections in the Preservation of the Digital Culture" című előadása (a 124. oldalon). A kötet innen tölthető le PDF-ben.

2018. 07. 05. Elkezdődött a demó gyűjteményben levő archivált webhelyek leírása. Az eredetileg XML formátumú metaadat-rekordok a táblázat utolsó oszlopában levő barna nyilakra kattintva érhetők el (és a Ctrl/U megnyomásával nézhető meg az eredeti XML forráskódjuk). A rekordok folyamatosan készülnek és kerülnek ki a http://mekosztaly.oszk.hu/mia/demo/ oldalra.

2018. 06. 15. Felkerült a honlapra Parti Ádám "Jogi, politikai, kormányzati weboldalak külföldi webarchívumokban, és hazai gyűjtőkörük" című - e héten megvédett - szakdolgozata, melyet a Szegedi Tudományegyetem Bölcsészettudományi Karán készített az informatikus könyvtáros szak BA képzés keretében. A PDF formátumú dokumentum innen tölthető le.

2018. 06. 12. Az Országos Széchényi Könyvtár kísérleti webarchiválási projektjének munkatársai az idei Múzeumok Éjszakáján a játékokkal foglalkozó honlapok, blogok, magazinok és egyéb internetes források mentéseiből kialakított részgyűjteményt mutatják be. Több mint száz magyar webhely archivált változata nézhető meg, melyek tematikája a régi táblás játékoktól a nyelvi játékokon át a modern videojátékokig terjed. Emellett lehetőség lesz megismerni az elmúlt egy év alatt kialakított demó archívumot, valamint visszanézni azoknak a weboldalaknak bármelyikét, amelyek az archívum nem nyilvános részébe kerültek.
Időpont: 2018. június 23-án 16 órától 24-én 02.00 óráig
Helyszín: Országos Széchényi Könyvtár, Budavári Palota "F" épület 5. emelet (az ereklyetér folyosóján)

2018. 04. 24. Egy technikai probléma elhárítása után ismét használható a SOLR Wayback Search is a demó archívumban levő mentések teljes szövegében való kereséshez. Ennek a programnak egy plusz szolgáltatásaként a http://mekosztaly.oszk.hu/mia/demo/ oldalon a sárga nyilakra kattintva megnézhető az adott doménről kifelé mutató, illetve a rá kívülről hivatkozó linkek gráfja – az archívumban levő mentések alapján. (Mivel a demó archívum még kicsi, ezért ez utóbbi, ingoing típusú linkek száma nagyon kevés.)

2018. 04. 11. A https://goo.gl/forms/Y1qIIxcM7APPiq443 űrlapon keresztül ezentúl bárki javasolhat kevésbé ismert, de archiválásra érdemes magyar webhelyeket. Jelenleg elsősorban irodalmi és művészeti témájúakat gyűjtünk, de egyéb kulturális, oktatási, tudományos vagy közéleti honlapok, blogok, híroldalak stb. címeit is örömmel vesszük. Az ajánlott források tulajdonosaival felvesszük a kapcsolatot, hogy engedélyt kérjünk a mentések nyilvános szolgáltatására.

2018. 04. 05. Letölthető Drótos László és Németh Márton "A webarchiválás oktatása" című előadásának prezentációja és szövege, mely az egri Eszterházy Károly Egyetemen megrendezett Networkshop 2018 konferencián hangzott el április 5-én délelőtt.

2018. 03. 24. A SOLR Wayback Search kereső helyett elkezdtünk egy felhasználóbarátabb, a találati listában a szövegkörnyezetet minden tételnél kiíró keresőfelületet fejleszteni a demó archívumhoz SolrMIA néven. Az egyes találatok kék színű címére kattintva az archivált változat jelenik meg, míg a zöld színű link az eredeti szerveren levő fájlra visz (amennyiben az még létezik). A dőltbetűs dátum a lementés napját mutatja. A találati lista a bal oldalon látható szempontok szerint szűrhető tovább.

2018. 03. 09. A demó archívumhoz kísérleti jelleggel beüzemeltük a SOLR Wayback Search nevű felületet, amellyel a mentett webhelyek teljes szövegében lehet keresni és a találatok szűkíthetők doménnevek, fájltípusok és a mentés éve szerint. A találati listában a weboldal vagy fájl (nagy betűvel kiemelt) címére kattintva jutunk el az archivált verzióra, az Url: sorban levő link pedig az eredeti honlapra/fájlra visz. A Show full post felirat alatt megnézhetők az adott találat részletes adatai, és ezen belül a text rovatban az a szövegkörnyezet is, ahol a keresett szó előfordul.

2018. 03. 02. 2018-tól az Országos Széchényi Könyvtár tagja lett a webarchiválással foglalkozó intézményeket tömörítő nemzetközi szervezetnek, az International Internet Preservation Consortium-nak. Néhány napja az OSZK-s kísérleti projekt ismertetője is felkerült az IIPC honlapjára.

2018. 02. 14. Az eddigi próbamentésekből válogatott honlapok közül azok, amelyeknek a szolgáltatására engedélyt adott a tartalomgazda, megnézhetők a http://mekosztaly.oszk.hu/mia/demo/ oldalon a piros nyilakra kattintva. Ugyancsak megnézhetők a mentés idején készült képernyőfotók és az Internet Archive-ban található régebbi változatok, valamint az "élő" honlap, így összehasonlíthatók a különböző archív példányok az eredetivel. A listát folyamatosan bővítjük majd újabb kategóriákkal és honlapokkal.

2018. 02. 05. Az IIPC konzorciumon keresztül a British Library közzétett egy felhívást, hogy minél több partnerintézmény gyűjtse össze az adott ország téli olimpiával kapcsolatos webes forrásait, amelyek archiválásra érdemesek. A magyar gyűjtés ebben a Google táblázatban nézhető meg. További javaslatokat szívesen veszünk a mia@mek.oszk.hu e-mail címen. A listában szereplő weboldalakról az OSZK kísérleti webarchiválási projektje keretében is készülnek majd heti mentések február 5. és március 5. között.

2018. 02. 04. Bekerült az IEEE Xplore repozitóriumba a 2017 szeptemberi CogInfoCom nemzetközi konferenciára beadott "demo paper", a Németh Márton és Drótos László által írt rövid projektismertető "Hungarian web archiving pilot project in the National Széchényi Library" címmel. Előfizetőknek innen tölthető le.

2018. 02. 01. Az amerikai Archive-It webarchiváló szolgáltatás az európai intézmények számára egy ingyenes, kb. 45 perces webináriumot tart február 21-én magyar idő szerint 15.00 órakor. Jelentkezni a https://archive-it.org/contact-us oldalon lehet.

2018. 01. 31. A 2017. december 18-án az OSZK-ban bemutatkozó szlovák Tempest cég előadásainak - köztük a webarchívumról szólónak - felvételei megnézhetők a Videotoriumban: https://videotorium.hu/hu/channels/3084.

2018. 01. 30. Letölthető a honlapról Németh Márton "Web museum, web library, web archive - The responsibility of public collections to preserve digital culture" című BOBCATSSS előadásának prezentációja és szövege.

2018. 01. 19. Az e heti HVG Tech + Tudomány rovatában "Mentés ugyanúgy" címmel jelent meg Illényi Balázs cikke a webarchiválás helyzetéről a világban, valamint az OSZK-ban folyó kísérleti projektről. A cikk teljes szövege itt olvasható online.

2018. 01. 18. Az EUCLID (European Association for Library and Information Education and Research) által szervezett BOBCATSSS konferencia idén a lettországi Rigában kerül megrendezésre, melynek utolsó napján, január 26-án 15.00 órától Németh Márton tart előadást "Web museum, web library, web archive - The responsibility of public collections to preserve digital culture" címmel.

2018. 01. 18. A Könyvtári Figyelő 2017. évi 4. számában megjelent Németh Márton "Nemzetközi körkép a webarchiválás gyakorlatáról" című összeállítása, amely kilenc ország példáján mutatja be, hogy a nemzeti könyvtárak milyen jogi, gyűjtőköri, szervezeti és szolgáltatási keretek között próbálják hosszú távon megőrizni a nyilvános webes tartalmakat. A teljes cikk innen tölthető le.

2017. 12. 11. A jövőre 15 éves International Internet Preservation Consortium következő általános taggyűlése és az ehhez kapcsolódó "Web Archiving Conference" nevű konferenciája az új-zélandi nemzeti könyvtárban, Wellingtonban lesz 2018. november 13-15. között. További részletek és jelentkezési határidők a netpreserve.org/ga2018 oldalon találhatók.

2017. 12. 06. December 18-án az egyéb digitális könyvtári projektek mellett a szlovák webarchívum rendszerét is fejlesztő Tempest cég tart bemutatót a Országos Széchényi Könyvtárban. A részletes program az OSZK honlapján olvasható.

2017. 12. 04. A digitális megőrzés napja alkalmából David S. Rosenthal, a Stanford Egyetem könyvtárának kutatója megjelentetett egy írást a DPC blogján Losing the Battle to Archive the Web címmel. A blogbejegyzésről Németh Márton készített egy magyar nyelvű összefoglalót, amely innen tölthető le.

2017. 11. 29. A Muzeum@Digit 2017 konferencián elhangzott "Webmúzeum, webkönyvtár, weblevéltár - közgyűjteményi felelősség a digitális kultúra megőrzésében" c. előadás prezentációja letölthető a honlapról.

2017. 11. 27. A Digital Preservation Coalition minden év novemberének utolsó csütörtökjét a digitális megőrzés napjának nyilvánította, melyre első alkalommal 2017. november 30-án kerül sor. A DPC honlapján különböző ötletek olvashatók arról, hogy hogyan lehet felhívni ezen a napon a figyelmet a digitális kultúra veszélyeztettségére és a hosszú távú megőrzéssel foglalkozó törekvések fontosságára.

2017. 11. 21. Dr. Kosztyánné dr. Mátrai Rita, az ELTE egyetemi tanársegédje a könyvtáros hallgatóknak szóló "Kommunikáció és informatika alapjai" c. tantárgy keretében összeállított egy prezentációt a webarchiválásról és a Scrapbook nevű böngészőkiegészítő használatáról. A PowerPoint fájl innen tölthető le.

2017. 11. 21. Megjelent Németh Márton beszámolója az október 13-án tartott "404 Not Found - Ki őrzi meg az internetet?" workshopról a TMT szakfolyóiratban. Egyelőre csak előfizetők számára férhető hozzá ezen a weboldalon.

2017. 11. 16. A 2017-es Muzeum@Digit konferencián Drótos László és Németh Márton közös előadására november 29-én 15:50-től kerül sor "Webmúzeum, webkönyvtár, weblevéltár: közgyűjteményi felelősség a digitális kultúra megőrzésében" címmel. (Az immár 5. alkalommal megrendezett konferenciához mobil applikációt is készített a Magyar Nemzeti Múzeum Országos Muzeológiai Módszertani és Információs Központja Androidra és iOS-re.)

2017. 11. 15. Az Országos Széchényi Könyvtár 2018. januárjától teljes jogú tagjává válik a számítógépes világháló archiválásában érdekelt nemzeti könyvtárakat s egyéb intézményeket tömörítő International Internet Preservation Consortium (IIPC) nemzetközi szakmai szervezetnek. A webarchiválással kapcsolatos tapasztalatok megosztásának igénye, a nemzetközi információáramlásban, illetve a közös projektekben való részvétel indokolták intézményünk részéről a csatlakozási kérelmet. Elsőként, már 2017. novemberétől kezdve, egy digitális tréning platform létrehozásának munkálataiba tudunk reményeink szerint bekapcsolódni.

2017. 10. 15. A 2017. október 13-án az OSZK-ban tartott "404 Not Found - Ki őrzi meg az internetet?" workshop prezentációi már elérhetők a mekosztaly.oszk.hu/mia/404_workshop.html oldalon. Rövidesen lesznek fotók is a rendezvényről, illetve az előadások videofelvételei is felkerülnek a Videotoriumba.

2017. 09. 15. 2017. október 13-án (pénteken) 10.00 órától kb. 13.30-ig egy workshop-szerű szakmai napot tartunk az Országos Széchényi Könyvtár 6. emeleti dísztermében "404 Not Found - Ki őrzi meg az internetet?" címmel a közgyűjtemények feladatairól a webes és egyéb internetes tartalmak archiválásával kapcsolatban. Az első két órában négy vitaindító előadás hangzik el, melyeket kötetlen beszélgetés követ a résztvevőkkel az elhangzott témákról.

A tervezett előadások:

- Kees Teszelszky, a holland nemzeti könyvtár webarchiválással foglalkozó magyar származású munkatársa a 2007 óta működő holland és az idén indult belga projektekről ad áttekintést.

- Peternák Miklós, a C3 Kulturális és Kommunikációs Központ igazgatója az online tartalmak megőrzésének fontosságáról beszél, elsősorban múzeumi-művészeti kontextusban.

- Kampis György, az ELTE egyetemi tanára a 2010-es évek első felében, a PetaByte Nonprofit Kutatási Kft. által - főként tudománymetriai célból - lefolytatott webaratást, valamint híroldal-archiválást ismerteti.

- Drótos László témafelelős és Németh Márton webkönyvtáros, az OSZK munkatársai pedig az OKR program keretében zajló webarchiválási pilot projekt első fél évének tapasztalatairól és eredményeiről számolnak be.

A rendezvény iránt érdeklődőktől kérjük, hogy részvételi szándékukat jelezzék Visky Ákos Lászlónak a visky.akos.laszlo@oszk.hu e-mail címen.

2017. 09. 04. Augusztus végén lefutott egy terhelési teszt a webaratást végző 16 CPU magos és 64 GB memóriájú szerveren: 20 darab, egyenként 20 ezer URL címet tartalmazó Heritrix munkafolyamat lett elindítva. Ez már 100 százalékosan leterhelte a processzorokat és 3 nap után a memóriából is kifutott a rendszer, úgyhogy az ilyen volumenű aratásokhoz szerverbővítésre lesz majd szükség.

2017. 07. 26. A MIA WIKI, ami korábban csak az OSZK belső hálózatán levő Redmine rendszerben, illetve egy kiexportált HTML fájlban volt elérhető, átköltözött egy Mediawiki rendszerbe és ezentúl már itt épül tovább: http://mekosztaly.oszk.hu/miawiki

2017. 07. 19. Az OSZK E-könyvtári Szolgáltatások Osztályára látogatott Kees Teszelszky, a holland nemzeti könyvtár webarchiválással foglalkozó magyar származású munkatársa, akitől sok hasznos információt megtudtunk a 2007 óta működő Webarchief KB-ról, a 10 év alatt szerzett tapasztalatokról és tanulságokról. A Koninklijke Bibliotheek 12 ezer webhelyet ment rendszeresen, munkamegosztásban más holland intézményekkel. Érdemes követni Kees Twitter csatornáját, ahol az internetes források megőrzésével és a webarchívumok kutatásával kapcsolatos információkat és érdekességeket oszt meg. (További részletek a megbeszélésről Németh Márton blogjában olvashatók.)

2017. 07. 14. Ismét lement egy komolyabb (több mint 17 napos) aratás. Egyrészt az április végén és május elején begyűjtött közel 1,500 e-periodika ismételt mentése, másrészt a Nyilvános Könyvtárak Jegyzékéből kb. 500 könyvtári honlap archiválása. Utóbbiakról összesen 285 GB került letöltésre (max. 3 szint mélységig ment csak le a robot és a szerver karbantartása miatt kb. 90%-os állapotnál le lett állítva a Heritrix, úgyhogy ezek nem teljes mentések). A hibák és hiányok ellenőrzését elkezdtük.

2017. 07. 09. Elsősorban az OSZK munkatársai számára készült egy kis összeállítás néhány külföldi nemzeti könyvtár webarchiválási tevékenységéről és az Országos Széchényi Könyvtár ez irányú terveiről. A prezentáció innen letölthető. Első alkalommal július 11-én (kedden) 9 órai kezdettel lesz bemutatva az érdeklődő kollégáknak a Könyvtártudományi Szakkönyvtár olvasótermében.

2017. 07. 06. Moldován Istvánnak a Magyar Könyvtárosok Egyesülete 49. Vándorgyűlésén Miskolcon "Kísérleti magyar webarchiválási program - A könyvtárak szerepe" címmel megtartott prezentációja letölthető innen.

2017. 07. 03. Új taggal bővült mától a webarchíválási pilot projekt csapata: Visky Ákos László elsősorban a webhelyek válogatásával, metaadatolásával, a mentések minőségének ellenőrzésével és az engedélykérésekkel kapcsolatos levelezéssel fog foglalkozni.

2017. 06. 30. A Magyar Könyvtárosok Egyesületének 49. Vándorgyűlésén Miskolcon Moldován István, az OSZK E-könyvtári Szolgáltatások Osztályának osztályvezetője tart előadást a Jogi Szekcióban "Kísérleti magyar webarchiválási program - Te is segíthetsz!" címmel. Helyszín: Miskolci Egyetem A/1 épület, magasföldszint 1-2. terem. Időpont: július 6. (csütörtök), 11.40-től 12.00-ig. A teljes program a http://vandorgyules.rfmlib.hu oldalról érhető el.

2017. 06. 29. Ambrus Attila József, pécsi informatikus-könyvtáros kollégának köszönhetően egy jó minőségű és a vetített diaképekkel kiegészített verzió készült el a június 1-i "Az internet archiválása, mint könyvtári feladat" c. előadás videofelvételéből. Letölthető MP4 formátumban innen (673 Mbyte), vagy megnézhető a Youtube-on. Egy blogbejegyzés a videóról a PTE Kalauzban.

2017. 06. 26. Új verzió került a honlapra a webarchiválás bibliográfiából, új tételekkel és javított URL címekkel a régieknél. A kiexportált MIA Wiki is frissült pár napja, ami most már 520 szócikket tartalmaz.

2017. 06. 17. Véget ért Londonban a Web Archiving Week, amely az International Internet Preservation Consortium éves konferenciájából (Web Archiving Conference) és az Archives Unleashed nevű workshop-sorozat negyedik részéből állt. Az előadások kivonatai itt olvashatók és egy részük teljes szöveggel is elérhető már. A Twitter üzenetek a #waweek2017 hashtag alatt nézhetők meg, a tweetekben előforduló URL címek listája pedig itt található. A DIGHUMLAB honlapján megjelent összefoglaló.

2017. 06. 15. Elkészült egy szövegtervezet, ami röviden és közérthetően definiálja a webarchívum gyűjtőkörét és a gyűjtés célját. PDF formátumban letölthető innen. A pilot projekt tanulságai alapján felülvizsgálatra kerül majd és valószínűleg módosulni is fog.

2017. 06. 13. Az MR1 Kossuth Rádió "Közelről" című műsorában ma délután egy rövid beszélgetés hangzott el Kokas Károllyal a tervezett magyar internet archívumról. Meghallgatható a MédiaKlikk oldalán.

2017. 06. 08. A június 1-én tartott "Az internet archiválása, mint könyvtári feladat" előadás videofelvétele innen letölthető MPEG formátumban (520 Mbyte). A hozzá tartozó prezentáció pedig itt található (25 Mbyte).

2017. 06. 07. Elkészült egy kis tájékoztató a webarchiválási projektről, ami PDF fájlként is letölthető innen. Az egy A5-ös papír két oldalára kinyomtatható szórólap plakátméretben is megjelenik majd az OSZK-ban a Múzeumok Éjszakáján 2017. június 24-én.

2017. 06. 01. A 2017. június 1-én 13 órakor kezdődő és a http://www.ustream.tv/channel/hjrRWJU4xGH oldalon közvetített webinárium PowerPoint prezentációja már letölthető a http://mekosztaly.oszk.hu/doc/internet_archivalas.ppt címről.

2017. 05. 24. Frissült a MIA Wiki, már 460 szócikk és 910 külső link található benne. Főleg a FOGALMAK fejezet bővült, megjelent a SZABVÁNYOK kategória, és a korábbi szócikkekben is több javítás történt.

2017. 05. 24. A MEK Egyesület 2017. évi közgyűlésén (2017. május 26. 10.30 - Országos Széchényi Könyvtár, Budapest, Budavári Palota F. épület V. emelet 516. szoba) az ebédszünet előtt Drótos László tart egy rövid beszámolót az OSZK webarchiválási programjáról.

2017. 05. 24. Új változat került ki a webarchiválás témájú bibliográfiából, ami most már 58 idegen nyelvű publikációt tartalmaz 2011-ig visszamenőleg.

2017. 05. 19. "A jövő könyvtára felé..." webinárium-sorozat keretében 2017. június 1-én 13 órai kezdettel Drótos László tart előadást "Az internet archiválása, mint könyvtári feladat" címmel a II. Rákóczi Ferenc Megyei és Városi Könyvtár előadótermében (Miskolc, Görgey Artúr u. 11.). Az élő videóközvetítés a http://www.ustream.tv/channel/hjrRWJU4xGH oldalon lesz. (A KIT Hírlevélben megjelent ajánló.)

2017. 05. 18. Elkezdtünk egy válogatott bibliográfiát építeni a téma idegen nyelvű szakirodalmából. Az első változat már itt megnézhető.

2017. 05. 18. A Könyvtári Intézet beszerzett egy ISO szabványt és egy ISO Technical Report-ot a webarchiválás területéről. Az ISO 28500:2009 a lementett webhelyek tárolására használt WARC fájlformátumot definiálja (a szövegtervezet itt olvasható). Az ISO/TR 14873:2013 pedig a webarchívumok statisztikai, fogalmi és minőségi jellemzőit határozza meg (a draft változat innen tölthető le).

2017. 05. 17. Németh Márton készített néhány összefoglalót egyes nemzeti webarchívumok gyűjtőköréről, jogi és szervezeti kereteiről. Jelenleg a dán, a cseh, az észt, a brit és az ausztrál projekt ismertetője tölthető le.

2017. 05. 15. A OSZK E-könyvtári Szolgáltatások Osztálya új munkatárssal bővült: Németh Márton kifejezetten az internet archiválással kapcsolatos könyvtárosi feladatokkal, a nemzetközi tapasztalatok hazai adaptálásával, a webaratási pilot projekt menedzselésével fog foglalkozni.

2017. 05. 11. Frissült a kiexportált MIA Wiki. Jelenleg 423 szócikk és 863 külső link van benne. Főleg a SZOFTVEREK fejezet bővült az elmúlt napokban.

2017. 05. 09. A web és más internetes források archiválása, egy leendő Magyar Internet Archívum létrehozása iránt érdeklődők számára elindult a MIA-l nevű levelezőlista, melyre a http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mia-l oldalon lehet feliratkozni és a mia-l@mek.oszk.hu címen lehet levelet küldeni. (A feliratkozási kérelem adminisztrátori jóváhagyás után lép életbe.) A listán az OSZK-s webaratási projekttel kapcsolatos fejlemények mellett egyéb információkat is meg lehet osztani a webhelyek és egyéb online tartalmak hosszú távú megőrzésével kapcsolatban.

2017. 05. 08. Április 26. és május 3. között lefutott az első komolyabb tesztaratás, amely az EPA-ban "távoli"-ként katalogizált magyar időszaki kiadványokra terjedt ki és 4 terabájt összméret elérése után le lett állítva. A futási idő 7 nap és 5 óra 47 perc volt. Ez alatt a Heritrix crawler 2.068 URL seed címet nézett végig, 219-nél nem tudott elindulni (vagy azért, mert már megszűnt az oldal, vagy mert ki vannak róla tiltva a robotok), 69.117 hostról mintegy 40 millió linket követett sikeresen (másodpercenként átlagosan 64-et, 6.7 megabájtos letöltési sebességgel), a sikertelenül lekért URI-k száma 1,74 millió volt, a figyelmen kívül hagyottaké pedig 1.85 millió. A webszerverek által visszaküldött fájlok MIME típusainak összesítése itt megnézhető (ugyanaz a típus többféle névvel vagy írásmóddal is előfordul benne!).

2017. 05. 04. Kokas Károly, a SZTE Klebelsberg Könyvtár főigazgató-helyettese a SZEGED TV Körút című műsorában beszélt a webarchiválás fontosságáról. (26:14-ig kell előretekerni a felvételben.)

2017. 05. 03. Megkezdődött az EPA-ban távoli tételként leírt elektronikus periodikák átnézése és a kapcsolati e-mail címek összegyűjtése.

2017. 05. 02. Új verzió került ki a MIA Wikiből a nyilvános felületre, ami már 373 szócikket és 784 külső linket tartalmaz. Keresni a Ctrl/F megnyomásával lehet benne.

DEMÓ  |  JAVASLAT  |  WIKI  |  IRODALOM  |  LISTA

A PROJEKT

Az Országos Széchényi Könyvtár 2017 áprilisától az OKR projekt keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. Ez az alprojekt 2018 végéig tart és az informatikai hátterét a KIFÜ biztosítja.

Ennek a kutatási és fejlesztési munkának az a célja, hogy megalapozza egy leendő magyar internet archívum feltételeit:

A teszt fázisban néhány száz kulturális és tudományos webhely kerül kiválasztásra (pl. könyvtári, levéltári, múzeumi honlapok, egyetemek és kutatóintézetek oldalai, elektronikus folyóiratok, szakmai blogok), melyeknek a tulajdonosait elektronikus levélben értesítjük erről és engedélyt kérünk az archiválásra ill. esetleg a lementett változat szolgáltatására is egy demonstrációs célra létrehozott gyűjteményben.

A megőrzésre érdemes magyar webhelyek válogatásához, illetve az archívum megtervezéséhez várjuk a téma iránt érdeklődő kollégák jelentkezését a mia@mek.oszk.hu címen. (A gyűjtőkör részletesebb lehatárolása itt olvasható.)

SZAKIRODALOM MAGYARUL

404 WORKSHOP

2017. október 13-án "404 Not Found - Ki őrzi meg az internetet?" címmel egy félnapos workshop-ot tartottunk az OSZK-ban, melyen öt előadás hangzott el az eddigi hazai törekvésekről, valamint a holland webarchívumról. Az előadások videófelvételei és prezentációi, valamint az eseményről készült beszámolók innen érhetők el: http://mekosztaly.oszk.hu/mia/404_workshop.html.

MIA WIKI

Az internet archiválásával kapcsolatban az elmúlt több mint 20 évben számos projekt indult a világban és rengeteg ismeret összegyűlt. MIA Wikiben ezeket próbáljuk meg minél tömörebben összefoglalni, a következő kategóriák alatt: Fogalmak, Formátumok, Fórumok, Hasznosítás, Irodalom, Projektek, Rendezvények, Szabványok, Szervezetek, Szoftverek és Szolgáltatások. A wiki 2017. július 26. óta a http://mekosztaly.oszk.hu/miawiki címen található. (Egy régebbi állapot egyetlen HTML fájlba kiexportálva elérhető még itt: http://mekosztaly.oszk.hu/mia/MIA_wiki.html)

RÉGI GYŰJTÉS

2006-ban már elkezdődött egy kis tesztgyűjtemény összeállítása a HTTrack szoftverrel. Az akkor lementett honlapok listája itt nézhető meg (az archivált példányok nem érhetők el nyilvánosan - copyright okokból): http://mekosztaly.oszk.hu/mia/regi-index.html

Tweetek erről: #webarchive OR #webarchiving -RT