OSZK WEBARATÁS – TESZT FÁZIS
              (Legutóbbi módosítás: 2017. szeptember 15.)

HÍREK

2017. 09. 15. 2017. október 13-án (pénteken) 10.00 órától kb. 13.30-ig egy workshop-szerű szakmai napot tartunk az Országos Széchényi Könyvtár 6. emeleti dísztermében "404 Not Found - Ki őrzi meg az internetet?" címmel a közgyűjtemények feladatairól a webes és egyéb internetes tartalmak archiválásával kapcsolatban. Az első két órában négy vitaindító előadás hangzik el, melyeket kötetlen beszélgetés követ a résztvevőkkel az elhangzott témákról.

A tervezett előadások:

- Kees Teszelszky, a holland nemzeti könyvtár webarchiválással foglalkozó magyar származású munkatársa a 2007 óta működő holland és az idén indult belga projektekről ad áttekintést.

- Peternák Miklós, a C3 Kulturális és Kommunikációs Központ igazgatója az online tartalmak megőrzésének fontosságáról beszél, elsősorban múzeumi-művészeti kontextusban.

- Kampis György, az ELTE egyetemi tanára a 2010-es évek első felében, a PetaByte Nonprofit Kutatási Kft. által - főként tudománymetriai célból - lefolytatott webaratást, valamint híroldal-archiválást ismerteti.

- Drótos László témafelelős és Németh Márton webkönyvtáros, az OSZK munkatársai pedig az OKR program keretében zajló webarchiválási pilot projekt első fél évének tapasztalatairól és eredményeiről számolnak be.

A rendezvény iránt érdeklődőktől kérjük, hogy részvételi szándékukat jelezzék Visky Ákos Lászlónak a visky.akos.laszlo@oszk.hu e-mail címen.

2017. 09. 04. Augusztus végén lefutott egy terhelési teszt a webaratást végző 16 CPU magos és 64 GB memóriájú szerveren: 20 darab, egyenként 20 ezer URL címet tartalmazó Heritrix munkafolyamat lett elindítva. Ez már 100 százalékosan leterhelte a processzorokat és 3 nap után a memóriából is kifutott a rendszer, úgyhogy az ilyen volumenű aratásokhoz szerverbővítésre lesz majd szükség.

2017. 07. 26. A MIA WIKI, ami korábban csak az OSZK belső hálózatán levő Redmine rendszerben, illetve egy kiexportált HTML fájlban volt elérhető, átköltözött egy Mediawiki rendszerbe és ezentúl már itt épül tovább: http://mekosztaly.oszk.hu/miawiki

2017. 07. 19. Az OSZK E-könyvtári Szolgáltatások Osztályára látogatott Kees Teszelszky, a holland nemzeti könyvtár webarchiválással foglalkozó magyar származású munkatársa, akitől sok hasznos információt megtudtunk a 2007 óta működő Webarchief KB-ról, a 10 év alatt szerzett tapasztalatokról és tanulságokról. A Koninklijke Bibliotheek 12 ezer webhelyet ment rendszeresen, munkamegosztásban más holland intézményekkel. Érdemes követni Kees Twitter csatornáját, ahol az internetes források megőrzésével és a webarchívumok kutatásával kapcsolatos információkat és érdekességeket oszt meg. (További részletek a megbeszélésről Németh Márton blogjában olvashatók.)

2017. 07. 14. Ismét lement egy komolyabb (több mint 17 napos) aratás. Egyrészt az április végén és május elején begyűjtött közel 1,500 e-periodika ismételt mentése, másrészt a Nyilvános Könyvtárak Jegyzékéből kb. 500 könyvtári honlap archiválása. Utóbbiakról összesen 285 GB került letöltésre (max. 3 szint mélységig ment csak le a robot és a szerver karbantartása miatt kb. 90%-os állapotnál le lett állítva a Heritrix, úgyhogy ezek nem teljes mentések). A hibák és hiányok ellenőrzését elkezdtük.

2017. 07. 09. Elsősorban az OSZK munkatársai számára készült egy kis összeállítás néhány külföldi nemzeti könyvtár webarchiválási tevékenységéről és az Országos Széchényi Könyvtár ez irányú terveiről. A prezentáció innen letölthető. Első alkalommal július 11-én (kedden) 9 órai kezdettel lesz bemutatva az érdeklődő kollégáknak a Könyvtártudományi Szakkönyvtár olvasótermében.

2017. 07. 06. Moldován Istvánnak a Magyar Könyvtárosok Egyesülete 49. Vándorgyűlésén Miskolcon "Kísérleti magyar webarchiválási program - A könyvtárak szerepe" címmel megtartott prezentációja letölthető innen.

2017. 07. 03. Új taggal bővült mától a webarchíválási pilot projekt csapata: Visky Ákos László elsősorban a webhelyek válogatásával, metaadatolásával, a mentések minőségének ellenőrzésével és az engedélykérésekkel kapcsolatos levelezéssel fog foglalkozni.

2017. 06. 30. A Magyar Könyvtárosok Egyesületének 49. Vándorgyűlésén Miskolcon Moldován István, az OSZK E-könyvtári Szolgáltatások Osztályának osztályvezetője tart előadást a Jogi Szekcióban "Kísérleti magyar webarchiválási program - Te is segíthetsz!" címmel. Helyszín: Miskolci Egyetem A/1 épület, magasföldszint 1-2. terem. Időpont: július 6. (csütörtök), 11.40-től 12.00-ig. A teljes program a http://vandorgyules.rfmlib.hu oldalról érhető el.

2017. 06. 29. Ambrus Attila József, pécsi informatikus-könyvtáros kollégának köszönhetően egy jó minőségű és a vetített diaképekkel kiegészített verzió készült el a június 1-i "Az internet archiválása, mint könyvtári feladat" c. előadás videofelvételéből. Letölthető MP4 formátumban innen (673 Mbyte), vagy megnézhető a Youtube-on. Egy blogbejegyzés a videóról a PTE Kalauzban.

2017. 06. 26. Új verzió került a honlapra a webarchiválás bibliográfiából, új tételekkel és javított URL címekkel a régieknél. A kiexportált MIA Wiki is frissült pár napja, ami most már 520 szócikket tartalmaz.

2017. 06. 17. Véget ért Londonban a Web Archiving Week, amely az International Internet Preservation Consortium éves konferenciájából (Web Archiving Conference) és az Archives Unleashed nevű workshop-sorozat negyedik részéből állt. Az előadások kivonatai itt olvashatók és egy részük teljes szöveggel is elérhető már. A Twitter üzenetek a #waweek2017 hashtag alatt nézhetők meg, a tweetekben előforduló URL címek listája pedig itt található. A DIGHUMLAB honlapján megjelent összefoglaló.

2017. 06. 15. Elkészült egy szövegtervezet, ami röviden és közérthetően definiálja a webarchívum gyűjtőkörét és a gyűjtés célját. PDF formátumban letölthető innen. A pilot projekt tanulságai alapján felülvizsgálatra kerül majd és valószínűleg módosulni is fog.

2017. 06. 13. Az MR1 Kossuth Rádió "Közelről" című műsorában ma délután egy rövid beszélgetés hangzott el Kokas Károllyal a tervezett magyar internet archívumról. Meghallgatható a MédiaKlikk oldalán.

2017. 06. 08. A június 1-én tartott "Az internet archiválása, mint könyvtári feladat" előadás videofelvétele innen letölthető MPEG formátumban (520 Mbyte). A hozzá tartozó prezentáció pedig itt található (25 Mbyte).

2017. 06. 07. Elkészült egy kis tájékoztató a webarchiválási projektről, ami PDF fájlként is letölthető innen. Az egy A5-ös papír két oldalára kinyomtatható szórólap plakátméretben is megjelenik majd az OSZK-ban a Múzeumok Éjszakáján 2017. június 24-én.

2017. 06. 01. A 2017. június 1-én 13 órakor kezdődő és a http://www.ustream.tv/channel/hjrRWJU4xGH oldalon közvetített webinárium PowerPoint prezentációja már letölthető a http://mekosztaly.oszk.hu/doc/internet_archivalas.ppt címről.

2017. 05. 24. Frissült a MIA Wiki, már 460 szócikk és 910 külső link található benne. Főleg a FOGALMAK fejezet bővült, megjelent a SZABVÁNYOK kategória, és a korábbi szócikkekben is több javítás történt.

2017. 05. 24. A MEK Egyesület 2017. évi közgyűlésén (2017. május 26. 10.30 - Országos Széchényi Könyvtár, Budapest, Budavári Palota F. épület V. emelet 516. szoba) az ebédszünet előtt Drótos László tart egy rövid beszámolót az OSZK webarchiválási programjáról.

2017. 05. 24. Új változat került ki a webarchiválás témájú bibliográfiából, ami most már 58 idegen nyelvű publikációt tartalmaz 2011-ig visszamenőleg.

2017. 05. 19. "A jövő könyvtára felé..." webinárium-sorozat keretében 2017. június 1-én 13 órai kezdettel Drótos László tart előadást "Az internet archiválása, mint könyvtári feladat" címmel a II. Rákóczi Ferenc Megyei és Városi Könyvtár előadótermében (Miskolc, Görgey Artúr u. 11.). Az élő videóközvetítés a http://www.ustream.tv/channel/hjrRWJU4xGH oldalon lesz. (A KIT Hírlevélben megjelent ajánló.)

2017. 05. 18. Elkezdtünk egy válogatott bibliográfiát építeni a téma idegen nyelvű szakirodalmából. Az első változat már itt megnézhető.

2017. 05. 18. A Könyvtári Intézet beszerzett egy ISO szabványt és egy ISO Technical Report-ot a webarchiválás területéről. Az ISO 28500:2009 a lementett webhelyek tárolására használt WARC fájlformátumot definiálja (a szövegtervezet itt olvasható). Az ISO/TR 14873:2013 pedig a webarchívumok statisztikai, fogalmi és minőségi jellemzőit határozza meg (a draft változat innen tölthető le).

2017. 05. 17. Németh Márton készített néhány összefoglalót egyes nemzeti webarchívumok gyűjtőköréről, jogi és szervezeti kereteiről. Jelenleg a dán, a cseh, az észt, a brit és az ausztrál projekt ismertetője tölthető le.

2017. 05. 15. A OSZK E-könyvtári Szolgáltatások Osztálya új munkatárssal bővült: Németh Márton kifejezetten az internet archiválással kapcsolatos könyvtárosi feladatokkal, a nemzetközi tapasztalatok hazai adaptálásával, a webaratási pilot projekt menedzselésével fog foglalkozni.

2017. 05. 11. Frissült a kiexportált MIA Wiki. Jelenleg 423 szócikk és 863 külső link van benne. Főleg a SZOFTVEREK fejezet bővült az elmúlt napokban.

2017. 05. 09. A web és más internetes források archiválása, egy leendő Magyar Internet Archívum létrehozása iránt érdeklődők számára elindult a MIA-l nevű levelezőlista, melyre a http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mia-l oldalon lehet feliratkozni és a mia-l@mek.oszk.hu címen lehet levelet küldeni. (A feliratkozási kérelem adminisztrátori jóváhagyás után lép életbe.) A listán az OSZK-s webaratási projekttel kapcsolatos fejlemények mellett egyéb információkat is meg lehet osztani a webhelyek és egyéb online tartalmak hosszú távú megőrzésével kapcsolatban.

2017. 05. 08. Április 26. és május 3. között lefutott az első komolyabb tesztaratás, amely az EPA-ban "távoli"-ként katalogizált magyar időszaki kiadványokra terjedt ki és 4 terabájt összméret elérése után le lett állítva. A futási idő 7 nap és 5 óra 47 perc volt. Ez alatt a Heritrix crawler 2.068 URL seed címet nézett végig, 219-nél nem tudott elindulni (vagy azért, mert már megszűnt az oldal, vagy mert ki vannak róla tiltva a robotok), 69.117 hostról mintegy 40 millió linket követett sikeresen (másodpercenként átlagosan 64-et, 6.7 megabájtos letöltési sebességgel), a sikertelenül lekért URI-k száma 1,74 millió volt, a figyelmen kívül hagyottaké pedig 1.85 millió. A webszerverek által visszaküldött fájlok MIME típusainak összesítése itt megnézhető (ugyanaz a típus többféle névvel vagy írásmóddal is előfordul benne!).

2017. 05. 04. Kokas Károly, a SZTE Klebelsberg Könyvtár főigazgató-helyettese a SZEGED TV Körút című műsorában beszélt a webarchiválás fontosságáról. (26:14-ig kell előretekerni a felvételben.)

2017. 05. 03. Megkezdődött az EPA-ban távoli tételként leírt elektronikus periodikák átnézése és a kapcsolati e-mail címek összegyűjtése.

2017. 05. 02. Új verzió került ki a MIA Wikiből a nyilvános felületre, ami már 373 szócikket és 784 külső linket tartalmaz. Keresni a Ctrl/F megnyomásával lehet benne.

GYŰJTŐKÖR | BIBLIOGRÁFIA | WIKI | LEVELEZŐLISTA

A PROJEKT

Az Országos Széchényi Könyvtár 2017 áprilisától az OKR projekt keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. A projekt 2018 végéig tart és az informatikai hátterét a KIFÜ biztosítja.

Ennek a kutatási és fejlesztési munkának az a célja, hogy megalapozza egy leendő magyar internet archívum feltételeit:

A teszt fázisban néhány száz kulturális és tudományos webhely kerül kiválasztásra (pl. könyvtári, levéltári, múzeumi honlapok, egyetemek és kutatóintézetek oldalai, elektronikus folyóiratok, szakmai blogok), melyeknek a tulajdonosait elektronikus levélben értesítjük erről és engedélyt kérünk az archiválásra ill. esetleg a lementett változat szolgáltatására is egy demonstrációs célra létrehozott gyűjteményben.

A megőrzésre érdemes magyar webhelyek válogatásához, illetve az archívum megtervezéséhez várjuk a téma iránt érdeklődő kollégák jelentkezését az mia@mek.oszk.hu címen.

SZAKIRODALOM MAGYARUL

MIA WIKI

Az internet archiválásával kapcsolatban az elmúlt több mint 20 évben számos projekt indult a világban és rengeteg ismeret összegyűlt. MIA Wikiben ezeket próbáljuk meg minél tömörebben összefoglalni, a következő kategóriák alatt: Fogalmak, Formátumok, Fórumok, Hasznosítás, Irodalom, Projektek, Rendezvények, Szabványok, Szervezetek, Szoftverek és Szolgáltatások. A wiki 2017. július 26. óta a http://mekosztaly.oszk.hu/miawiki címen található. (Egy régebbi állapot egyetlen HTML fájlba kiexportálva elérhető még itt: http://mekosztaly.oszk.hu/mia/MIA_wiki.html)

RÉGI GYŰJTÉS

2006-ban már elkezdődött egy kis tesztgyűjtemény összeállítása a HTTrack szoftverrel. Az akkor lementett honlapok listája itt nézhető meg (az archivált példányok nem érhetők el nyilvánosan - copyright okokból): http://mekosztaly.oszk.hu/mia/regi-index.html

Tweetek erről: #webarchive OR #webarchiving -RT