OSZK WEBARATÁS – TESZT FÁZIS
(Lezárt oldal, utolsó módosítás: 2020. március 27.)
Az új honlap: webarchivum.oszk.hu
HÍREK
2020. 03. 27. Elkészült a webarchívum új honlapja a webarchivum.oszk.hu címen, ezentúl itt jelennek meg a projekttel kapcsolatos hírek és információk, bár egy ideig még a régi honlap is elérhető marad. Az új felületen lesznek majd kereső és böngésző funkciók is, de ezek fejlesztése még folyamatban van.
2020. 03. 19. Február harmadikától elkezdtük heti rendszerességgel menteni a koronavírus járványról szóló magyar nyelvű híreket és információkat a webarchívumba. Jelenleg már közel 90 forrást aratunk, köztük a nagyobb hazai és határon túli híroldalaknak a témával foglalkozó rovatait, illetve ilyen címkével ellátott cikkeit; a kormányzat és más szervezetek, intézmények internetes tájékoztató anyagait; valamint az egészségügyi portálok egyes aloldalait. A lementett tartalom szerzői jogi okokból egyelőre egy zárt archívumba kerül és kutatási célokra lesz majd használható elsősorban. A https://goo.gl/forms/Y1qIIxcM7APPiq443 űrlapon keresztül bárki javasolhat a járvánnyal foglalkozó magyar webhelyet vagy egyéb online információforrást, amit érdemes lenne hosszú távon is megőrizni.
2020. 02. 10. A spanyol webarchívum fennállásának 10. évfordulóján, február 20-án tartandó rendezvényhez az ottani nemzeti könyvtárban dolgozó kollégák egy-egy rövid videót kértek az IIPC tagoktól. A magyar webarchívumot bemutató és a nemzetközi kapcsolatok fontosságát hangsúlyozó összeállításunk - spanyol felirattal és angol hangalámondással - innen letölthető (a PowerPoint prezentáció pedig innen).
2020. 02. 04. A II. Rákóczi Ferenc Emlékév alkalmából a Közgyűjteményi Digitalizálási Stratégia pályázat keretében elkészült egy mintaalkalmazás, amely a webarchívum integrálásának lehetőségét mutatja be más könyvtári digitális gyűjteményekkel: https://rakoczi2019.webarchivum.oszk.hu/
2020. 01. 21. 2019 utolsó hetében lefutott a második olyan aratás, amely a magyar webtér egy jelentősebb részére terjedt ki. A 2018. szeptemberi mentés címlistáját kiegészítettük azokkal a .hu végű domémekkel és aldoménekkel, amelyek az eddig archivált weboldalakban levő linkekben találhatók, valamint a korábbi tematikus aratásokhoz egyenként összegyűjtött mintegy 25 ezer, részben nem magyar szervereken levő URL címmel. A különböző szűrések (pl. duplumok, alias címek, nem működő szerverek, parkoló domének) után végül 246.819 db címen indult el a robot, ami kevesebb mint 8 nap alatt 110 millió URL-t töltött le 6,4 terabájt összméretben.
2019. 11. 22. Moldován István, az OSzK E-könyvtári Szolgáltatások Osztályának vezetője a Karc FM rádió Spájz című műsorában beszélt a webarchiválásról és a digitális megőrzés fontosságáról. Az interjú itt meghallgatható.
2019. 11. 20. A workshop prezentációi felkerültek a rendezvény weboldalára, a videók pedig a Videotoriumba.
2019. 11. 05. Németh Mártonnak a pozsonyi egyetemi könyvtárban rendezett CDA 2019 konferencián november 5-én bemutatott "Potential use of microdata in web-archiving context" című prezentációja innen tölthető le. Az előadás a beágyazott mikroadatok lehetséges előnyeit ismerteti a webes tartalmak archiválása, kutatása és hosszú távú megőrzése szempontjából.
2019. 10. 18. Az idén november 14-én kerül megrendezésre az Országos Széchényi Könyvtárban a "404 Not Found - Ki őrzi meg az internetet?" című félnapos workshop, melyen a webes tartalmak mentéséről és megőrzéséről hangzanak el előadások. A részvétel ingyenes, jelentkezni a http://www.oszk.hu/404-not-found-2019 oldalon lehet.
2019. 09. 25. Németh Márton "Introduction to web archiving in Digital Humanities context" címmel tartott előadást 2019. szept. 25-én a DH_Budapest_2019 konferencia webarchiválási szekciójában az ELTE-n. A prezentáció innen tölthető le. Szintén ezen a rendezvényen mutatta be Marie Haškovcová a cseh webarchívumot, ez az előadás is elérhető a honlapról, akárcsak Indig Balázs, Kákonyi Tibor és Novák Attila "Crawling in Reverse - Lightweight Targeted Crawling of News Portals" című előadása, mely a nyelvészeti célú kutatások céljából végzett webaratásról szól. A magyar származású Kees Teszelszky pedig a holland webarchívumban megőrzött fríz web doménről beszélt, az ő prezentációja itt tölthető le.
2019. 08. 06. Németh Márton és Drótos László közös angol nyelvű tanulmánya "A blended learning-based curriculum on web archiving in the National Széchényi Library" címmel az Emerald által kiadott Digital Library Perspectives szakfolyóiratban jelenik meg. A szerzők áttekintést adnak a webarchiválás oktatásának itthoni koncepciójáról, s annak nemzetközi hátteréről. Emerald előfizetők számára elérhető ezen a címen.
2019. 07. 04. Drótos László "Webarchívumok létrehozása és kutatási célú hasznosítása" című előadása, mely az MKE 51. Vándorgyűlésén hangzott el Székesfehérváron, innen letölthető.
2019. 06. 19. "A short introduction to the Hungarian Web Archiving Pilot Project" címmel tartott Németh Márton előadást a nyolcadik "Colloquium of Library and Information Experts of the V4+ Countries" rendezvényen Pozsonyban. A prezentáció itt tölthető le.
2019. 06. 05. Megkezdődött Zágrábban az IIPC idei közgyűlése és konferenciája, amit a konzorcium Youtube csatornáján lehet követni, a Twitteren pedig a #iipcWAC19 hashtag-get tartalmazó üzeneteket érdemes figyelni. A rendezvényen Németh Márton két előadást is tart: röviden bemutatja a magyar projektet, valamint beszél a metaadatokkal segített teljes szövegű keresésről, továbbá az egyik szekció vezetését is ellátja.
2019. 05. 16. 2019. május 22-én 16.00 órától "A digitálisan születő magyar kultúra megőrzése webarchiválással" címmel tart előadást Drótos László a Magyar Művészeti Akadémia Művészetelméleti és Módszertani Kutatóintézetének szervezésében az MMA székházában. A rendezvényre a www.mma-mmki.hu honlapon lehet regisztrálni. A prezentáció itt tölthető le.
2019. 04. 26. Németh Márton "Webarchívum mint a tudományos kutatások tárgya" című előadása letölthető a honlapról. Az előadás a győri Networkshop 2019 konferencián hangzott el 2019. április 26-án.
2019. 04. 19. Április 17-én az Országos Széchényi Könyvtárban megrendezett "Könyvtárak kincsei digitális formában - a magyar könyvtárak digitalizálási stratégiája" című konferencián Drótos László előadást tartott a webaratás és a KDS kapcsolatáról. A prezentáció itt tölthető le.
2019. 03. 18. Az angol verzió fordításával és kiegészítésével készítettünk egy Webarchiválás szócikket a magyar Wikipédiában is.
2019. 03. 18. A 2019-es Internet Fiesta rendezvénysorozathoz kapcsolódva az Országos Széchényi Könyvtár kísérleti webarchívuma URL címgyűjtési akciót hirdet 2019. március 21. és 28. között. Ez alkalommal a fókusz a szépirodalommal vagy egyéb művészeti ágakkal foglalkozó magyar weboldalakon van, ezek címeit várjuk egy javaslattevő űrlapon keresztül. További részletek a http://mekosztaly.oszk.hu/mia/if.html oldalon.
2019. 03. 12. Most 30 éve írta meg Tim Berners-Lee a World Wide Web rendszertervét, amely az elektronikus levelezés mellett a legfontosabb internetes technológia lett. Az évforduló kapcsán a W3C konzorcium blogjában jelent meg egy rövid megemlékezés.
2019. 02. 20.
2019. április 23-án délután a győri Szent István Egyetemen, a
Networkshop 2019 konferencia
nulladik napján egy tutoriál keretében mutatjuk be a személyes
és az intézményi webarchiválásra alkalmas szoftvereket,
valamint a webarchívumok használatát. Különösebb informatikai tudásra
nincs szükség, az alapvető Windows- és böngészőhasználati ismeretek
elegendőek. A tervezett témák:
1. Külföldi példák: Internet Archive, Pandora Archive, Webcite
2. Szoftverek intézményi archiváláshoz: Web Curator Tool, NetarchiveSuite, OpenWayback, Heritrix
3. Szoftverek személyes archiváláshoz: HTTrack, WAIL, Webrecorder (és Player)
4. Webarchívum építés, archiválási nehézségek
Jelentkezni a
https://nws.comp-rend.hu/?page_id=285 oldalon lehet.
2019. 02. 16. Az OSZK saját webhelyeinek - nagyrészt részleges - mentéseiből készítettünk egy válogatást a mekosztaly.oszk.hu/mia/demo/oszk_demo.html oldalon. Ennek a kis archívumnak az a célja, hogy demonstráljuk vele a különböző archiváló és megjelenítő szoftverek képességeit, illetve korlátait.
2019. 01. 31. Az Eszéken rendezett BOBCATSSS 2019 konferencián január 24-én Németh Márton által tartott, "Web archives as a research subject" című előadás prezentációja innen tölthető le.
2019. 01. 05. A nyilvános demó gyűjteménybe kerülő webhelyek tulajdonosaival egy felhasználási szerződést kötünk, amely szabályozza az OSZK jogait és kötelességeit. A szerződés szövege innen tölthető le többféle formátumban is. A kitöltött, aláírt és lepecsételt szerződéseket 2 példányban kérjük postázni az E-könyvtári Szolgáltatások Osztály részére, az Országos Széchényi Könyvtár címére: 1014 Budapest, Szent György tér 4-5-6., vagy pedig a 1827 Budapest, Budavári Palota "F" épület levelezési címre.
2018. 12. 13. Az International Internet Preservation Consortium éves közgyűlését és konferenciáját idén Wellingtonban rendezték meg, november 12. és 15. között az új-zélandi nemzeti könyvtárban. Mivel az OSZK 2018-ban lett a szervezet tagja, lehetőségünk volt egy rövid videóban bemutatni a könyvtárat, az itt folyó digitális megőrzési tevékenységet és a webarchiválási projektünket. A prezentáció és a belőle készült angol nyelvű videó is letölthető a honlapunkról.
2018. 11. 29. Elérhetők a 2018-as "404 Not Found - Ki őrzi meg az internetet?" workshop prezentációi és videofelvételei a rendezvény weboldaláról.
2018. 11. 21. November 15-én kb. 70-80 résztvevővel sikeresen lezajlott a 2018-as "404 Not Found - Ki őrzi meg az internetet?" workshop, melyet Tüske László, az OSZK főigazgatója és Latorcai Csaba, az EMMI közigazgatási államtitkára nyitott meg. A webarchiváló projekttel kapcsolatos tájékoztatókon kívül két vendégelőadás is elhangzott és végül egy kerekasztal beszélgetés zárta rendezvényt. Az előadások prezentációi és videofelvételei rövidesen felkerülnek a workshop weboldalára. Addig is az OSZK blogban és a Kultúra.hu portálon megjelent tudósításokat ajánljuk azoknak, akik nem tudtak részt venni a workshopon.
2018. 11. 10. A pozsonyi egyetemi könyvtárban november 8-án a CDA 2018 konferencián "The education of web-archiving" címmel egy újabb előadást hangzott el Németh Mártontól, melynek a prezentációja itt érhető el, a szövege pedig itt olvasható.
2018. 10. 31. Németh Márton "How to catalogue a web archive?" címmel tartott előadást Pozsonyban október 23-án az INFINT 2018 konferencián. A prezentáció innen tölthető le.
2018. 10. 10. Idén is megrendezésre kerül a "404 Not Found - Ki őrzi meg az internetet?" című workshop az OSZK-ban, 2018. november 15-én (csütörtökön) 13 órai kezdettel. A részletes program a http://mekosztaly.oszk.hu/mia/404_workshop.html oldalon olvasható. Szeretettel várunk mindenkit, akit érdekel az internetes tartalmak hosszú távú megőrzése.
2018. 10. 10. A K2 Műhely továbbképzési sorozatának keretében rendezett "Born digital" és a könyvtárak műhelynapon "Webes tartalmak digitális megőrzése" címmel Drótos László tartott előadást. A prezentáció innen tölthető le.
2018. 09. 15. Az új Digitális Bölcsészet folyóiratban megjelent Drótos László és Kokas Károly tanulmánya "Webarchiválás és a történeti kutatások" címmel, amelynek első része bemutatja az online tartalmak archiválásának helyzetét a világban és itthon, a második rész pedig a webarchívumok történettudományi célú hasznosításáról szól, külföldi esettanulmányokkal. A teljes szöveg itt tölthető le.
2018. 09. 12. Megújult és jelentősen bővült a Németh Márton által szerkesztett, a webarchiválás témájával (is) foglalkozó hazai és külföldi publikációk adatait tartalmazó bibliográfia, ami az IRODALOM menüpontra kattintva érhető el. A több mint 450 tételes gyűjtemény letölthető HTML, Word, PDF, hivatkozás-kezelő szoftverekbe beolvasható RIS, valamint böngészőkbe importálható könyvjelzőfájl formátumban is. A publikációk többségéhez rövid összefoglaló is tartozik, de a teljes szövegük nem minden esetben érhető el nyilvánosan, csak olyan könyvtárakból és egyéb intézményekből lehet hozzáférni ezekhez, amelyek előfizetnek az adott full-text szolgáltatásra.
2018. 08. 30. Megjelent egy rövid ismertető a webaratási projektről az OSZK blogjában. A posztot az index2.hu portálon is megosztották és a nagy nézettségnek köszönhetően sorra érkeznek a javaslatok az erre szolgáló űrlapon keresztül az archiválásra érdemes magyar webhelyekről. Minden ajánlott webcímet felveszünk a nyilvántartásunkba és időszakosan (általában évi néhány alkalommal) elkezdjük majd menteni.
2018. 08. 14. A Tudományos és Műszaki Tájékoztatás 2018/7-8. számában megjelent Drótos László és Németh Márton cikke "Az OSZK-ban folyó kísérleti webarchiválási projekt első évének tapasztalatai" címmel. A TMT előfizetői innen tölthetik le.
2018. 07. 26. Az MKE Helyismereti Könyvtárosok Szervezete XX. Országos Konferenciáján Győrben július 26-án Moldován István és Drótos László tartott előadást "Ki őrzi meg a helyi webet? - Helyismereti vonatkozású internetes tartalmak archiválása webaratással" címmel, melyet egy rövid kerekasztal-beszélgetés is követett a városi és megyei könyvtárak lehetséges szerepvállalásáról a webarchiválásban. Az előadás prezentációja innen tölthető le.
2018. 07. 19. Új verzió került fel a dán fejlesztésű SolrWayback szoftverből a demó gyűjteményt szolgáltató szerverre, a http://193.6.201.202/solrwayback/ címre. A mentett webhelyek teljes szövegében lehet vele keresni és a találatok szűkíthetők doménnevek, fájltípusok és a mentés éve szerint. A találati listában a weboldal vagy fájl (nagy betűvel kiemelt) címére kattintva jutunk el az archivált verzióra, az Url: sorban levő cím pedig az eredeti honlapra/fájlra mutat. A Show full post felirat alatt megnézhetők az adott találat részletes adatai. Egy találatra kattintva további információk is megjeleníthetők az adott oldalról vagy doménről, ha a bal felső sarokban levő Toolbar eszköztárat lenyitjuk.
2018. 07. 11. Megjelent a 2018-as BOBCATSSS konferencia kiadványa, benne Németh Márton és Drótos László "Web-Archiving: responsibility of Public Collections in the Preservation of the Digital Culture" című előadása (a 124. oldalon). A kötet innen tölthető le PDF-ben.
2018. 07. 05. Elkezdődött a demó gyűjteményben levő archivált webhelyek leírása. Az eredetileg XML formátumú metaadat-rekordok a táblázat utolsó oszlopában levő barna nyilakra kattintva érhetők el (és a Ctrl/U megnyomásával nézhető meg az eredeti XML forráskódjuk). A rekordok folyamatosan készülnek és kerülnek ki a http://mekosztaly.oszk.hu/mia/demo/ oldalra.
2018. 06. 15. Felkerült a honlapra Parti Ádám "Jogi, politikai, kormányzati weboldalak külföldi webarchívumokban, és hazai gyűjtőkörük" című - e héten megvédett - szakdolgozata, melyet a Szegedi Tudományegyetem Bölcsészettudományi Karán készített az informatikus könyvtáros szak BA képzés keretében. A PDF formátumú dokumentum innen tölthető le.
2018. 06. 12.
Az Országos Széchényi Könyvtár kísérleti webarchiválási
projektjének munkatársai az idei
Múzeumok Éjszakáján a játékokkal foglalkozó honlapok, blogok, magazinok és
egyéb internetes források mentéseiből kialakított részgyűjteményt mutatják be.
Több mint száz magyar webhely archivált változata nézhető meg, melyek tematikája
a régi táblás játékoktól a nyelvi játékokon át a modern videojátékokig terjed.
Emellett lehetőség lesz megismerni az elmúlt egy év alatt kialakított demó
archívumot, valamint visszanézni azoknak a weboldalaknak bármelyikét, amelyek az
archívum nem nyilvános részébe kerültek.
Időpont: 2018. június 23-án 16 órától 24-én 02.00 óráig
Helyszín: Országos Széchényi Könyvtár, Budavári Palota "F" épület 5. emelet (az ereklyetér folyosóján)
2018. 04. 24. Egy technikai probléma elhárítása után ismét használható a SOLR Wayback Search is a demó archívumban levő mentések teljes szövegében való kereséshez. Ennek a programnak egy plusz szolgáltatásaként a http://mekosztaly.oszk.hu/mia/demo/ oldalon a sárga nyilakra kattintva megnézhető az adott doménről kifelé mutató, illetve a rá kívülről hivatkozó linkek gráfja - az archívumban levő mentések alapján. (Mivel a demó archívum még kicsi, ezért ez utóbbi, ingoing típusú linkek száma nagyon kevés.)
2018. 04. 11. A https://goo.gl/forms/Y1qIIxcM7APPiq443 űrlapon keresztül ezentúl bárki javasolhat kevésbé ismert, de archiválásra érdemes magyar webhelyeket. Jelenleg elsősorban irodalmi és művészeti témájúakat gyűjtünk, de egyéb kulturális, oktatási, tudományos vagy közéleti honlapok, blogok, híroldalak stb. címeit is örömmel vesszük. Az ajánlott források tulajdonosaival felvesszük a kapcsolatot, hogy engedélyt kérjünk a mentések nyilvános szolgáltatására.
2018. 04. 05. Letölthető Drótos László és Németh Márton "A webarchiválás oktatása" című előadásának prezentációja és szövege, mely az egri Eszterházy Károly Egyetemen megrendezett Networkshop 2018 konferencián hangzott el április 5-én délelőtt.
2018. 03. 24. A SOLR Wayback Search kereső helyett elkezdtünk egy felhasználóbarátabb, a találati listában a szövegkörnyezetet minden tételnél kiíró keresőfelületet fejleszteni a demó archívumhoz SolrMIA néven. Az egyes találatok kék színű címére kattintva az archivált változat jelenik meg, míg a zöld színű link az eredeti szerveren levő fájlra visz (amennyiben az még létezik). A dőltbetűs dátum a lementés napját mutatja. A találati lista a bal oldalon látható szempontok szerint szűrhető tovább.
2018. 03. 09. A demó archívumhoz kísérleti jelleggel beüzemeltük a SOLR Wayback Search nevű felületet, amellyel a mentett webhelyek teljes szövegében lehet keresni és a találatok szűkíthetők doménnevek, fájltípusok és a mentés éve szerint. A találati listában a weboldal vagy fájl (nagy betűvel kiemelt) címére kattintva jutunk el az archivált verzióra, az Url: sorban levő link pedig az eredeti honlapra/fájlra visz. A Show full post felirat alatt megnézhetők az adott találat részletes adatai, és ezen belül a text rovatban az a szövegkörnyezet is, ahol a keresett szó előfordul.
2018. 03. 02. 2018-tól az Országos Széchényi Könyvtár tagja lett a webarchiválással foglalkozó intézményeket tömörítő nemzetközi szervezetnek, az International Internet Preservation Consortium-nak. Néhány napja az OSZK-s kísérleti projekt ismertetője is felkerült az IIPC honlapjára.
2018. 02. 14. Az eddigi próbamentésekből válogatott honlapok közül azok, amelyeknek a szolgáltatására engedélyt adott a tartalomgazda, megnézhetők a http://mekosztaly.oszk.hu/mia/demo/ oldalon a piros nyilakra kattintva. Ugyancsak megnézhetők a mentés idején készült képernyőfotók és az Internet Archive-ban található régebbi változatok, valamint az "élő" honlap, így összehasonlíthatók a különböző archív példányok az eredetivel. A listát folyamatosan bővítjük majd újabb kategóriákkal és honlapokkal.
2018. 02. 05. Az IIPC konzorciumon keresztül a British Library közzétett egy felhívást, hogy minél több partnerintézmény gyűjtse össze az adott ország téli olimpiával kapcsolatos webes forrásait, amelyek archiválásra érdemesek. A magyar gyűjtés ebben a Google táblázatban nézhető meg. További javaslatokat szívesen veszünk a mia@mek.oszk.hu e-mail címen. A listában szereplő weboldalakról az OSZK kísérleti webarchiválási projektje keretében is készülnek majd heti mentések február 5. és március 5. között.
2018. 02. 04. Bekerült az IEEE Xplore repozitóriumba a 2017 szeptemberi CogInfoCom nemzetközi konferenciára beadott "demo paper", a Németh Márton és Drótos László által írt rövid projektismertető "Hungarian web archiving pilot project in the National Széchényi Library" címmel. Előfizetőknek innen tölthető le.
2018. 02. 01. Az amerikai Archive-It webarchiváló szolgáltatás az európai intézmények számára egy ingyenes, kb. 45 perces webináriumot tart február 21-én magyar idő szerint 15.00 órakor. Jelentkezni a https://archive-it.org/contact-us oldalon lehet.
2018. 01. 31. A 2017. december 18-án az OSZK-ban bemutatkozó szlovák Tempest cég előadásainak - köztük a webarchívumról szólónak - felvételei megnézhetők a Videotoriumban: https://videotorium.hu/hu/channels/3084.
2018. 01. 30. Letölthető a honlapról Németh Márton "Web museum, web library, web archive - The responsibility of public collections to preserve digital culture" című BOBCATSSS előadásának prezentációja és szövege.
2018. 01. 19. Az e heti HVG Tech + Tudomány rovatában "Mentés ugyanúgy" címmel jelent meg Illényi Balázs cikke a webarchiválás helyzetéről a világban, valamint az OSZK-ban folyó kísérleti projektről. A cikk teljes szövege itt olvasható online.
2018. 01. 18. Az EUCLID (European Association for Library and Information Education and Research) által szervezett BOBCATSSS konferencia idén a lettországi Rigában kerül megrendezésre, melynek utolsó napján, január 26-án 15.00 órától Németh Márton tart előadást "Web museum, web library, web archive - The responsibility of public collections to preserve digital culture" címmel.
2018. 01. 18. A Könyvtári Figyelő 2017. évi 4. számában megjelent Németh Márton "Nemzetközi körkép a webarchiválás gyakorlatáról" című összeállítása, amely kilenc ország példáján mutatja be, hogy a nemzeti könyvtárak milyen jogi, gyűjtőköri, szervezeti és szolgáltatási keretek között próbálják hosszú távon megőrizni a nyilvános webes tartalmakat. A teljes cikk innen tölthető le.
2017. 12. 11. A jövőre 15 éves International Internet Preservation Consortium következő általános taggyűlése és az ehhez kapcsolódó "Web Archiving Conference" nevű konferenciája az új-zélandi nemzeti könyvtárban, Wellingtonban lesz 2018. november 13-15. között. További részletek és jelentkezési határidők a netpreserve.org/ga2018 oldalon találhatók.
2017. 12. 06. December 18-án az egyéb digitális könyvtári projektek mellett a szlovák webarchívum rendszerét is fejlesztő Tempest cég tart bemutatót a Országos Széchényi Könyvtárban. A részletes program az OSZK honlapján olvasható.
2017. 12. 04. A digitális megőrzés napja alkalmából David S. Rosenthal, a Stanford Egyetem könyvtárának kutatója megjelentetett egy írást a DPC blogján Losing the Battle to Archive the Web címmel. A blogbejegyzésről Németh Márton készített egy magyar nyelvű összefoglalót, amely innen tölthető le.
2017. 11. 29. A Muzeum@Digit 2017 konferencián elhangzott "Webmúzeum, webkönyvtár, weblevéltár - közgyűjteményi felelősség a digitális kultúra megőrzésében" c. előadás prezentációja letölthető a honlapról.
2017. 11. 27. A Digital Preservation Coalition minden év novemberének utolsó csütörtökjét a digitális megőrzés napjának nyilvánította, melyre első alkalommal 2017. november 30-án kerül sor. A DPC honlapján különböző ötletek olvashatók arról, hogy hogyan lehet felhívni ezen a napon a figyelmet a digitális kultúra veszélyeztettségére és a hosszú távú megőrzéssel foglalkozó törekvések fontosságára.
2017. 11. 21. Dr. Kosztyánné dr. Mátrai Rita, az ELTE egyetemi tanársegédje a könyvtáros hallgatóknak szóló "Kommunikáció és informatika alapjai" c. tantárgy keretében összeállított egy prezentációt a webarchiválásról és a Scrapbook nevű böngészőkiegészítő használatáról. A PowerPoint fájl innen tölthető le.
2017. 11. 21. Megjelent Németh Márton beszámolója az október 13-án tartott "404 Not Found - Ki őrzi meg az internetet?" workshopról a TMT szakfolyóiratban. Egyelőre csak előfizetők számára férhető hozzá ezen a weboldalon.
2017. 11. 16. A 2017-es Muzeum@Digit konferencián Drótos László és Németh Márton közös előadására november 29-én 15:50-től kerül sor "Webmúzeum, webkönyvtár, weblevéltár: közgyűjteményi felelősség a digitális kultúra megőrzésében" címmel. (Az immár 5. alkalommal megrendezett konferenciához mobil applikációt is készített a Magyar Nemzeti Múzeum Országos Muzeológiai Módszertani és Információs Központja Androidra és iOS-re.)
2017. 11. 15. Az Országos Széchényi Könyvtár 2018. januárjától teljes jogú tagjává válik a számítógépes világháló archiválásában érdekelt nemzeti könyvtárakat s egyéb intézményeket tömörítő International Internet Preservation Consortium (IIPC) nemzetközi szakmai szervezetnek. A webarchiválással kapcsolatos tapasztalatok megosztásának igénye, a nemzetközi információáramlásban, illetve a közös projektekben való részvétel indokolták intézményünk részéről a csatlakozási kérelmet. Elsőként, már 2017. novemberétől kezdve, egy digitális tréning platform létrehozásának munkálataiba tudunk reményeink szerint bekapcsolódni.
2017. 10. 15. A 2017. október 13-án az OSZK-ban tartott "404 Not Found - Ki őrzi meg az internetet?" workshop prezentációi már elérhetők a mekosztaly.oszk.hu/mia/404_workshop.html oldalon. Rövidesen lesznek fotók is a rendezvényről, illetve az előadások videofelvételei is felkerülnek a Videotoriumba.
2017. 09. 15. 2017. október 13-án (pénteken) 10.00 órától kb. 13.30-ig egy workshop-szerű szakmai napot tartunk az Országos Széchényi Könyvtár 6. emeleti dísztermében "404 Not Found - Ki őrzi meg az internetet?" címmel a közgyűjtemények feladatairól a webes és egyéb internetes tartalmak archiválásával kapcsolatban. Az első két órában négy vitaindító előadás hangzik el, melyeket kötetlen beszélgetés követ a résztvevőkkel az elhangzott témákról.
A tervezett előadások:
- Kees Teszelszky, a holland nemzeti könyvtár webarchiválással foglalkozó magyar származású munkatársa a 2007 óta működő holland és az idén indult belga projektekről ad áttekintést.
- Peternák Miklós, a C3 Kulturális és Kommunikációs Központ igazgatója az online tartalmak megőrzésének fontosságáról beszél, elsősorban múzeumi-művészeti kontextusban.
- Kampis György, az ELTE egyetemi tanára a 2010-es évek első felében, a PetaByte Nonprofit Kutatási Kft. által - főként tudománymetriai célból - lefolytatott webaratást, valamint híroldal-archiválást ismerteti.
- Drótos László témafelelős és Németh Márton webkönyvtáros, az OSZK munkatársai pedig az OKR program keretében zajló webarchiválási pilot projekt első fél évének tapasztalatairól és eredményeiről számolnak be.
A rendezvény iránt érdeklődőktől kérjük, hogy részvételi szándékukat jelezzék Visky Ákos Lászlónak a visky.akos.laszlo@oszk.hu e-mail címen.
2017. 09. 04. Augusztus végén lefutott egy terhelési teszt a webaratást végző 16 CPU magos és 64 GB memóriájú szerveren: 20 darab, egyenként 20 ezer URL címet tartalmazó Heritrix munkafolyamat lett elindítva. Ez már 100 százalékosan leterhelte a processzorokat és 3 nap után a memóriából is kifutott a rendszer, úgyhogy az ilyen volumenű aratásokhoz szerverbővítésre lesz majd szükség.
2017. 07. 26. A MIA WIKI, ami korábban csak az OSZK belső hálózatán levő Redmine rendszerben, illetve egy kiexportált HTML fájlban volt elérhető, átköltözött egy Mediawiki rendszerbe és ezentúl már itt épül tovább: http://mekosztaly.oszk.hu/mediawiki/
2017. 07. 19. Az OSZK E-könyvtári Szolgáltatások Osztályára látogatott Kees Teszelszky, a holland nemzeti könyvtár webarchiválással foglalkozó magyar származású munkatársa, akitől sok hasznos információt megtudtunk a 2007 óta működő Webarchief KB-ról, a 10 év alatt szerzett tapasztalatokról és tanulságokról. A Koninklijke Bibliotheek 12 ezer webhelyet ment rendszeresen, munkamegosztásban más holland intézményekkel. Érdemes követni Kees Twitter csatornáját, ahol az internetes források megőrzésével és a webarchívumok kutatásával kapcsolatos információkat és érdekességeket oszt meg. (További részletek a megbeszélésről Németh Márton blogjában olvashatók.)
2017. 07. 14. Ismét lement egy komolyabb (több mint 17 napos) aratás. Egyrészt az április végén és május elején begyűjtött közel 1,500 e-periodika ismételt mentése, másrészt a Nyilvános Könyvtárak Jegyzékéből kb. 500 könyvtári honlap archiválása. Utóbbiakról összesen 285 GB került letöltésre (max. 3 szint mélységig ment csak le a robot és a szerver karbantartása miatt kb. 90%-os állapotnál le lett állítva a Heritrix, úgyhogy ezek nem teljes mentések). A hibák és hiányok ellenőrzését elkezdtük.
2017. 07. 09. Elsősorban az OSZK munkatársai számára készült egy kis összeállítás néhány külföldi nemzeti könyvtár webarchiválási tevékenységéről és az Országos Széchényi Könyvtár ez irányú terveiről. A prezentáció innen letölthető. Első alkalommal július 11-én (kedden) 9 órai kezdettel lesz bemutatva az érdeklődő kollégáknak a Könyvtártudományi Szakkönyvtár olvasótermében.
2017. 07. 06. Moldován Istvánnak a Magyar Könyvtárosok Egyesülete 49. Vándorgyűlésén Miskolcon "Kísérleti magyar webarchiválási program - A könyvtárak szerepe" címmel megtartott prezentációja letölthető innen.
2017. 07. 03. Új taggal bővült mától a webarchíválási pilot projekt csapata: Visky Ákos László elsősorban a webhelyek válogatásával, metaadatolásával, a mentések minőségének ellenőrzésével és az engedélykérésekkel kapcsolatos levelezéssel fog foglalkozni.
2017. 06. 30. A Magyar Könyvtárosok Egyesületének 49. Vándorgyűlésén Miskolcon Moldován István, az OSZK E-könyvtári Szolgáltatások Osztályának osztályvezetője tart előadást a Jogi Szekcióban "Kísérleti magyar webarchiválási program - Te is segíthetsz!" címmel. Helyszín: Miskolci Egyetem A/1 épület, magasföldszint 1-2. terem. Időpont: július 6. (csütörtök), 11.40-től 12.00-ig. A teljes program a http://vandorgyules.rfmlib.hu oldalról érhető el.
2017. 06. 29. Ambrus Attila József, pécsi informatikus-könyvtáros kollégának köszönhetően egy jó minőségű és a vetített diaképekkel kiegészített verzió készült el a június 1-i "Az internet archiválása, mint könyvtári feladat" c. előadás videofelvételéből. Letölthető MP4 formátumban innen (673 Mbyte), vagy megnézhető a Youtube-on. Egy blogbejegyzés a videóról a PTE Kalauzban.
2017. 06. 26. Új verzió került a honlapra a webarchiválás bibliográfiából, új tételekkel és javított URL címekkel a régieknél. A kiexportált MIA Wiki is frissült pár napja, ami most már 520 szócikket tartalmaz.
2017. 06. 17. Véget ért Londonban a Web Archiving Week, amely az International Internet Preservation Consortium éves konferenciájából (Web Archiving Conference) és az Archives Unleashed nevű workshop-sorozat negyedik részéből állt. Az előadások kivonatai itt olvashatók és egy részük teljes szöveggel is elérhető már. A Twitter üzenetek a #waweek2017 hashtag alatt nézhetők meg, a tweetekben előforduló URL címek listája pedig itt található. A DIGHUMLAB honlapján megjelent összefoglaló.
2017. 06. 15. Elkészült egy szövegtervezet, ami röviden és közérthetően definiálja a webarchívum gyűjtőkörét és a gyűjtés célját. PDF formátumban letölthető innen. A pilot projekt tanulságai alapján felülvizsgálatra kerül majd és valószínűleg módosulni is fog.
2017. 06. 13. Az MR1 Kossuth Rádió "Közelről" című műsorában ma délután egy rövid beszélgetés hangzott el Kokas Károllyal a tervezett magyar internet archívumról. Meghallgatható a MédiaKlikk oldalán.
2017. 06. 08. A június 1-én tartott "Az internet archiválása, mint könyvtári feladat" előadás videofelvétele innen letölthető MPEG formátumban (520 Mbyte). A hozzá tartozó prezentáció pedig itt található (25 Mbyte).
2017. 06. 07. Elkészült egy kis tájékoztató a webarchiválási projektről, ami PDF fájlként is letölthető innen. Az egy A5-ös papír két oldalára kinyomtatható szórólap plakátméretben is megjelenik majd az OSZK-ban a Múzeumok Éjszakáján 2017. június 24-én.
2017. 06. 01. A 2017. június 1-én 13 órakor kezdődő és a http://www.ustream.tv/channel/hjrRWJU4xGH oldalon közvetített webinárium PowerPoint prezentációja már letölthető a http://mekosztaly.oszk.hu/doc/internet_archivalas.ppt címről.
2017. 05. 24. Frissült a MIA Wiki, már 460 szócikk és 910 külső link található benne. Főleg a FOGALMAK fejezet bővült, megjelent a SZABVÁNYOK kategória, és a korábbi szócikkekben is több javítás történt.
2017. 05. 24. A MEK Egyesület 2017. évi közgyűlésén (2017. május 26. 10.30 - Országos Széchényi Könyvtár, Budapest, Budavári Palota F. épület V. emelet 516. szoba) az ebédszünet előtt Drótos László tart egy rövid beszámolót az OSZK webarchiválási programjáról.
2017. 05. 24. Új változat került ki a webarchiválás témájú bibliográfiából, ami most már 58 idegen nyelvű publikációt tartalmaz 2011-ig visszamenőleg.
2017. 05. 19. "A jövő könyvtára felé..." webinárium-sorozat keretében 2017. június 1-én 13 órai kezdettel Drótos László tart előadást "Az internet archiválása, mint könyvtári feladat" címmel a II. Rákóczi Ferenc Megyei és Városi Könyvtár előadótermében (Miskolc, Görgey Artúr u. 11.). Az élő videóközvetítés a http://www.ustream.tv/channel/hjrRWJU4xGH oldalon lesz. (A KIT Hírlevélben megjelent ajánló.)
2017. 05. 18. Elkezdtünk egy válogatott bibliográfiát építeni a téma idegen nyelvű szakirodalmából. Az első változat már itt megnézhető.
2017. 05. 18. A Könyvtári Intézet beszerzett egy ISO szabványt és egy ISO Technical Report-ot a webarchiválás területéről. Az ISO 28500:2009 a lementett webhelyek tárolására használt WARC fájlformátumot definiálja (a szövegtervezet itt olvasható). Az ISO/TR 14873:2013 pedig a webarchívumok statisztikai, fogalmi és minőségi jellemzőit határozza meg (a draft változat innen tölthető le).
2017. 05. 17. Németh Márton készített néhány összefoglalót egyes nemzeti webarchívumok gyűjtőköréről, jogi és szervezeti kereteiről. Jelenleg a dán, a cseh, az észt, a brit és az ausztrál projekt ismertetője tölthető le.
2017. 05. 15. A OSZK E-könyvtári Szolgáltatások Osztálya új munkatárssal bővült: Németh Márton kifejezetten az internet archiválással kapcsolatos könyvtárosi feladatokkal, a nemzetközi tapasztalatok hazai adaptálásával, a webaratási pilot projekt menedzselésével fog foglalkozni.
2017. 05. 11. Frissült a kiexportált MIA Wiki. Jelenleg 423 szócikk és 863 külső link van benne. Főleg a SZOFTVEREK fejezet bővült az elmúlt napokban.
2017. 05. 09. A web és más internetes források archiválása, egy leendő Magyar Internet Archívum létrehozása iránt érdeklődők számára elindult a MIA-l nevű levelezőlista, melyre a http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mia-l oldalon lehet feliratkozni és a mia-l@mek.oszk.hu címen lehet levelet küldeni. (A feliratkozási kérelem adminisztrátori jóváhagyás után lép életbe.) A listán az OSZK-s webaratási projekttel kapcsolatos fejlemények mellett egyéb információkat is meg lehet osztani a webhelyek és egyéb online tartalmak hosszú távú megőrzésével kapcsolatban.
2017. 05. 08. Április 26. és május 3. között lefutott az első komolyabb tesztaratás, amely az EPA-ban "távoli"-ként katalogizált magyar időszaki kiadványokra terjedt ki és 4 terabájt összméret elérése után le lett állítva. A futási idő 7 nap és 5 óra 47 perc volt. Ez alatt a Heritrix crawler 2.068 URL seed címet nézett végig, 219-nél nem tudott elindulni (vagy azért, mert már megszűnt az oldal, vagy mert ki vannak róla tiltva a robotok), 69.117 hostról mintegy 40 millió linket követett sikeresen (másodpercenként átlagosan 64-et, 6.7 megabájtos letöltési sebességgel), a sikertelenül lekért URI-k száma 1,74 millió volt, a figyelmen kívül hagyottaké pedig 1.85 millió. A webszerverek által visszaküldött fájlok MIME típusainak összesítése itt megnézhető (ugyanaz a típus többféle névvel vagy írásmóddal is előfordul benne!).
2017. 05. 04. Kokas Károly, a SZTE Klebelsberg Könyvtár főigazgató-helyettese a SZEGED TV Körút című műsorában beszélt a webarchiválás fontosságáról. (26:14-ig kell előretekerni a felvételben.)
2017. 05. 03. Megkezdődött az EPA-ban távoli tételként leírt elektronikus periodikák átnézése és a kapcsolati e-mail címek összegyűjtése.
2017. 05. 02. Új verzió került ki a MIA Wikiből a nyilvános felületre, ami már 373 szócikket és 784 külső linket tartalmaz. Keresni a Ctrl/F megnyomásával lehet benne.
Az Országos Széchényi Könyvtár 2017 áprilisától az OKR projekt keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. Ez az alprojekt 2019 májusának végéig tart és az informatikai hátterét a KIFÜ biztosítja.
Ennek a kutatási és fejlesztési munkának az a célja, hogy megalapozza egy leendő magyar internet archívum feltételeit:
A teszt fázisban néhány száz kulturális és tudományos webhely kerül kiválasztásra (pl. könyvtári, levéltári, múzeumi honlapok, egyetemek és kutatóintézetek oldalai, elektronikus folyóiratok, szakmai blogok), melyeknek a tulajdonosait elektronikus levélben értesítjük erről és engedélyt kérünk az archiválásra ill. esetleg a lementett változat szolgáltatására is egy demonstrációs célra létrehozott gyűjteményben. A szelektíven archivált URL címek keresője itt található.
A megőrzésre érdemes magyar webhelyek válogatásához, illetve az archívum megtervezéséhez várjuk a téma iránt érdeklődő kollégák jelentkezését a mia@mek.oszk.hu címen. (A gyűjtőkör részletesebb lehatárolása itt olvasható.) A projekt keretében készült, illetve annak témájához kötődő publikációk, előadások és cikkek listája itt tölthető le.
In April 2017 the National Széchényi Library has started a web archiving pilot project as a part of its comprehensive IT infrastructure development programme. The deadline is the end of May 2019 and the technological background is provided by the government informatics agency: KIFÜ. The aim of the research and development activities in the pilot project is the establishment of a prospective Hungarian Internet Archive:
To select Hungarian websites that worth to be archived and to plan the prospective Hungarian Internet Archive we would like to get in touch with any kind of experts who are interested in this project. Our contact e-mail address is: mia@mek.oszk.hu
Click here to download the list of publications, presentations and media coverage regarding the project or its topic.
SZAKIRODALOM MAGYARUL
404 WORKSHOP
2017. október 13-án "404 Not Found - Ki őrzi meg az internetet?" címmel egy félnapos workshop-ot tartottunk az OSZK-ban, melyen öt előadás hangzott el az eddigi hazai törekvésekről, valamint a holland webarchívumról. Az előadások videófelvételei és prezentációi, valamint az eseményről készült beszámolók innen érhetők el: http://mekosztaly.oszk.hu/mia/404_workshop.html. Ugyanitt található a 2018. november 15-én és 2019. november 14-én ismét megrendezésre került workshopok részletes programja.
MIA WIKI
Az internet archiválásával kapcsolatban az elmúlt több mint 20 évben számos projekt indult a világban és rengeteg ismeret összegyűlt. MIA Wikiben ezeket próbáljuk meg minél tömörebben összefoglalni, a következő kategóriák alatt: Fogalmak, Formátumok, Fórumok, Hasznosítás, Irodalom, Projektek, Rendezvények, Szabványok, Szervezetek, Szoftverek és Szolgáltatások. A wiki 2017. július 26. óta a http://mekosztaly.oszk.hu/mediawiki/ címen található. (Egy régebbi állapot egyetlen HTML fájlba kiexportálva elérhető még itt: http://mekosztaly.oszk.hu/mia/MIA_wiki.html)
RÉGI GYŰJTÉS
2006-ban már elkezdődött egy kis tesztgyűjtemény összeállítása a HTTrack szoftverrel. Az akkor lementett honlapok listája itt nézhető meg (az archivált példányok nem érhetők el nyilvánosan - copyright okokból): http://mekosztaly.oszk.hu/mia/regi-index.html