ArchiveTools

Innen: MIA

Kanadai programozó által Python 3-ban írt eszközök archiválási és archívum elemzési részfeladatokhoz. A json-extractor.py tömör CSV fájlt állít elő a twarc által generált JSON fájlokból. Paraméterként megadható, hogy az egyes tweet-ek mely elemei kerüljenek a CSV állományba. Az imageboard-scraper.py a 4chan képtábla (imageboard) oldalról tölt le bejegyzéseket és képeket annak az API-ját használva. A warc-extractor.py WARC konténerekből szed ki fájlokat megadott szűrőfeltételek alapján, melyek akár egy új WARC-ba is betehetők. Paraméter nélkül futtatva csak kiír néhány alapinformációt az adott mappában levő WARC állományokról.