De-duplication

A MIA wikiből

A duplumok, vagyis a többszörösen lementett azonos tartalmak eltávolítása vagy minimalizálása egy digitális archívumban. Különösen fontos ez a tevékenység a webarchívumokban, mert ugyanazon webhelynek (ill. részleges vagy teljes másolatainak) ismétlődő mentései rengeteg azonos fájlt tartalmaznak, vagyis nagyon megnövelik a tárhelyigényt, és felhasználók számára is zavaró a találati listákban a sok azonos tétel.

A deduplikáció történhet automatikus módszerekkel: a bitre (vagy checksum-ra) azonos fájlok fölös példányainak törlésével, vagy a fájl le nem töltésével, amennyiben ugyanaz az utolsó módosításának időpontja és egyéb jellemzője, mint a már korábban ugyanarról a címről lementett állományé. Vagy pedig emberi közreműködéssel, de ilyenkor inkább csak egy webhely tartalmilag egyenértékűnek tekinthető tükrözéseinek törlése vagy az archiválásból való kizárása jöhet szóba. Az olyan fejlett crawlerek, mint pl. a Heritrix, tartalmaznak opciókat a deduplikációhoz és a WARC formátum is támogatja ezt.

Ugyanakkor bizonyos szintű redundancia minden archívumban hasznos, mert ha csak egyetlen példány van, ami megsérül vagy csak később derül ki valami probléma vele kapcsolatban, akkor nincs mivel helyettesíteni. Bíróságon elfogadható bizonyíték esetében pedig követelmény lehet az eredeti, önmagában teljes mentés bemutatása, amely nem tartalmazhat hivatkozásokat korábbi mentések azonosnak tekintett fájljaira.

A modern tárolórendszerek használnak egy szintén de-duplication (vagy intelligent compression, vagy single-instance data storage) nevű tömörítési technikát, amellyel az azonos adatszekvenciákat (bájt mintázatokat) felismerik és kevesebb helyen tárolják. Vagyis ilyenkor nem fájl szinten, hanem bájt szinten történik a redundancia csökkentése.