Seed

A MIA wikiből

A kiindulópont egy crawler számára, egy URL cím, amelyet elsőként arat le és utána követi az abban található linkeket. Az URL rendszerint egy webhely kezdőlapja vagy egy olyan weboldal, ahonnan sok link mutat befelé vagy kifelé. Nagyobb méretű aratásoknál a crawler egy seed listát kap és abból indul el több szálon egyszerre, amely lista nagyon sok URL címet is tartalmazhat. Egy jó seed lista összeállítása és karbantartása fontos feltétele az adott webarchiválási cél elérésének. Történhet emberi szakértelemmel (pl. az Open Directory Projectre vagy más hasonló linkgyűjteményre alapozva, vagy különböző szakértők közös munkájával, esetleg a laikus tömegeket is bevonva (crowdsourcing). Vagy pedig megoldható algoritmusokkal is (pl. a PageRank értékeket vagy a látogatottsági adatokat figyelembe véve).