Focused crawl

Innen: MIA

A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a focused crawler, vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó seed listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a crawl frontierben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. PageRank-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, whitelist-ek és blacklist-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.