Crawl frontier

A MIA wikiből

A crawlert irányító modul a webaratás során. A backend-nek nevezett komponense (a Heritrixnél pl. crawl scope modul) tartalmazza mindazokat a szabályokat, amelyeket a crawlernek be kell tartania a webtér bejárása során (pl. milyen fájlokat töltsön le, milyen sorrendben és milyen mélységig kövesse a linkeket, milyen gyakran térjen vissza egy oldalra, figyelembe vegye-e a robots.txt korlátozásait?). A crawler elindul a seedként megadott URL-ről, majd minden weboldal kérés eredményéről értesíti a frontiert és elküldi neki az abban talált linkeket is (ez a kommunikáció a frontier manageren vagy frontier API-n keresztül zajlik). A frontier ezeket a linkeket nyilvántartja és a backend-ben rögzített szabályok alapján utasítja a crawlert, hogy mit töltsön le a következő lépésben. Ha elfogynak a szabályoknak megfelelő linkek, akkor az aratás leáll.

A linkek követési sorrendjének meghatározásánál többféle logikát alkalmazhat a frontier: lehet ez valamilyen pontozásos módszer (pl. relevancia, frissesség, változási gyakoriság alapján számított prioritás), vagy FIFO/LIFO elv (az elsőként/utolsóként talált linket követi először, majd hasonló sorrendben a többit), vagy DFS/BFS elv (mélységben/szélességben megy előbb végig a linkeken). A frontier és a crawler közé egy vagy több middleware is beiktatható, melyekkel a köztük folyó kommunikáció menedzselhető és plusz funkcionalitás adható az aratórendszernek.