„Crawl frontier” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A crawlert irányító modul a webaratás során. A backend-nek nevezett komponense (a Heritrixnél pl. crawl scope modul) tartalmazza mindazokat a szabály…”)
 
 
2. sor: 2. sor:
   
 
A linkek követési sorrendjének meghatározásánál többféle logikát alkalmazhat a frontier: lehet ez valamilyen pontozásos módszer (pl. relevancia, frissesség, változási gyakoriság alapján számított prioritás), vagy FIFO/LIFO elv (az elsőként/utolsóként talált linket követi először, majd hasonló sorrendben a többit), vagy DFS/BFS elv (mélységben/szélességben megy előbb végig a linkeken). A frontier és a crawler közé egy vagy több middleware is beiktatható, melyekkel a köztük folyó kommunikáció menedzselhető és plusz funkcionalitás adható az aratórendszernek.
 
A linkek követési sorrendjének meghatározásánál többféle logikát alkalmazhat a frontier: lehet ez valamilyen pontozásos módszer (pl. relevancia, frissesség, változási gyakoriság alapján számított prioritás), vagy FIFO/LIFO elv (az elsőként/utolsóként talált linket követi először, majd hasonló sorrendben a többit), vagy DFS/BFS elv (mélységben/szélességben megy előbb végig a linkeken). A frontier és a crawler közé egy vagy több middleware is beiktatható, melyekkel a köztük folyó kommunikáció menedzselhető és plusz funkcionalitás adható az aratórendszernek.
  +
  +
----
   
 
* [https://en.wikipedia.org/wiki/Crawl_frontier Wikipedia: Crawl frontier]
 
* [https://en.wikipedia.org/wiki/Crawl_frontier Wikipedia: Crawl frontier]

A lap jelenlegi, 2017. július 23., 16:22-kori változata

A crawlert irányító modul a webaratás során. A backend-nek nevezett komponense (a Heritrixnél pl. crawl scope modul) tartalmazza mindazokat a szabályokat, amelyeket a crawlernek be kell tartania a webtér bejárása során (pl. milyen fájlokat töltsön le, milyen sorrendben és milyen mélységig kövesse a linkeket, milyen gyakran térjen vissza egy oldalra, figyelembe vegye-e a robots.txt korlátozásait?). A crawler elindul a seedként megadott URL-ről, majd minden weboldal kérés eredményéről értesíti a frontiert és elküldi neki az abban talált linkeket is (ez a kommunikáció a frontier manageren vagy frontier API-n keresztül zajlik). A frontier ezeket a linkeket nyilvántartja és a backend-ben rögzített szabályok alapján utasítja a crawlert, hogy mit töltsön le a következő lépésben. Ha elfogynak a szabályoknak megfelelő linkek, akkor az aratás leáll.

A linkek követési sorrendjének meghatározásánál többféle logikát alkalmazhat a frontier: lehet ez valamilyen pontozásos módszer (pl. relevancia, frissesség, változási gyakoriság alapján számított prioritás), vagy FIFO/LIFO elv (az elsőként/utolsóként talált linket követi először, majd hasonló sorrendben a többit), vagy DFS/BFS elv (mélységben/szélességben megy előbb végig a linkeken). A frontier és a crawler közé egy vagy több middleware is beiktatható, melyekkel a köztük folyó kommunikáció menedzselhető és plusz funkcionalitás adható az aratórendszernek.