„Focused crawl” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történ…”)
 
 
1. sor: 1. sor:
A [[broad crawl]] típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a [[focused crawler]], vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó [[seed]] listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a [[crawl frontier]]ben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. [[pagerank]]-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, [[whitelist]]-ek és [[blacklist]]-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.
+
A [[broad crawl]] típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a [[focused crawler]], vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó [[seed]] listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a [[crawl frontier]]ben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. [[PageRank]]-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, [[whitelist]]-ek és [[blacklist]]-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.
   
 
[[Category:FOGALMAK]]
 
[[Category:FOGALMAK]]

A lap jelenlegi, 2017. július 25., 20:21-kori változata

A broad crawl típusú széles körű aratással szemben egy vagy több szempont szerint jelentősen leszűkített bejárása a webhelyeknek. A szűkítés történhet egyszerűen egy URL címlistával, amelyeken túl nem megy a focused crawler, vagy téma/esemény/műfaj/fájltípus stb. megadásával, amelyek meghatározzák, hogy milyen linkeket kövessen egy, az adott szempontból fontos oldalakat tartalmazó seed listából kiindulva. Ahhoz, hogy lehetőleg csak a releváns tartalmakat szedje össze a robot, a crawl frontierben finomhangolt szabályok mellett egyéb technikák is használhatók (pl. PageRank-alapú súlyozás, web directory-k, visszalinkek elemzése, szótárak és ontológiák, whitelist-ek és blacklist-ek). Az erősen fókuszált mentéseknél az archiválók általában a minél pontosabb megőrzésre törekednek, vagyis a mennyiség helyett inkább a minőséget, az archív példány helyes és teljes megjeleníthetőségét tekintik fontosabbnak.