„Polite crawler” változatai közötti eltérés

A lap jelenlegi, 2017. július 23., 16:47-kori változata

A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a robots.txt protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a robots.txt-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a crawler trapokat.

@@ 1. sor: / 1. sor: @@
 A [[crawler]]ek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a [[robots txt|robots.txt]] protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a [[robots txt|robots.txt]]-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a [[crawler trap]]okat.
+----
 * [https://en.wikipedia.org/wiki/Web_crawler#Politeness_policy Wikipedia: Web crawler/Politeness policy]

„Polite crawler” változatai közötti eltérés

A lap jelenlegi, 2017. július 23., 16:47-kori változata

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök