Polite crawler

A MIA wikiből

A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a robots.txt protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a robots.txt-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a crawler trapokat.