„Polite crawler” változatai közötti eltérés

Innen: MIA
(Új oldal, tartalma: „A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon r…”)
 
 
1. sor: 1. sor:
 
A [[crawler]]ek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a [[robots txt|robots.txt]] protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a [[robots txt|robots.txt]]-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a [[crawler trap]]okat.
 
A [[crawler]]ek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a [[robots txt|robots.txt]] protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a [[robots txt|robots.txt]]-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a [[crawler trap]]okat.
  +
  +
----
   
 
* [https://en.wikipedia.org/wiki/Web_crawler#Politeness_policy Wikipedia: Web crawler/Politeness policy]
 
* [https://en.wikipedia.org/wiki/Web_crawler#Politeness_policy Wikipedia: Web crawler/Politeness policy]

A lap jelenlegi, 2017. július 23., 16:47-kori változata

A crawlerek - főleg, hogy egyre több fut belőlük - komoly terhelést tudnak okozni a hálózaton és a webszervereken, ha nagyon sok kérést küldenek nagyon rövid idő alatt. Ennek elkerülésére íratlan szabályok vannak, de ezek nagyon rugalmasak: egy másodperc és több perc között változik jelenleg a különböző crawlereknél beállított időintervallum két kérés közt, illetve van olyan megoldás is, hogy az előző kérés teljesítéséhez szükséges időnek mondjuk a tízszeresét várja ki a crawler, mielőtt elküldi a következőt a szervernek. Újabban a Google és néhány más nagy kereső robotja már figyelembe veszi a robots.txt protokollhoz utólag javasolt "Crawl-delay:" paramétert, amellyel a webszerver adminisztrátora is megadhatja a minimális várakozási időt. Számít továbbá az is, hogy melyik napszakban történik az aratás, mert az adott időzóna szerinti éjszakai órákban valószínűleg kisebb problémát jelent az ezzel okozott forgalom. A jó megírt és "udvarias"-ra beállított crawler emellett tiszteletben tartja a robots.txt-ben megadott szabályokat, nem omlik könnyen össze és nem tölt le értelmetlenül nagy mennyiségű, érdektelen tartalmat, felismeri és elkerül a crawler trapokat.