Crawler-friendly website

A MIA wikiből

Olyan kialakítású webhely, amelynek releváns tartalma könnyen és teljesen felderíthető robotokkal, az érdektelen (pl. naplófájlok, segédállományok) vagy lementhetetlen (pl. adatbázisok, webáruházak) részei viszont el vannak rejtve előlük. Például ilyen megoldásokkal tehető bejárhatóbbá egy webszerver tartalma:

  • honlaptérkép (lehetőleg XML-ben), amely minden lényeges aloldalra elvezeti a robotot
  • a tartalom értékes része nincs túl mélyen a kezdőlapról indulva és linkeken keresztül is elérhető, nem csak egy keresőűrlapon át
  • szabályos HTML linkek a Javascript-, Flash-, Java-alapú stb. megoldások helyett/mellett, amelyeket a robot is követni tud
  • az azonos tartalomra mutató sokféle belső link, vagy a végtelen körben egymásra hivatkozó linkek kerülése vagy kanonizálása a robotok számára
  • frame-ek, egérkattintásra aktiválódó layerek, dinamikusan generálódó tartalmak elkerülése, vagy legalább statikus és önálló URL címekkel rendelkező alternatívák generálása ezekből a robotok számára
  • jól konfigurált robots.txt, amely beengedi a robotokat, de csak a tényleges tartalmat szolgáltató, ill. számukra optimalizált részekre

A crawler-barát site-ok kialakítására vonatkozó szabályok ill. ajánlások elsősorban SEO-szempontból íródtak, vagyis a keresőgépek robotjai számára való optimalizálásra vonatkoznak. Ezek nagyrészt az archiválási célból indított robotok esetében is hasznosak, de az archiválás esetében más szempontok is vannak (lásd: archive-friendly website).