Tinklapio indeksacija. Failas robots.txt

PDFSpausdintiEl. paštas

Antradienis, 07 Gruodis 2010 23:25 Parašė Rimvydas Peržiūrų: 6196

( 8 Balsai )
Tinklapio indeksacija. Failas robots.txt - 5.0 out of 5, based on 8 votes

Daugumoje  tinklapių sukurtų įvairių TVS pagrindu  yra daug informacijos kurios nebūtina indeksuoti. Tinklalapio indeksacija yra sudėtingas ir nemažai resursų reikalaujantis procesas, todėl norint sumažinti serverio apkrovą ir indeksacijos dubliavimą būtina nustatyti tam tikras indeksavimo taisykles. Šias taisykles paieškos robotams apibrėžia robots.txt failas. Šis failas yra šakniniame kataloge . Tai yra paprastas tekstinis failas kuriame aprašomos tinklalapio indeksavimo taisyklės. Jas keičiant galima įtakoti tinklapio indeksaciją.

Naršyklėje surinkę bet kokio tinklapio adresą pvz.: www.google.lt ir pabaigoje pridėję /robots.txt galime pažiūrėti šio tinklapio indeksavimo taisykles tik reikia įvertinti, kad tinklapiams sukurtiems naudojant skirtingas TVS sistemas optimalios indeksacijos taisyklės gali kardinaliai skirtis. Robots.txt  failą galime sukurti naudodami paprastą teksto redaktorių kuris automatiškai neformatuoja teksto pvz.: notepad. Failo kūrimo taisyklės ir komandos yra labai paprastos, tačiau pagrindinė ir esminė ta, kad faile
tarp eilučių neturi būti kažkokių ženklų ar tuščių tarpų . Faile dažniausiai naudojamos tik dvi/trys instrukcijos User-agent  apibrėžianti roboto tipą kuriam taikoma taisyklė ir  Disallow/Allow  nurodanti veiksmą. Jei robots.txt failas tuščias reiškia , kad visiems apsilankiusiems robotams leidžiama indeksuoti visus failus ir katalogus t.y. pilnai visą tinklapį. Jei turime pvz. tokį įrašą:

 

1
2
3
4
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/

Čia nurodoma, kad visiems robotams draudžiama indeksuoti tris katalogus cgi-bin, images , tmp ir juose gyliau esančius subkatalogus, failus.

Reikia atkreipti dėmesį, kad kiekvieną katalogą būtina rašyti iš naujos eilutės.

Draudimas indeksuoti visa tinklapį  visiems robotams:

1
2
User-agent: *
Disallow: /

Leidžiame indeksuoti tinklapį visiems robotams:

1
2
User-agent: *
Allow: /

arba sukuriame tuščia robots.txt failą.

Norėdami uždrausti indeksuoti tinklapį kažkokiam konkrečiam robotui pvz.: google rašome:

1
2
User-agent: googlebot
Disallow: /

Leisti tik vienam, o uždrausti visiems kitiems:

1
2
3
4
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /

Gali būti variantas kai sakykime turime katalogą kuriam norime uždrausti indeksacija o jame yra subkatalogas  kuriam reikalinga indeksacija tada rašome taip:

1
2
3
User-agent: *
Disallow: / img/
Allow: /img/peizažas/

Čia nurodome, kad katalogas "img" indeksacijai uždraustas, tačiau jame esantis katalogas "peizažas" indeksuoti leidžiamas.Ir pabaigai, kad palengvinti robotams indeksaciją reikia pateikti tinklapio žemėlapį. Taigi susikuriame sitemaps (Joomloje tam yra skirti pluginai)  ir pabaigoje robots.txt failo nurodome kelia iki jo:

1
Sitemap: http://www.manotinklapis.lt/sitemap.xml

Aptarkite šį straipsnį forume
Norėdami dalyvauti diskusijoje turite prisijungti arba užsiregistruoti .

Joomla123.lt is not affiliated with or endorsed by Open Source Matters or the Joomla! Project.
The Joomla!® name is used under a limited license from Open Source Matters in the United States and other countries.