Düzgün robotlar txt. Yandex robotları

Robots.txt- bu saytın kökündə yerləşən mətn faylıdır - http://site.ru/robots.txt. Onun əsas məqsədi axtarış motorlarına müəyyən direktivlər təyin etməkdir - saytda nə və nə vaxt ediləcək.

Ən sadə Robots.txt

Bütün axtarış sistemlərinə hər şeyi indeksləşdirməyə imkan verən ən sadə robots.txt belə görünür:

İstifadəçi-agent: *
İcazə verin:

Disallow direktivində arxa xətt yoxdursa, bütün səhifələrin indeksləşdirilməsinə icazə verilir.

Bu direktiv saytın indeksləşdirilməsini tamamilə qadağan edir:

İstifadəçi-agent: *
İcazə verin: /

İstifadəçi-agent - direktivlərin kimin üçün nəzərdə tutulduğunu göstərir, ulduz işarəsi bütün PS üçün, Yandex üçün İstifadəçi-agenti göstərdiyini göstərir: Yandex.

Yandex yardımı deyir ki, onun axtarış robotları İstifadəçi-agent: * , lakin İstifadəçi-agent: Yandex varsa, İstifadəçi-agent: * nəzərə alınmır.

Disallow və Allow direktivləri

İki əsas direktiv var:

Qadağan etmək - qadağan etmək

İcazə verin - icazə verin

Misal: Bloqda biz plagin fayllarının, şablonların və s.-nin yerləşdiyi /wp-content/ qovluğunun indeksləşdirilməsini qadağan etmişik. Ancaq görüntü axtarışında iştirak etmək üçün PS tərəfindən indeksləşdirilməli olan şəkillər də var. Bunu etmək üçün aşağıdakı sxemdən istifadə etməlisiniz:

İstifadəçi-agent: *
İcazə verin: /wp-content/yükləmələr/ # Yükləmələr qovluğunda şəkillərin indeksləşdirilməsinə icazə verin
İcazə verməyin: /wp-content/

Direktivlərin eyni səhifələrə və ya qovluqlara tətbiq olunma qaydası Yandex üçün vacibdir. Bunu belə qeyd etsəniz:

İstifadəçi-agent: *
İcazə verməyin: /wp-content/
İcazə verin: /wp-content/yükləmələr/

Şəkillər Yandex robotu tərəfindən /yükləmələr/ kataloqundan endirilməyəcək, çünki wp-content qovluğuna bütün girişi rədd edən ilk direktiv icra olunur.

Google bunu asanlaşdırır və yerlərindən asılı olmayaraq robots.txt faylındakı bütün direktivləri yerinə yetirir.

Həm də unutmayın ki, kəsikli və kəsiksiz direktivlər müxtəlif rolları yerinə yetirir:

İcazə vermə: /haqqında O, bütün site.ru/about/ qovluğuna girişi rədd edəcək və haqqında - site.ru/about.html, site.ru/aboutlive.html və s. olan səhifələr indeksləşdirilməyəcək.

İcazə vermə: /haqqında/ O, robotlara site.ru/about/ qovluğunda və site.ru/about.html kimi səhifələri indeksləşdirməyi qadağan edəcək. indeksləşdirmə üçün əlçatan olacaq.

robots.txt-də müntəzəm ifadələr

İki simvol dəstəklənir, bunlar:

* - simvolların istənilən sırasını nəzərdə tutur.

Misal:

İcazə vermə: /haqqında* haqqında olan bütün səhifələrə girişi rədd edəcək; prinsipcə, belə bir direktiv ulduz işarəsi olmadan eyni şəkildə işləyəcək. Ancaq bəzi hallarda bu ifadə əvəz edilə bilməz. Məsələn, bir kateqoriyada sonunda .html olan və olmayan səhifələr var, tərkibində html olan bütün səhifələrin indeksləşdirilməsini bloklamaq üçün aşağıdakı direktivi yazırıq:

İcazə vermə: /haqqında/*.html

İndi site.ru/about/live.html səhifəsi indeksləşdirmədən bağlanıb və site.ru/about/live səhifəsi açıqdır.

Bənzətmə ilə başqa bir nümunə:

İstifadəçi-agent: Yandex
İcazə verin: /haqqında/*.html #indeksləşdirməyə icazə verin
İcazə vermə: /haqqında/

Sonu .html ilə bitən səhifələr istisna olmaqla, bütün səhifələr bağlanacaq

$ - qalan hissəni kəsir və xəttin sonunu qeyd edir.

Misal:

İcazə vermə: /haqqında- Bu robots.txt direktivi haqqında ilə başlayan bütün səhifələrin indeksləşdirilməsini qadağan edir, həmçinin /about/ kataloqunda olan səhifələri də qadağan edir.

Sonda dollar simvolu əlavə etməklə - Disallow: /about$ biz robotlara bildirəcəyik ki, yalnız /haqqında səhifə indeksləşdirilə bilməz, lakin /about/ kataloqu, /haqqında canlı səhifələr və s. indeksləşdirilə bilər.

Sayt xəritəsi Direktivi

Bu direktiv bu formada Sayt Xəritəsinə gedən yolu müəyyən edir:

Saytın xəritəsi: http: //site.ru/sitemap.xml

Host direktivi

Bu formada göstərilir:

Ev sahibi: site.ru

http:// olmadan , irəli kəsiklər və s. Əgər www ilə əsas güzgü saytınız varsa, yazın:

Ev sahibi: www.site.ru

WordPress üçün robots.txt nümunəsi

Yuxarıda təsvir edilən bütün lazımi direktivlər əlavə edildikdən sonra. Sonda belə bir robot faylı əldə etməlisiniz:

İstifadəçi-agent: *
İcazə verin: /wp-content/yükləmələr/
İcazə verməyin: /cgi-bin
İcazə verməyin: /wp-login.php
İcazə verməyin: /wp-register.php
İcazə verməyin: /wp-content/
İcazə vermə: /wp-admin/
İcazə verməyin: /wp-includes/
İcazə vermə: /şərhlər
İcazə ver: /trackback
İcazə vermə: */trackback
İcazə vermə: */*/trackback
İcazə verməyin: */*/feed/*/
İcazə verməyin: */feed
İcazə ver: /*?*
İcazə vermə: */comment-page*
İcazə vermə: /tag
İcazə verin: /
Saytın xəritəsi: https://site/sitemap.xml

İstifadəçi-agent: Yandex
İcazə verin: /wp-content/yükləmələr/
İcazə verməyin: /cgi-bin
İcazə verməyin: /wp-login.php
İcazə verməyin: /wp-register.php
İcazə verməyin: /wp-content/
İcazə vermə: /wp-admin/
İcazə verməyin: /wp-includes/
İcazə vermə: /şərhlər
İcazə ver: /trackback
İcazə vermə: */trackback
İcazə vermə: */*/trackback
İcazə verməyin: */*/feed/*/
İcazə verməyin: */feed
İcazə ver: /*?*
İcazə vermə: */comment-page*
İcazə vermə: /tag
İcazə verin: /
Ev sahibi: veb sayt

Saytın xəritəsi: https://site/sitemap.xml

Bu, belə demək mümkünsə, WordPress üçün robots.txt-in əsas versiyasıdır. Burada iki İstifadəçi-agent var - biri hamı üçün, ikincisi isə Host direktivinin göstərildiyi Yandex üçün.

Meta robot etiketləri

Səhifənin və ya veb saytın indeksləşdirilməsini təkcə robots.txt faylı ilə bloklamaq mümkündür, bu, meta teqdən istifadə etməklə edilə bilər.

<meta adı = "robotlar" məzmunu = "noindex,nofollow" >

Bu etiketdə yazılmalıdır və bu meta teq saytın indeksləşdirilməsinin qarşısını alacaq. WordPress-də belə meta teqləri təyin etməyə imkan verən plaginlər var, məsələn – Platinum Seo Pack. Bununla siz istənilən səhifənin indeksləşdirilməsini blok edə bilərsiniz, o, meta teqlərdən istifadə edir.

Tarama gecikdirmə direktivi

Bu direktivdən istifadə edərək, sayt səhifələrinin endirilməsi arasında axtarış botunun kəsiləcəyi vaxtı təyin edə bilərsiniz.

İstifadəçi-agent: *
Tarama gecikməsi: 5

İki səhifənin yüklənməsi arasındakı fasilə 5 saniyə olacaq. Serverdəki yükü azaltmaq üçün adətən 15-20 saniyəyə təyin edirlər. Bu direktiv axtarış botlarının sadəcə “yaşadığı” böyük, tez-tez yenilənən saytlar üçün lazımdır.

Adi saytlar/bloqlar üçün bu direktivə ehtiyac yoxdur, lakin bu yolla siz digər uyğunsuz axtarış robotlarının (Rambler, Yahoo, Bing) və s. davranışlarını məhdudlaşdıra bilərsiniz. Axı onlar da sayta girib onu indeksləyirlər, bununla da serverə yük yaradırlar.

Avtomatik robots.txt generasiyası yalnız əsas fayl yaradılması üçün uyğundur. İncə tənzimləmə üçün indeksdə dublikatların qarşısını almaq və lazımsız məlumatların axtarış bazasına daxil olmasının qarşısını almaq üçün axtarış sistemlərindən gizlədilməli olan saytın və kataloqların strukturunu təhlil etməlisiniz.

Onlayn generator Robots.txt - sahələri ardıcıl olaraq doldurun:

Mətn redaktorunu açın, nəticəni ona yapışdırın və faylı ad altında saxlayın robots.txt

Bundan sonra faylı saytınızın kök qovluğuna yerləşdirin. Fayl http://your-site.com/robots.txt ünvanında mövcud olmalıdır

Robots.txt faylı üçün atributların izahı

"İstifadəçi-agent" direktivi- aşağıdakı təlimatların hansı axtarış motoruna aid olduğunu göstərir. Robots.txt faylı bütün axtarış robotları üçün vahid təlimatlarla və ya hər bir bot üçün ayrıca təlimatlarla yaradıla bilər.

"İcazə vermə" direktivi- bu direktiv hansı kataloq və faylların axtarış sistemləri tərəfindən indeksləşdirilməsinin qadağan olunduğunu müəyyən edir. Hər bir axtarış botu üçün ayrıca təlimatlar yaratsanız, hər bir belə təlimat üçün ayrıca "İcazə verməmək" qaydaları yaradılır. Bu direktiv bütün saytın indeksləşdirilməsinin qarşısını ala bilər (İcazə vermə: /) və ya fərdi qovluqların indeksləşdirilməsini qadağan edə bilər. Ayrı-ayrı kataloqların indeksləşdirilməsi qadağandırsa, "İcazə vermə" təlimatlarının sayı məhdudiyyətsiz ola bilər.

"Host" direktivi saytın əsas güzgüsünü müəyyən edir. Sayta 2 ünvandan daxil olmaq olar: “WWW ilə” və “WWW olmadan”. Robots.txt faylı serverdə deyilsə və ya "Host" girişi doldurulmursa, axtarış motoru robotları sayt üçün əsas güzgünü öz mülahizələri ilə müəyyən edir, lakin bunu özünüz etmək istəyirsinizsə, bu qaydanı qeyd etməlisiniz. "Host" direktivində.

"Sayt xəritəsi" direktivi Sitemap.xml faylının yerləşdiyi yolu göstərir. Bu fayl axtarış motoru robotları tərəfindən saytın indeksləşdirilməsini əhəmiyyətli dərəcədə asanlaşdırır və sürətləndirir. Sitemap.xml faylı çoxlu sayda səhifələri və mürəkkəb strukturu (yüksək səviyyəli yerləşdirmə) olan saytlar üçün xüsusilə vacibdir.

SEO məsləhəti: Robots.txt faylı veb-saytı təbliğ edərkən çox vacibdir, çünki... bu, axtarış motorlarına saytınızın bölmələrinin indeksləşdirilməsi/indekslənməsini qadağan etmək üçün istəklərinizi bildirir. Axtarış motorları robots.txt-dəki tələblərə uyğunluğa zəmanət vermir, lakin indeksləşdirilərkən onları nəzərə alır. Populyar CMS-də yaradılmış saytlar üçün adətən robots.txt fayllarının hazır versiyaları olur, lakin siz funksionallıqda təkmilləşdirmələr etmisinizsə, onu əl ilə tənzimləməli ola bilərsiniz.

) praktiki hissəyə, daha doğrusu saytın tanıtım üçün hazırlanmasına keçə bilərik. Bu gün biz suala baxacağıq: robots.txt necə yaradılır?

robots.txt axtarış motorları üçün indeksləşdirmə parametrlərini ehtiva edən fayldır.

Bu faylın yaradılması SEO təşviqi üçün ilk addımlardan biridir. Və buna görə.

robots.txt nə üçündür?

Saytınızı Yandex və Google-a əlavə etdikdən sonra (bunu hələ keçməmişik), PS hər şeyi, tamamilə serverdəki sayt qovluğunda olan hər şeyi indeksləşdirməyə başlayacaq. Təqdimat baxımından bu o qədər də yaxşı deyil, çünki qovluqda PS üçün lazım olmayan çoxlu “zibil” var ki, bu da axtarış nəticələrindəki mövqelərə mənfi təsir göstərəcək.

Sənədlərin, qovluqların və lazımsız səhifələrin indeksləşdirilməsini qadağan edən robots.txt faylıdır. Digər şeylər arasında, sayt xəritəsinin yolu (növbəti dərsin mövzusu) və əsas ünvan burada göstərilir, bu barədə bir az daha çox şey var.

Sayt xəritəsi haqqında çox danışmayacağam, sadəcə bir şey deyəcəyəm: sayt xəritəsi saytın indeksləşdirilməsini yaxşılaşdırır. Ancaq əsas ünvan haqqında daha ətraflı danışmağa dəyər. Fakt budur ki, hər bir saytın əvvəlcə bir neçə güzgüsü (saytın nüsxəsi) var və müxtəlif ünvanlarda mövcuddur:

  • www.site
  • vebsayt
  • vebsayt/
  • www.site/

Bütün bu güzgülərlə sayt unikal olmur. Təbii ki, PS-lər unikal olmayan məzmunu sevmir, bu cür saytların axtarış nəticələrində yüksəlməsinə mane olur.

robots.txt faylını necə doldurmaq olar?

Müxtəlif xarici xidmətlərlə işləmək üçün nəzərdə tutulmuş hər hansı bir fayl, bizim vəziyyətimizdə axtarış sistemləri, doldurma qaydalarına (sintaksis) malik olmalıdır. Budur robotlar üçün qaydalar:

  • robots.txt faylının adı kiçik hərflə başlamalıdır. Onu Robots.txt və ya ROBOTS.TXT adlandırmağa ehtiyac yoxdur. Sağ: robots.txt;
  • Unix mətn formatı. Format Windows-da adi notepad üçün xarakterikdir, ona görə də robots.txt faylını yaratmaq olduqca sadədir;

Robot operatorları

İndi robot operatorlarının özləri haqqında danışaq. Ümumilikdə bunlardan təxminən 6-sı var, mənim fikrimcə, yalnız 4-ü lazımdır:

  1. İstifadəçi-agent. Bu operator indeksləşdirmə qaydalarının ünvanlandığı axtarış sistemini təyin etmək üçün istifadə olunur. Onun köməyi ilə müxtəlif PS-lər üçün müxtəlif qaydalar təyin edə bilərsiniz. Doldurma nümunəsi: İstifadəçi-agent: Yandex;
  2. İcazə ver. Müəyyən bir qovluğun, səhifənin və ya faylın indeksləşdirilməsini qadağan edən operator. Doldurma nümunəsi: İmtina etmə: /page.html;
  3. Ev sahibi. Bu operator saytın əsas ünvanını (domenini) göstərir. Doldurma nümunəsi: Host: vebsayt;
  4. Saytın xəritəsi. Sayt xəritəsinin ünvanına işarə edir. Doldurma nümunəsi: Sayt xəritəsi: site/sitemap.xml;

Beləliklə, Yandex-ə "səhifə.." səhifəsini indeksləşdirməyi qadağan etdim. İndi Yandex axtarış robotu bu qaydaları nəzərə alacaq və "page.html" səhifəsi heç vaxt indeksdə olmayacaq.

İstifadəçi-agent

Yuxarıda qeyd edildiyi kimi, İstifadəçi-agent indeksləşdirmə qaydalarının tətbiq ediləcəyi axtarış sistemini müəyyənləşdirir. Budur kiçik bir işarə:

Axtarış sistemi İstifadəçi-agent parametri
Yandex Yandex
Google Google
Mail.ru Mail.ru
Rambler StackRambler

Əgər indeksləşdirmə qaydalarının bütün PS-lərə tətbiq edilməsini istəyirsinizsə, o zaman aşağıdakı girişi etməlisiniz:

İstifadəçi-agent: *

Yəni parametr kimi adi ulduzdan istifadə edin.

İcazə ver

Bu operator bir az daha mürəkkəbdir, ona görə də onu necə doldurduğunuza diqqət yetirməlisiniz. “User-agent” operatorundan sonra yazılır. Hər hansı bir səhv çox fəlakətli nəticələrə səbəb ola bilər.

Nəyi qadağan edirik? Parametr Misal
Saytın indeksləşdirilməsi / İcazə verin: /
Kök qovluğunda fayl /fayl adı İcazə vermə: /page.html
Müəyyən bir ünvanda fayl /yol/fayl adı İcazə verməyin: /dir/page.html
Qovluğun indeksləşdirilməsi /qovluq adı/ İcazə ver: /qovluq/
Müəyyən bir ünvanda bir qovluğun indeksləşdirilməsi /yol/qovluq adı/ İcazə ver: /dir/papka/
Xüsusi simvol dəsti ilə başlayan sənədlər / simvol /simvollar
Ünvanda müəyyən bir simvol dəsti ilə başlayan sənədlər /yol/simvollar /dir/simvollar

Yenə deyirəm: bu operatorla işləyərkən son dərəcə diqqətli olun. Elə olur ki, sırf təsadüfən insan öz saytının indeksləşdirilməsini qadağan edir və sonra onun axtarışda olmamasına təəccüblənir.

Digər operatorlardan danışmağın mənası yoxdur. Yuxarıda yazılanlar kifayət qədərdir.

Bəlkə siz robots.txt nümunəsi istərdiniz? Tutmaq:

İstifadəçi-agent: * İcazə ver: /cgi-bin Qadağan et: /wp-admin İcazə ver: /wp-includes Qadağan et: /wp-content/plugins İzin ver: /wp-content/cache İcazə ver: /wp-content/themes İzin ver: / trackback İcazə ver: */*/trackback İcazə ver: */*/trackback İcazə ver: */*/feed/*/ İzin ver: */feed İzin ver: /tag Host: site.ru Saytın xəritəsi:site.ru/sitemap.xml

Yeri gəlmişkən, bu nümunə saytları WordPress-də işləyən insanlar tərəfindən əsl robots.txt faylı kimi istifadə edilə bilər. Yaxşı, adi saytları olanlar, özün yaz, ha ha ha. Təəssüf ki, hər kəs üçün bir şey yoxdur, hər kəsin öz var. Amma sizə verdiyim məlumatla robots.txt yaratmaq çox da çətin olmamalıdır.

Salam dostlar!

Əvvəlki məqalə
Növbəti məqalə

robots.txt faylı saytınızın kök kataloqunda yerləşir. Məsələn, www.example.com saytında robots.txt faylının ünvanı www.example.com/robots.txt kimi görünəcək. robots.txt faylı robotun xaric edilməsi standartına uyğun düz mətn faylıdır və bir və ya bir neçə qaydanı ehtiva edir, onların hər biri müəyyən taramaçının saytda müəyyən bir yola daxil olmasını inkar edir və ya icazə verir.

Burada iki qayda ilə sadə robots.txt faylının nümunəsi verilmişdir. Aşağıda izahatlar verilmişdir.

# Qrup 1 İstifadəçi-agent: Googlebot İcazə Vermə: /nogooglebot/ # Qrup 2 İstifadəçi-agent: * İcazə Ver: / Saytın xəritəsi: http://www.example.com/sitemap.xml

İzahatlar

  1. Googlebot adlı istifadəçi agenti http://example.com/nogooglebot/ kataloqunu və onun alt kataloqlarını taramamalıdır.
  2. Bütün digər istifadəçi agentlərinin bütün sayta girişi var (buraxmaq olar, nəticə eyni olacaq, çünki tam giriş defolt olaraq verilir).
  3. Sayt xəritəsi faylı bu sayt http://www.example.com/sitemap.xml ünvanında yerləşir.

Aşağıda robots.txt faylları ilə işləmək üçün bəzi məsləhətlər verilmişdir. Bu faylların tam sintaksisini öyrənməyi tövsiyə edirik, çünki onları yaratmaq üçün istifadə olunan sintaksis qaydaları aydın deyil və siz onları başa düşməlisiniz.

Format və tərtibat

UTF-8 kodlamasını dəstəkləyən demək olar ki, istənilən mətn redaktorunda robots.txt faylı yarada bilərsiniz. Söz prosessorlarından istifadə etməyin, çünki onlar tez-tez faylları mülkiyyət formatında saxlayır və axtarış robotları tərəfindən tanınmayan qeyri-qanuni simvollar, məsələn, qıvrım dırnaq işarələri əlavə edirlər.

robots.txt faylları yaradarkən və sınaqdan keçirərkən sınaq alətindən istifadə edin. Bu, faylın sintaksisini təhlil etməyə və onun saytınızda necə işləyəcəyini öyrənməyə imkan verir.

Fayl formatı və yeri ilə bağlı qaydalar

  • Fayl robots.txt adlandırılmalıdır.
  • Saytda yalnız bir belə fayl olmalıdır.
  • robots.txt faylı yerləşdirilməlidir kök kataloqu Sayt. Məsələn, http://www.example.com/ saytındakı bütün səhifələrin taramasına nəzarət etmək üçün robots.txt faylı http://www.example.com/robots.txt ünvanında yerləşdirilməlidir. Alt kataloqda olmamalıdır(məsələn, ünvanda http://example.com/pages/robots.txt). Kök qovluğuna daxil olmaqda çətinlik çəkirsinizsə, hosting provayderinizlə əlaqə saxlayın. Saytın kök kataloquna girişiniz yoxdursa, meta teqlər kimi alternativ bloklama metodundan istifadə edin.
  • robots.txt faylı ilə ünvanlara əlavə etmək olar subdomenlər(məsələn, http:// vebsayt.example.com/robots.txt) və ya qeyri-standart portlar (məsələn, http://example.com: 8181 /robots.txt).
  • # simvolundan sonra istənilən mətn şərh hesab olunur.

Sintaksis

  • robots.txt faylı UTF-8 kodlu mətn faylı olmalıdır (buraya ASCII simvol kodları daxildir). Digər simvol dəstləri istifadə edilə bilməz.
  • robots.txt faylı ibarətdir qruplar.
  • Hər biri qrup bir neçə ehtiva edə bilər Qaydalar, hər sətirdə bir. Bu qaydalara da deyilir direktivlər.
  • Qrupa aşağıdakı məlumatlar daxildir:
    • hansına istifadəçi agenti Qrup direktivləri tətbiq olunur.
    • çıxışı var.
    • Bu agent hansı kataloq və ya fayllara daxil olur? Giriş yoxdur.
  • Qrup təlimatları yuxarıdan aşağıya oxunur. Robot ona ən çox uyğun gələn istifadəçi agenti ilə yalnız bir qrupun qaydalarına əməl edəcək.
  • Varsayılan olaraq güman edilir ki, əgər səhifə və ya qovluğa giriş Disallow: qaydası ilə bloklanmayıbsa, o zaman istifadəçi agenti onu emal edə bilər.
  • Qaydalar hərflərə həssasdır. Beləliklə, Disallow: /file.asp qaydası http://www.example.com/file.asp URL-inə tətbiq edilir, lakin http://www.example.com/File.asp üçün deyil.

robots.txt fayllarında istifadə olunan direktivlər

  • İstifadəçi-agent: Məcburi direktiv, bir qrupda bunlardan bir neçəsi ola bilər. Hansı axtarış motorunu müəyyənləşdirir robot qaydalar tətbiq edilməlidir. Hər qrup bu sətirlə başlayır. Googlebots ilə əlaqəli əksər istifadəçi agentləri xüsusi siyahıda və İnternet Robotları Verilənlər Bazasında tapıla bilər. * joker simvolu prefiksi, yolun şəkilçisini və ya bütün yolu göstərmək üçün dəstəklənir. Bütün taramaçılara girişi bloklamaq üçün aşağıdakı nümunədə göstərildiyi kimi * işarəsindən istifadə edin ( AdsBot robotları istisna olmaqla, ayrıca göstərilməlidir). Google robotlarının siyahısı ilə tanış olmağı tövsiyə edirik. Nümunələr:# Nümunə 1. Yalnız Googlebot İstifadəçi-agentinə girişin bloklanması: Googlebot Disallow: / # Misal 2. Googlebot və AdsBot robotlarına girişin bloklanması İstifadəçi-agent: Googlebot İstifadəçi-agenti: AdsBot-Google Disallow: / # Misal 3. Girişin bloklanması AdsBot İstifadəçi agenti istisna olmaqla, bütün robotlar: * İcazə ver: /
  • İcazə verin: . Yuxarıda müəyyən edilmiş istifadəçi agenti tərəfindən skanlana bilməyən kök domenlə əlaqəli kataloq və ya səhifəyə işarə edir. Bu səhifədirsə, brauzerin ünvan çubuğunda olduğu kimi ona gedən tam yol göstərilməlidir. Əgər bu kataloqdursa, yol slash (/) ilə bitməlidir. * joker simvolu prefiksi, yolun şəkilçisini və ya bütün yolu göstərmək üçün dəstəklənir.
  • İcazə verin: Ən azı bir Disallow: və ya Allow: direktivi hər qrupda olmalıdır. Yuxarıda müəyyən edilmiş istifadəçi agenti tərəfindən skanlana bilən kök domenə nisbətən kataloq və ya səhifəyə işarə edir. Disallow direktivini ləğv etmək və skan üçün bağlanmış kataloqda alt kataloq və ya səhifənin skan edilməsinə icazə vermək üçün istifadə olunur. Bu səhifədirsə, brauzerin ünvan çubuğunda olduğu kimi ona gedən tam yol göstərilməlidir. Əgər bu kataloqdursa, yol slash (/) ilə bitməlidir. * joker simvolu prefiksi, yolun şəkilçisini və ya bütün yolu göstərmək üçün dəstəklənir.
  • Saytın xəritəsi: İsteğe bağlı direktiv; faylda bunlardan bir neçəsi ola bilər və ya heç biri olmaya bilər. Bu saytda istifadə edilən Sayt Xəritəsinin yerini göstərir. URL tam olmalıdır. Google http və https prefiksləri ilə və ya www elementi ilə və ya olmadan URL variasiyalarını emal etmir və ya təsdiq etmir. Sayt xəritələri Google-a hansı məzmunu bildirir lazımdır skan edin və onu məzmundan necə ayırd etmək olar Bacarmaq və ya qadağandır skan edin. Misal: Saytın xəritəsi: https://example.com/sitemap.xml Saytın xəritəsi: http://www.example.com/sitemap.xml

Digər qaydalara məhəl qoyulmur.

Daha bir misal

robots.txt faylı qruplardan ibarətdir. Onların hər biri qaydalara əməl etməli olan robotu müəyyən edən İstifadəçi-agent xətti ilə başlayır. Aşağıda iki qrup və hər ikisi üçün izahlı şərhlər olan bir fayl nümunəsidir.

# Googlebotun example.com/directory1/... və example.com/directory2/... ünvanlarına girişini bloklayın # lakin directory2/subdirectory1/... -a girişə icazə verin. # Bütün digər kataloqlara giriş standart olaraq icazə verilir. İstifadəçi-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Bütün sayta başqa axtarış sisteminə girişi bloklayın. İstifadəçi-agent: anothercrawler İzin vermə: /

robots.txt faylının tam sintaksisi

Tam sintaksis bu məqalədə təsvir edilmişdir. Robots.txt faylının sintaksisində bəzi vacib nüanslar olduğu üçün onunla tanış olmağı tövsiyə edirik.

Faydalı qaydalar

Budur robots.txt faylı üçün bəzi ümumi qaydalar:

Qayda Misal
Bütün saytı taramanın qadağan edilməsi. Nəzərə alın ki, bəzi hallarda saytın URL-ləri taranmamış olsa belə indeksdə ola bilər. Nəzərə alın ki, bu qayda ayrıca qeyd edilməli olan AdsBot robotlarına şamil edilmir. İstifadəçi-agent: * İcazə ver: /
Kataloqun və onun bütün məzmununun skan edilməsinin qarşısını almaq üçün, kataloq adından sonra dirsək işarəsi qoyun. Məxfi məlumatı qorumaq üçün robots.txt faylından istifadə etməyin! Bu məqsədlər üçün autentifikasiyadan istifadə edilməlidir. robots.txt faylı tərəfindən taranmasına icazə verilməyən URL-lər indeksləşdirilə bilər və robots.txt faylının məzmunu istənilən istifadəçi tərəfindən baxıla bilər və beləliklə, həssas məlumatı olan faylların yerini aşkar edə bilər. İstifadəçi-agent: * Disallow: /calendar/ Disallow: /junk/
Yalnız bir sürünən tərəfindən taramaya icazə vermək İstifadəçi-agent: Googlebot-news İcazə verin: / İstifadəçi agenti: * İcazə ver: /
Birindən başqa bütün taramaçılar üçün taramaya icazə vermək İstifadəçi-agent: Unnecessarybot Disallow: / İstifadəçi-agent: * İcazə verin: /

Müəyyən bir səhifənin taranmasının qarşısını almaq üçün, slashdan sonra bu səhifəni göstərin.

İstifadəçi agenti: * İcazə vermə: /private_file.html

Google Şəkillər robotundan müəyyən bir şəkli gizlətmək üçün

İstifadəçi-agent: Googlebot-Image Disallow: /images/dogs.jpg

Saytınızdakı bütün şəkilləri Google Şəkillər robotundan gizlətmək üçün

İstifadəçi agenti: Googlebot-Image Disallow: /

Müəyyən bir növ bütün faylların skan edilməsinin qarşısını almaq üçün(bu halda GIF)

İstifadəçi-agent: Googlebot Qadağan: /*.gif$

Saytınızdakı müəyyən səhifələri bloklamaq, lakin yenə də onlarda AdSense reklamlarını göstərmək, Mediapartners-Google istisna olmaqla, bütün robotlar üçün Disallow qaydasından istifadə edin. Nəticədə, bu robot müəyyən istifadəçiyə nümayiş etdiriləcək reklamları seçmək üçün axtarış nəticələrindən silinmiş səhifələrə daxil ola biləcək.

İstifadəçi-agent: * İcazə ver: / İstifadəçi-agent: Mediapartners-Google İcazə verin: /
Müəyyən bir fraqmentdə bitən URL-i təyin etmək üçün, $ simvolundan istifadə edin. Məsələn, .xls ilə bitən URL-lər üçün aşağıdakı kodu istifadə edin: İstifadəçi-agent: Googlebot Qadağan: /*.xls$

Bu məlumat faydalı oldu?

Bu məqaləni necə təkmilləşdirmək olar?

Yeni saytın uğurlu indeksləşdirilməsi bir çox amillərdən asılıdır. Onlardan biri robots.txt faylıdır, düzgün doldurulması hər hansı bir təcrübəsiz vebmasterə tanış olmalıdır.

robots.txt nədir və niyə lazımdır?

Adından da göründüyü kimi, bu, müəyyən bir saytın indeksləşdirilməsi üçün aydın təlimatları ehtiva edən mətn faylıdır (.txt formatında sənəd). Başqa sözlə, bu fayl axtarış motorlarına veb resursun hansı səhifələrinin indeksləşdirilməsinin lazım olduğunu, hansının isə indeksləşdirilməsinin qadağan edilmədiyini göstərir.

Görünür, niyə bəzi sayt məzmununun indeksləşdirilməsini qadağan edirsiniz? Deyirlər, qoy axtarış robotu prinsipi rəhbər tutaraq hər şeyi fərq qoymadan indeksləşdirsin: nə qədər çox səhifə, bir o qədər yaxşıdır! Yalnız həvəskar CEO bu şəkildə əsaslandıra bilər.

Veb saytı təşkil edən bütün məzmun axtarış robotlarına lazım deyil. Sistem faylları var, dublikat səhifələr var, açar söz kateqoriyaları və mütləq indeksləşdirilməsinə ehtiyac olmayan daha çox şey var. Əks halda, aşağıdakı vəziyyəti istisna etmək olmaz.

Axtarış robotu saytınıza gələndə ilk işi bədnam robots.txt faylını tapmağa çalışmaq olur. Bu fayl onun tərəfindən aşkar edilmirsə və ya aşkar edilərsə, lakin səhv tərtib edilmişdirsə (lazımi qadağalar olmadan), axtarış motoru "messenger" saytı öz mülahizəsinə uyğun olaraq öyrənməyə başlayır.

Bu cür öyrənmə prosesində o, hər şeyi indeksləşdirir və ilk növbədə axtarışa daxil edilməli olan səhifələrdən (yeni məqalələr, rəylər, fotoreportajlar və s.) başlaması bir həqiqətdən uzaqdır. Təbii ki, bu halda yeni saytın indeksləşdirilməsi bir qədər vaxt apara bilər.

Bu cür həsəd aparmaz taleyin qarşısını almaq üçün vebmaster düzgün robots.txt faylını yaratmaq üçün vaxtında qayğı göstərməlidir.

“User-agent:” robots.txt-in əsas direktividir

Təcrübədə direktivlər (əmrlər) robots.txt-də xüsusi terminlərdən istifadə etməklə yazılır, bunlardan əsasını direktiv hesab etmək olar. İstifadəçi-agent: " Sonuncu, gələcəkdə müəyyən təlimatlar veriləcək axtarış robotunu dəqiqləşdirmək üçün istifadə olunur. Misal üçün:

  • İstifadəçi-agent: Googlebot– bu əsas direktivə əməl edən bütün əmrlər yalnız Google axtarış motoruna (onun indeksləşdirmə robotu) aid olacaq;
  • İstifadəçi-agent: Yandex– bu halda ünvan sahibi yerli axtarış motoru Yandex.

robots.txt faylı bütün digər axtarış sistemlərinə birləşərək müraciət etmək üçün istifadə edilə bilər. Bu vəziyyətdə əmr belə görünəcək: İstifadəçi-agent: *. “*” xüsusi simvolu adətən “hər hansı mətn” deməkdir. Bizim vəziyyətimizdə Yandex-dən başqa istənilən axtarış motorları. Yeri gəlmişkən, siz onunla şəxsən əlaqə saxlamasanız, Google da bu direktivi şəxsən qəbul edir.

“Disallow:” əmri – robots.txt-də indeksləşdirməyi qadağan edir

Axtarış motorlarına ünvanlanan əsas “İstifadəçi-agent:” direktivindən sonra xüsusi əmrlər verilə bilər. Onların arasında ən çox yayılanı direktivdir” İcazə verin: " Bu əmrdən istifadə edərək, axtarış robotunun bütün veb resursu və ya onun bir hissəsini indeksləşdirməsinin qarşısını ala bilərsiniz. Hamısı bu direktivin hansı uzantıya malik olacağından asılıdır. Nümunələrə baxaq:

İstifadəçi-agent: Yandex Disallow: /

Robots.txt faylında bu cür giriş o deməkdir ki, Yandex axtarış robotuna bu saytı indeksləşdirməyə ümumiyyətlə icazə verilmir, çünki “/” qadağan işarəsi təkdir və heç bir izahatla müşayiət olunmur.

İstifadəçi agenti: Yandex Disallow: /wp-admin

Gördüyünüz kimi, bu dəfə dəqiqləşdirmələr var və onlar sistem qovluğuna aiddir wp-admin V . Yəni, indeksləşdirmə robotu bu əmrdən istifadə edərək (onda göstərilən yol) bütün bu qovluğu indeksləşdirməkdən imtina edəcək.

İstifadəçi-agent: Yandex Disallow: /wp-content/themes

Yandex robotuna belə bir təlimat onun böyük bir kateqoriyaya daxil olmasını nəzərdə tutur " wp məzmunu ", istisna olmaqla, bütün məzmunu indeksləşdirə bilər" mövzular ».

Gəlin robots.txt mətn sənədinin "qadağan olunmuş" imkanlarını daha ətraflı araşdıraq:

İstifadəçi-agent: Yandex Disallow: /index$

Bu əmrdə, nümunədən göründüyü kimi, başqa bir xüsusi işarə "$" istifadə olunur. Onun istifadəsi robota keçidlərində hərflərin ardıcıllığını ehtiva edən səhifələri indeksləşdirə bilməyəcəyini bildirir " indeks " Eyni zamanda, eyni adlı ayrı bir sayt faylını indeksləşdirin " index.php » robot qadağan edilmir. Beləliklə, "$" simvolu indeksləşdirməni qadağan etmək üçün seçici yanaşma lazım olduqda istifadə olunur.

Həmçinin, robots.txt faylında müəyyən simvolları ehtiva edən fərdi resurs səhifələrinin indeksləşdirilməsini qadağan edə bilərsiniz. Bu belə görünə bilər:

İstifadəçi-agent: Yandex Disallow: *&*

Bu əmr Yandex axtarış robotuna URL-lərində “&” simvolu olan vebsaytdakı bütün səhifələri indeksləşdirməməyi bildirir. Üstəlik, linkdəki bu işarə hər hansı digər simvollar arasında görünməlidir. Ancaq başqa bir vəziyyət ola bilər:

İstifadəçi-agent: Yandex Disallow: *&

Burada indeksləşdirmə qadağası keçidləri “&” ilə bitən bütün səhifələrə şamil edilir.

Bir saytın sistem fayllarının indeksləşdirilməsinə qadağa qoyulması ilə bağlı heç bir sual yoxdursa, resursun ayrı-ayrı səhifələrinin indeksləşdirilməsinə qadağa qoyulması ilə bağlı belə suallar yarana bilər. Məsələn, prinsipcə bu niyə lazımdır? Təcrübəli webmaster bu mövzuda bir çox mülahizələrə malik ola bilər, lakin əsas odur ki, axtarışda dublikat səhifələrdən qurtulmaq lazımdır. “Disallow:” əmrindən və yuxarıda müzakirə edilən xüsusi simvollar qrupundan istifadə edərək, “arzuolunmaz” səhifələrlə olduqca sadə şəkildə məşğul ola bilərsiniz.

“İcazə verin:” əmri – robots.txt-də indeksləşdirməyə icazə verir

Əvvəlki direktivin antipodu əmr hesab edilə bilər " İcazə verin: " Eyni aydınlaşdırıcı elementlərdən istifadə etməklə, lakin robots.txt faylında bu əmrdən istifadə edərək, indeksləşdirici robota sizə lazım olan sayt elementlərini axtarış verilənlər bazasına daxil etməyə icazə verə bilərsiniz. Bunu təsdiqləmək üçün başqa bir nümunə:

İstifadəçi-agent: Yandex Allow: /wp-admin

Nədənsə vebmaster fikrini dəyişdi və robots.txt-də müvafiq düzəlişlər etdi. Nəticədə, bundan sonra qovluğun məzmunu wp-admin Yandex tərəfindən indeksləşdirmə üçün rəsmi təsdiq edilmişdir.

Allow: əmri mövcud olsa da, praktikada ondan çox istifadə edilmir. Ümumiyyətlə, buna ehtiyac yoxdur, çünki avtomatik olaraq tətbiq olunur. Sayt sahibi sadəcə olaraq bu və ya digər məzmunun indeksləşdirilməsini qadağan edən “Disallow:” direktivindən istifadə etməlidir. Bundan sonra, resursun robots.txt faylında qadağan olunmayan bütün digər məzmunu axtarış robotu tərəfindən indeksləşdirilə bilən və lazım olan bir şey kimi qəbul edilir. Hər şey fiqhdə olduğu kimidir: “Qanunla qadağan olunmayan hər şeyə icazə verilir”.

"Host:" və "Sitemap:" direktivləri

robots.txt-də vacib direktivlərin icmalı " əmrləri ilə tamamlanır. Ev sahibi: "Və" Saytın xəritəsi: " Birincisinə gəldikdə, o, yalnız Yandex üçün nəzərdə tutulub, ona hansı sayt güzgüsünün (www ilə və ya olmayan) əsas hesab edildiyini göstərir. Məsələn, bir sayt belə görünə bilər:

İstifadəçi-agent: Yandex Host: veb sayt

İstifadəçi-agent: Yandex Host: www.site

Bu əmrdən istifadə həm də sayt məzmununun lazımsız təkrarlanmasının qarşısını alır.

Öz növbəsində, direktiv “ Saytın xəritəsi: » indeksləşdirən robota Sayt Xəritəsi adlanan fayla doğru yolu göstərir sitemap.xml sitemap.xml.gz (CMS WordPress vəziyyətində). Hipotetik bir nümunə ola bilər:

İstifadəçi-agent: * Saytın xəritəsi: http://site/sitemap.xml Saytın xəritəsi: http://site/sitemap.xml.gz

Bu əmrin robots.txt faylına yazılması axtarış robotuna Sayt Xəritəsini daha tez indeksləşdirməyə kömək edəcək. Bu da öz növbəsində veb resurs səhifələrinin axtarış nəticələrinə daxil edilməsi prosesini sürətləndirəcək.

robots.txt faylı hazırdır - sonra nə olacaq?

Təsəvvür edək ki, siz təcrübəsiz bir veb ustası kimi yuxarıda verdiyimiz bütün məlumat toplusunu mənimsəmisiniz. Bundan sonra nə etməli? Saytınızın xüsusiyyətlərini nəzərə alaraq robots.txt mətn sənədi yaradın. Bunu etmək üçün sizə lazımdır:

  • sizə lazım olan robots.txt faylını tərtib etmək üçün mətn redaktorundan (məsələn, Notepad) istifadə edin;
  • yaradılmış sənədin düzgünlüyünü yoxlayın, məsələn, bu Yandex xidmətindən istifadə edərək;
  • FTP müştərisindən istifadə edərək, hazır faylı saytınızın kök qovluğuna yükləyin (WordPress vəziyyətində biz adətən Public_html sistem qovluğundan danışırıq).

Bəli, demək olar ki, unutduq. Təcrübəsiz bir veb ustası, şübhəsiz ki, özünü sınaqdan keçirməzdən əvvəl, əvvəlcə başqaları tərəfindən yerinə yetirilən bu faylın hazır nümunələrinə baxmaq istəyəcək. Heç bir şey daha sadə ola bilməz. Bunu etmək üçün brauzerinizin ünvan çubuğuna daxil olmaq kifayətdir site.ru/robots.txt . “site.ru” əvəzinə - maraqlandığınız resursun adı. Hamısı budur.

Xoşbəxt təcrübə və oxuduğunuz üçün təşəkkür edirik!

Yüklənir...Yüklənir...