Robots.txt – šta sme, a šta ne sme da blokira

Aleksandar Đekić – stručnjak za izradu WordPress sajta i web dizajn u Beogradu

Robots.txt – šta sme, a šta ne sme da blokira

Robots.txt je mali, ali moćan fajl koji se nalazi u korenskom direktorijumu vašeg sajta. On služi kao znak „STOP“ ili „DOBRODOŠLI“ za web pretraživače, odnosno za njihove robote koji indeksiraju sadržaj. Iako je njegova sintaksa jednostavna, posledice pogrešne konfiguracije mogu biti ozbiljne – od neindeksiranja važnih stranica do gubitka organskog saobraćaja. U ovom vodiču ćemo detaljno objasniti šta robots.txt sme, a šta definitivno ne sme da blokira, kako biste zaštitili svoj SEO i omogućili pretraživačima da efikasno pregledaju vaš sajt.

Šta je robots.txt i kako funkcioniše?

Robots.txt je tekstualni fajl (obično dostupan na vašdomen.com/robots.txt) koji sadrži uputstva za web pretraživače. On ne blokira pristup u smislu bezbednosti – to je važno naglasiti. Umesto toga, on preporučuje ponašanje robotima koji ga poštuju. Većina glavnih pretraživača, poput Google-a, Bing-a i Yandex-a, poštuje ova pravila, ali zlonamerne botove ne možete zaustaviti ovim fajlom.

Osnovna sintaksa se sastoji od dva ključna elementa:

  • User-agent: Određuje kome su uputstva namenjena (npr. * za sve robote, Googlebot za Googleovog robota).
  • Disallow: Navodi putanju ili direktorijum koji robot ne bi trebalo da posećuje.

Šta sme da blokira u robots.txt? (Bezbjedne prakse)

Postoje određeni delovi sajta koje je logično i preporučljivo sakriti od indeksacije. Ovo su bezbedne i često korisne prakse.

1. Administrativni i tehnički direktorijumi

Direktorijumi koji ne sadrže koristan sadržaj za krajnjeg korisnika, a služe za funkcionisanje sajta, trebalo bi da budu blokirani.

  • /wp-admin/ i /wp-includes/ na WordPress sajtovima (osim određenih fajlova unutar wp-admin koji su potrebni za indeksaciju).
  • /cgi-bin/, /includes/, /assets/scripts/ – gde se čuvaju sistemski skriptovi.
  • Direktorijumi za prijavu (/login/, /admin/).

Primer:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

2. Privremeni i razvojni sadržaj

Stranice koje su u izradi ili staging okruženje ne bi trebalo da budu javno indeksirane. Ovo je ključno da ne biste kažnjavali duplikacijom sadržaja ili indeksirali nedovršene informacije. Više o WordPress staging okruženju možete pročitati u posebnom članku.

3. Fajlovi za pretragu i filtere

Parametri pretrage (?s=, ?search=) ili filteri koji generišu beskonačne ili duplikovane URL-ove mogu opteretiti robote i uzrokovati probleme sa kanibalizacijom ključnih reči. Njihovo blokiranje je dobra praksa.

4. Određeni tipovi fajlova

Ponekad je korisno blokirati indeksiranje određenih tipova fajlova koji ne donose SEO vrednost, a troše budžet za pretragu (crawl budget), kao što su:

  • PDF-ovi koji su samo interni dokumenti.
  • Određene slike u /uploads/ direktorijumu koje su samo tehničke prirode.
  • CSS i JavaScript fajlovi (iako Google sada čita JS za renderovanje, blokiranje ovih fajlova je još uvek prihvaćena praksa).

5. Lične i sistemske stranice

Stranice kao što su korpa za kupovinu (/cart/), stranica za završetak kupovine (/checkout/), korisnički nalog (/my-account/) – one su personalizovane i ne treba da budu u rezultatima pretrage.

Šta ABSOLUTNO NE SME da blokira u robots.txt? (Opasne greške)

Ovo je kritični deo. Blokiranje sledećih stavki može ozbiljno naštetiti vidljivosti vašeg sajta u pretraživačima.

1. Glavni CSS i JavaScript fajlovi (moderni kontekst)

STOP: Disallow: /wp-content/themes/ ili Disallow: /assets/css/
ZAŠTO? Iako je ovo nekada bila standardna praksa, Google danas koristi CSS i JavaScript fajlove da bi pravilno renderovao i razumeo vaš sajt. Ako blokirate pristup ovim resursima, Googlebot neće moći da vidi vaš sajt onako kako ga vide korisnici. To može dovesti do lošeg renderovanja, pogrešne interpretacije sadržaja i pada u rangiranju. Ovo je posebno važno za optimizaciju Core Web Vitals metrika.

2. Ceo sajt ili korenski direktorijum

STOP: Disallow: /
ZAŠTO? Ovo je katastrofalna greška koja u potpunosti onemogućava indeksaciju celog sajta. U praksi se dešava samo greškom, ali ima razornih posledica. Uvek proverite da li je prva linija Allow: / ili da Disallow nije postavljen za koren.

3. Važni sadržaj i uslužne stranice

Nikada ne blokirajte:

  • Glavne uslužne stranice: Kao što su O nama, Kontakt ili stranice sa uslugama. One su kliučne za konverziju i SEO.
  • Kategorije i tagovi (ako su deo strukture): Ovi taksonomski arhivi često su važni za organizaciju sadržaja i SEO. Pravilno postavljanje kategorija i tagova je od suštinskog značaja.
  • XML Sitemap: Fajl sitemap.xml je mapa vašeg sajta za pretraživače. Ako ga blokirate, otežavate im posao. Naprotiv, trebalo bi ga eksplicitno navesti u robots.txt fajlu: Sitemap: https://aleksandardjekic.rs/sitemap.xml. Više o optimizaciji XML sitemap-a možete naći u posebnom vodiču.
  • Blog postovi i korisni sadržaj: Ovo je srž vašeg SEO strategije.

4. Javne slike i mediji koji doprinose sadržaju

Blokiranje celog /uploads/ ili /images/ direktorijuma sprečava Google Slike da indeksira vaše fotografije, čime gubite dodatni izvor saobraćaja.

5. Feed-ovi (RSS/Atom)

Blokiranje feed-ova (/feed/) može onemogućiti alate i servise da prate ažuriranja vašeg bloga.

Kako pravilno testirati i implementirati robots.txt?

  1. Koristite Google Search Console: Alat "Test robots.txt" u Search Console-u omogućava vam da proverite da li vaša pravila blokiraju određene URL-ove za Googlebot-a.
  2. Proverite indeksiranje: Nakon promena, pratite u "Indeksiranje" sekciji Search Console-a da li je došlo do pada u broju indeksiranih stranica.
  3. Kombinujte sa meta tagovima: Za finiju kontrolu na nivou pojedinačne stranice, koristite noindex meta tag ili X-Robots-Tag HTTP header. Robots.txt je za blokiranje pristupa, noindex je za sprečavanje indeksiranja već pristupljenog sadržaja.
  4. Uvijek imajte Allow: /: Ovo je dobra praksa koja eksplicitno dozvoljava pretragu celog sajta, osim onoga što kasnije blokirate.

Primer bezbednog robots.txt fajla za WordPress sajt:

User-agent: *
Allow: /
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-signup.php
Disallow: /search/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/

Sitemap: https://aleksandardjekic.rs/sitemap_index.xml

Često postavljana pitanja (FAQ) o robots.txt

1. Da li robots.txt u potpunosti sprečava indeksiranje stranice?
Ne, robots.txt samo sprečava pristup URL-u robotu. Ako postoje drugi linkovi ka toj stranici (npr. sa drugih sajtova), Google i dalje može saznati za nju i eventualno je indeksirati, ali bez sadržaja. Za potpuno sprečavanje indeksiranja koristite noindex meta tag ili zabranite pristup putem .htaccess fajla.

2. Kako da sakrijem određenu sliku iz Google pretrage?
Najefikasnije je koristiti noindex za tu konkretnu stranicu na kojoj se slika nalazi, ili dodati X-Robots-Tag: noimageindex u HTTP header odgovora za tu konkretnu sliku. Samo blokiranjem putem robots.txt nećete je ukloniti iz indeksa ako je već indeksirana.

3. Da li je robots.txt obavezan za svaki sajt?
Nije obavezan. Ako ga nema, pretraživači će pretpostaviti da mogu da pristupe svim delovima sajta. Međutim, njegovo postojanje je preporučljivo za kontrolu ponašanja botova i zaštitu privatnih delova.

4. Koliko dugo treba da Google poštuje promene u robots.txt?
Googlebot obično ponovo posećuje robots.txt fajl redovno. Promene se mogu primeniti za nekoliko sati, ali ponekad i do nekoliko dana. Uvek koristite alat za testiranje u Search Console da potvrdite da li je nova pravila prepoznata.

5. Da li robots.txt može da poboljša brzinu sajta?
Ne direktno. Međutim, na posredan način, pravilnim usmeravanjem robota da ne troše vreme i resurse (crawl budget) na nevažne stranice, možete obezbediti da se fokusiraju na indeksiranje važnog sadržaja. Za direktno poboljšanje brzine, pogledajte vodič o ubrzavanju WordPress sajta.

Pravilna upotreba robots.txt fajla je temelj dobre tehničke SEO prakse. On je vaš saveznik u upravljanju pretraživačima, ali zahteva pažljiv pristup. Uvek testirajte promene i pratite uticaj na indeksiranje vašeg sajta. Ako vam je potrebna pomoć u optimizaciji WordPress sajta ili želite da proverite da li je vaša trenutna konfiguracija ispravna, slobodno kontaktirajte nas za profesionalnu analizu.

Treba ti sajt? Imate pitanje za mene?

Ako vam je potrebna pomoć oko izrade sajta ili imate bilo kakvo pitanje vezano za vaš online projekat, slobodno me kontaktirajte.

Ovde sam da vam pružim profesionalnu podršku i odgovorim na sva vaša pitanja.

Popunite formu ispod sa svojim podacima i porukom, a ja ću vam se javiti u najkraćem roku.

Hajde da zajedno kreiramo rešenje koje odgovara vašim potrebama i ciljevima!

Wordpress Blog Postovi
WordPress
Aleksandar Đekić

Koliko Košta WordPress Sajt?

Kreiranje WordPress sajta je popularan izbor za pojedince i firme koje žele da uspostave prisustvo na internetu. Međutim, jedno od najčešće postavljanih pitanja je: Koliko košta izrada WordPress sajta? Odgovor

Pogledaj više »