Το robots.txt είναι ένα αρχείο στο root ενός website που καθοδηγεί τα ρομπότ των μηχανών αναζήτησης ποιες σελίδες να ανιχνεύσουν ή να αποκλείσουν. Χρησιμοποιείται για την προστασία ευαίσθητων δεδομένων και τη βελτίωση της αποδοτικότητας του SEO.
Αν αναρωτιέσαι, μα και με το sitemap.xml οι web crawlers διαβάζουν το site μου είσαι στον σωστό δρόμο.
Ποιά είναι η σχέση robots.txt και sitemap.xml;
Το robots.txt και το sitemap.xml έχουν συμπληρωματική σχέση και εκτελούν διαφορετικές λειτουργίες. Το robots.txt είναι ο γενικός οδηγός των crawlers για το ποιές σελίδες να κάνουν Index και ποιές όχι και περιλαμβάνει το sitemap. Το sitemap είναι ο ειδικός οδηγός και παρέχει την δομή των σελίδων και τη σχέση μεταξύ τους.
Γιατί είναι σημαντικό για το SEO;
Το αρχείο robots.txt είναι σημαντικό για το SEO γιατί επιτρέπει στους διαχειριστές ιστοσελίδων να ελέγχουν την πρόσβαση των web crawlers σε συγκεκριμένες σελίδες ή φακέλους, βοηθώντας στη βελτιστοποίηση του crawl budget και την αποφυγή της ανίχνευσης διπλού περιεχομένου.
Πως φτιάχνω ένα robots.txt;
Για να φτιάξεις ένα αρχείο robots.txt σε μια Ιστοσελίδα θα χρειαστεί να χρησιμοποιήσεις τις εντολές User-Agent
, Allow
, Disallow
και Sitemap
. Αν χρησιμοποιείς WordPress μπορείς να το φτιάξεις αυτόματα με το plugin Yoast SEO. Σε άλλα CMS φτιάχνεται αυτόματα (π.χ. Shopify), ενώ μπορείς να το φτιάξετε και χειροκίνητα με τον εξής τρόπο:
- Ανοίξτε ένα πρόγραμμα επεξεργασίας κειμένου όπως το Notepad.
- Γράψτε τις εντολές, όπως στο παρακάτω παράδειγμα
- Αποθήκευσε το αρχείο ως robots.txt και ανέβασέ το στον root φάκελο του ιστότοπού σου.
Παράδειγμα robots.txt
User-agent: *
Disallow: /members/
Sitemap: https://www.example.com/sitemap.xml
Καλές πρακτικές και Tips
Παρακάτω γράφουμε 5 tips και καλές πρακτικές όταν φτιάχνεις ένα αρχείο robots.txt.
- Χρησιμοποίησε πολύ προσεκτικά την εντολή disallow (μπλόκαρε μόνο ότι δεν προσφέρει αξία στο SEO ή ευαίσθητα προσωπικά δεδομένα π.χ. /cgi-bin/, /wp-admin/, /cart/, /scripts/ , /plugins/ )
- Μην χρησιμοποιείς την εντολή
Disallow: /
- Χρησιμοποίησε το Disallow σε directories με duplicate content
- Πάντα να περιέχεις στο αρχείο robots.txt το Sitemap με το πλήρες URL
- Αν κάποια σελίδα δεν την χρειάζεστε χρησιμοποιήστε το noindex και μην την αποκλείσετε
Συχνές Ερωτήσεις (FAQ)
Πως χρησιμοποιώ το User-Agent σε ένα robots.txt;
Το User-Agent
σε ένα αρχείο robots.txt είναι μια οδηγία που χρησιμοποιείται για να πει στους web crawlers ή bots αν επιτρέπεται να διαβάσουν το website ή οχι.
Μπορείς να επιτρέπεις σε όλα τα bot να σε διαβάσουν με τον αστερίσκο *.
Αλλιώς μπορείς να γράψεις κάθε ένα bot ξεχωριστά όπως τα παρακάτω.
- Googlebot
- Bingbot
- Slurp Bot
- DuckDuckBot
- YandexBot
- Facebot
Πως χρησιμοποιώ το Allow / Disallow σε ένα robots.txt;
Το Allow
και το Disallow
χρησιμοποιούνται σε ένα αρχείο robots.txt για να ορίσουν αν θα γίνουν ή δεν θα γίνουν index συγκεκριμένες σελίδες ή φάκελοι σε έναν Ιστότοπο.
User-agent: Bingbot
Disallow: /
User-agent: Ahrefsbot
Disallow: /
Πως ελέγχω αν είναι verify το robots.txt;
Για να ελέγξεις αν είναι verify το robots.txt αρχείο χωρίς errors, υπάρχουν πολλοί τρόποι με τους γνωστότερους να είναι οι παρακάτω.
Τι είναι το crawl budget;
Το crawl budget είναι ο αριθμός των σελίδων που μπορεί να ανιχνεύσει ένα bot σε έναν ιστότοπο μέσα σε μια συγκεκριμένη χρονική περίοδο.
Πως χρησιμοποιώ το robots.txt για να βελτιστοποιήσω το Crawl Budget;
Το Crawl budget είναι από τους κυριότερους παράγοντες για SEO το 2024 και μέσω του robots.txt μπορείς να μπλοκάρεις συγκεκριμένους φακέλους και url (μόνο φυσικά αν γνωρίζεις τι κάνεις) ώστε να το βελτιστοποιήσεις. Σε site με πάρα πολλές σελίδες μπλόκαρε αυτές με πολύ χαμηλή ή καθόλου κίνηση.