DATEIEN RICHTIG EINGESETZT!

Eine robots.txt-Datei teilt Suchmaschinen mit, ob sie auf bestimmte Teile einer Website zugreifen und sie in der Folge crawlen dürfen. Diese Datei muss den Namen “robots.txt” tragen und sich im Hauptverzeichnis eurer Website befinden.

Ihr könntet Interesse daran haben, dass bestimmte Seiten eurer Website nicht gecrawlt werden, da sie für Nutzer nicht hilfreich wären, wenn sie in den Suchergebnissen von Suchmaschinen auftauchen
würden.

Wenn ihr verhindern wollt, dass Suchmaschinen bestimmte Seiten crawlen, könnte ihr auf den hilfreichen robots.txt-Generator der Google Webmaster-Tools zurückgreifen. Der unterstützt euch bei der Erstellung der Datei. Beachtet bei der Verwendung von Subdomains – falls bestimmte Seiten auf einer bestimmten Subdomain gecrawlt werden sollen -, dass ihr eine weitere robots.txt-Datei für die
Subdomain erstellen müsst.

Für mehr Infos zu robots.txt-Dateien empfehlen wir euch den Beitrag in der Hilfe für Webmaster zur Verwendung einer robots.txt-Datei. Es gibt eine Reihe weiterer Möglichkeiten, um zu verhindern, dass Content in den Suchergebnissen erscheint – etwa das Hinzufügen von “NOINDEX” zum Meta-Tag “robots”, der Einsatz von .htaccess, um Verzeichnisse durch Passwörter zu schützen, und die
Verwendung der Google Webmaster-Tools, um bereits gecrawlten Content zu entfernen. Google Engineer Matt Cutts geht mit euch die Vorbehalte gegen jede dieser URL-Blockier-Methoden in einem
(englischsprachigen) Video durch.

Dateien richtig eingesetzt

Verwendet eine sicherere Methode für sensible Daten

Ihr solltet robots.txt nicht dazu nutzen, heikle oder vertrauliche Inhalte zu blockieren. Ein Grund dafür ist, dass Suchmaschinen auf die blockierten URLs immer noch verweisen können (indem sie nur die URL anzeigen, nicht aber Titel oder Snippet), falls es Links zu den URLs irgendwo im Internet gibt (beispielsweise in Referrer-Logs). Außerdem könnten nicht konform arbeitende oder zwielichtige Suchmaschinen den “Robots Exclusion Standard” nicht akzeptieren und die Anweisungen in eurer robots.txt-Datei missachten. Schlussendlich könnte ein neugieriger Nutzer die Verzeichnisse und Unterverzeichnisse in eurer robots.txt-Datei begutachten und so die URLs der Inhalte, die ihr verbergen wollt, entdecken. Das Verschlüsseln des Contents oder ein Passwortschutz mit .htaccess sind die sinnvolleren Alternativen. Dateien richtig eingesetzt.

Vermeidet:
Seiten, die an Suchergebnisse erinnern, crawlen zu lassen (Nutzer mögen es nicht, wenn sie eine Seite mit Suchergebnissen verlassen, nur um auf einer ähnlichen Seite zu landen, die ihnen kaum einen Mehrwert bietet.) Seiten, die das Ergebnis eines Proxy-Service sind, crawlen zu lassen. 

Robots Exclusion Standard
Eine Übereinkunft, die verhindert, dass diesem Standard entsprechende Webspiders oder Webcrawler wie der Googlebot auf Websites oder Teile davon zugreifen, die nicht öffentlich zugänglich sein sollen.

Proxy-Service
Ein Computer, der in Fällen, in denen ein internes oder externes Netzwerk eine Verbindung aufbaut, als Verbindungsersatz dient, oder eine Software, die eine solche Funktion aufweist.

Quelle: Google – Einführung in Suchmaschinenoptimierung