Suchmaschinen sind beständig auf der Suche nach verwertbarem Material, ganz gleich ob es sich dabei um Textinhalte, Bilddateien oder auch andere Dokumententypen handelt.

Natürlich sucht nicht etwa ein Heer unterbezahlter Philipinninen das Internet nach interessanten Inhalten ab, sondern die Suchmaschinen bedienen sich dabei so genannter Crawler. Diese Crawler grasen unablässig das Internet ab und alles, was nicht explizit vor dem Zugriff dieser Crawler geschützt wird, wird dem Datenbestand von Google & Co. hinzugefügt.

Welche Verzeichnisse durchforstet werden sollen und welche nicht, lässt sich im Untergrund einer Webseite mit einer so genannten Robots-Anweisung steuern. Entweder schreibt man die Anweisung in den Meta-Bereich des Quellcodes (das geht aber nicht immer) oder aber man lagert sie in ein eigenes Dokument mit dem Dokumententitel "robots.txt" aus

Es macht aus zwei Gründen Sinn, bestimmte Verzeichnisse vor dem Zugriff der Crawler zu schützen:

  1. Suchmaschinen brauchen sich nicht alles ihrem Datenbestand hinzuzufügen. Es gibt genug Dokumente, die ich nicht direkt in den Suchergebnisseiten finden möchte - also sperre ich ich diese Verzeichnisse für den Crawler-Zugriff. Beispielsweise müssen Suchmaschinen nicht meine Bilderverzeichnisse direkt auslesen, sondern nur die Seite, in der die Bilddateien eingefügt werden
  2. der andere Grund: Crawler sind ungeduldig und verbringen daher auf jeder Webseite nur eine begrenzte Zeit. Was sie in dieser Zeit nicht erfassen können, bleibt aussen vor und wird (errst einmal) nicht dem Datenbestand der Suchmaschinen hinzugefügt
  3. Als Seitenbetreiber muss ich also ein Interesse haben, den Crawler explizit in eine bestimmte Richtung zu lenken, damit er in der Kürze der Zeit auch das findet, was er finden so

Die Chance, dass bestimmte Inhalte von den Crawlern gefunden werden, steigt mit der Begrenzung des Crawler-Zugriffs auf bestimmte Verzeichnisse. Oder umgekehrt: Es gibt Verzeichnispfade, die ich von vornherein vor dem Crawler-Zugriff ausschließen sollte. In RapidWeaver-Projekten sind dies beispielsweise:

/resources/

Sinnvoll mag auch noch das Verzeichnis

/files/

sein, denn du möchtest ja nicht, dass in eine Seite eingebundene Inhalte über einen Direktlink erreichbar sind.

Diese Pfade kann ich in RapidWeaver-Projekten grundsätzlich sperren, denn was in diesen Verzeichnissen liegt, geht Google & Co nichts an. Gerade komplexe und umfangreiche Seiten werden einen suchmaschinentechnischen Gewinn von einer sorgfältig durchdachten Robots-Anweisung haben.

Nicht sperren solltest du das Verzeichnis

/rw_commons/

denn hier liegen Stylesheets und zumindest die Crawler von Google sind an diesen Dokumenten interessiert und integrieren sie ins Ranking denen Seite.

(Verzeichnispfade explizit für den Crawler frei zu geben, kann man sich übrigens sparen - die Crawler fressen ohnehin alles, was ihnen nicht ausdrücklich verboten wird…)