Sensible Daten vor dem Google Spider verstecken
Google & Sicherheit

SicherheitSicherheitsmanagement

Datensammler

Sensible Daten vor dem Google Spider verstecken

Google ist die beliebteste Suchmaschine im Internet, sowohl für normale Surfer als auch für Datensammler, die nach vertraulichen Informationen suchen. Dabei müssen Sie Ihre Website nicht einmal bei Google anmelden. Die Suchmaschine hat die meisten Ergebnisse durch so genannte Spider gewonnen. Den Besuch erkennen Sie in der Webstatistik Ihrer Site beispielsweise an der Client-Domäne googlebot.com. Damit Sie der Suchmaschine nicht schutzlos ausgeliefert sind, sollten Sie Schutzmaßnahmen ergreifen.

Das Einmaleins von Google

Sensible Daten vor dem Google Spider verstecken

Bereits ein Link von einer anderen Site auf eine Ihrer Seiten genügt, und die Datensammler von Google haben Ihre Site für sich entdeckt. Nun hangeln sich die Spider von Link zu Link und füllen so ihre Datenbank. Dies ist auch der Grund, warum so viele Dokumente und Anwendungen bei Google gelistet sind, die eigentlich nur einem eingeschränkten Benutzerkreis zugänglich sein sollten. Kommt dann noch ein falsch konfigurierter Proxy-Server dazu, stehen Google auch die Türen zum Intranet offen.

Wie bekommen Sie nun heraus, welche Informationen Google über Sie und Ihre Firma gespeichert hat? Dazu benötigen Sie zum einen die richtigen Befehle und müssen diese darüber hinaus auch noch in der richtigen Kombination anwenden. Da nicht alle Befehle wirklich bekannt sind, erhalten Sie im Folgenden einen Überblick über die wichtigsten:

filetype. Interessante Informationen verbergen sich oft nicht in normalen HTML-Dateien, sondern Word-Dokumenten, Excel-Dateien oder Powerpoint-Präsentationen. Mit dem File-Befehl erhalten Sie nur die gewünschten Dateien.

intitle, allintitle. intitle listet Ihnen alle Seiten auf, die den angefragten Begriff oder die gesuchte Phrase im Titel haben. Suchen Sie mit mehreren Begriffen, die alle im Titel sein sollen, so verwenden Sie den Befehl allintitle. Die Anfrage

allintitle: “Jürgen Klinsmann” Bundestrainer

sucht nach allen Seiten, die beide Begriffe im Titel führen.

allintext. Wenn Sie im Text einer Seite suchen möchten, so haben Sie mit allintext genau den richtigen Befehl. Mit ihm wird eine Seite – jedoch ohne Überschrift, Links und Titel – nach den angegebenen Begriffen und Phrasen durchsucht.

inurl, allinurl. Möchten Sie Ihre Suche auf den URL einer Seite beschränken, dann sollten Sie inurl verwenden. Soll der URL mehr als einen Begriff enthalten, so verwenden Sie den Befehl allinurl. Der Befehl

allinurl:user password

sucht nach allen Seiten, die in ihrem URL die beiden Begriffe haben, zum Beispiel http://www.meins.de/user/password.txt.

inanchor. Sind Sie auf der Suche nach Bildern und wollen die Beschreibungen durchsuchen, sind Sie bei inanchor genau an der richtigen Adresse.

site. Sind für Sie nur bestimmte Seiten von Interesse, schränken Sie das Suchergebnis einfach mit dem site-Befehl ein.

link. Gerade bei der eigenen Site ist man oftmals interessiert, wer einen Link auf diese gesetzt hat. Der Befehl link zeigt alle Seiten an.

Alle all-Operatoren lassen sich in der Regel nur einmal pro Anfrage einsetzen und können nicht mit anderen Befehlen kombiniert werden. Dies sind nur die wichtigsten Befehle der Google-Suchmaschine. Eine komplette Liste mit Erklärungen finden Sie bei Google Guide unter www.googleguide.com/advanced_operators_reference.html.

Googles Wissen

Sensible Daten vor dem Google Spider verstecken

Nun haben Sie das richtige Werkzeug an der Hand, um herauszufinden, was Google über Sie in seiner Datenbank gespeichert hat. Ein guter Startpunkt ist hier der Befehl site:www.meineseite.de, über den Sie alle Informationen erhalten. Je nach Größe der Seite kann dies eine ganz schöne Masse sein und es wird schwierig, eventuell kritische Dokumente herauszufiltern.

Für diesen Fall gibt es verschiedene Tools, die Ihnen die Suche erleichtern sollen und bei denen Sie Aufgaben automatisieren können. Dies sind beispielsweise Gooscan für Linux (johnny.ihackstuff.com) und Sitedigger (www.foundstone.com) für Windows. Mit diesen Programmen stellen Sie automatisiert Anfragen an Google. Sie sollten darauf achten, dass Google ein solches Vorgehen einschränkt und nur über seine API erlaubt. Haben Sie also bei Ihrer Suche ein Tool gefunden, das nach keinem Lizenzschlüssel fragt, so verstoßen Sie damit gegen die Nutzungsrichtlinien von Google. Im schlimmsten Fall sperrt Google Ihren IP-Bereich zur Nutzung. Den Lizenzschlüssel bekommen Sie übrigens kostenlos direkt bei Google unter www.google.com/apis.

Auf der Suche mit Sitedigger

Sensible Daten vor dem Google Spider verstecken

Mit Sitedigger gehen Sie auf die Suche nach eventuellen Geheimnissen, die Google durch die Aufnahme Ihrer Seiten im Speicher hat. Sitedigger bietet zwei Optionen, auf Basis derer die Suchstrings zusammengestellt werden. Zum einen greift das Programm auf eine eigene Datenbank zurück, die Foundstone Signature Base mit rund 175 verschiedenen Suchanfragen, die Schwachstellen ans Tageslicht bringen soll. Alternativ dazu können Sie auch die deutlich umfangreichere Datenbank von Johnny Long als Basis nehmen. Beim Zusammenstellen der Abfragen sollten Sie darauf achten, dass Sie über die Schnittstelle pro Tag nur eine bestimmte Anzahl von Querys absetzen können und deshalb Ihre Suchkriterien auf Ihren tatsächlichen Bedarf einschränken sollten.

Sind alle Parameter festgelegt, dann müssen Sie nur noch im Suchfenster Ihre Domain und die Anzahl der Treffer pro Anfrage festlegen. Sollte das Programm auf Basis der gewählten Suchanfrage Ergebnisse gefunden haben, erscheinen diese in der Trefferliste. Zur besseren Analyse bietet Sitedigger eine Exportfunktion als HTML-Seite.

Die Lücken schließen

Sensible Daten vor dem Google Spider verstecken

Damit wissen Sie nun, welche Dokumente Google von Ihnen gespeichert hat und ob sich darunter auch nichtöffentliche Informationen befinden. Sollte dem so sein, nehmen Sie diese im ersten Schritt aus den Verzeichnissen, so dass der gespeicherte Link nicht mehr auf ein aktuelles Dokument verweist.

Google bietet Ihnen zum Löschen von irrtümlich in den Cache geratenen Seiten ein Tool an, bei dem Sie diese Links melden können. Sie finden es auf der Google-Seite unter den Informationen für Website-Administratoren (www.google.de/support/webmasters/bin/answer.py?answer=35301&ctx=sibling). Damit sich die Geschichte nun nicht zum Hase-und-Igel-Spiel entwickelt, sollten Sie für den nächsten Scan von Google einige Vorsichtsmaßnahmen treffen.

Rolle des Webservers

Sensible Daten vor dem Google Spider verstecken

Unternehmen, die einen eigenen Webserver betreiben, müssen sich über dessen Rolle im Klaren sein. Ein Internet-Webserver publiziert Daten für die breite Masse, während ein Intra- oder Extranet-Webserver seine Informationen lediglich einem limitierten Personenkreis zur Verfügung stellen sollte. Dem sollte auch die Trennung von Informationen entsprechen. Ganz gleich ob Sie den oder die Server selbst bei sich in der Firma stehen haben oder bei einem Provider – die Daten der einzelnen Server sollten streng voneinander getrennt sein. Auf den Verzeichnissen des Internetservers sollten Sie keine Daten fürs Intra- oder Extranet speichern und umgekehrt, denn eine Fehlkonfiguration kann bereits Tür
und Tor öffnen. Gleiches gilt für sensible Daten. Diese haben auf keinem der Server etwas zu suchen, wenn sie nicht für eine bestimmte Zielgruppe sichtbar gemacht werden sollen. In einem solchen Fall ist aber immer noch ein Verzeichnis oder Laufwerk mit restriktiven Zugriffsrechten innerhalb des Firmennetzes die deutlich sicherere Alternative.

Vorsichtsmaßnahmen

Sensible Daten vor dem Google Spider verstecken

Eine weitere Maßnahme, die eigentlich auch nicht direkt mit Google und anderen Suchmaschinen zu tun hat, ist die Sicherheit Ihres Webservers. Achten Sie darauf, dass Sie immer alle aktuellen Patches eingespielt haben, damit Google-Hacker über bekannte Programmfehler von IIS oder Apache nicht doch noch Zugriff auf Ihre Daten bekommen.

Überprüfen Sie in diesem Zusammenhang auch gleich Ihren Server oder Webpräsenz auf die Einstellung für die Präsentation von Verzeichnislisten. Dies sollte unter keinen Umständen möglich sein. Bei Apache stellen Sie dies mit dem Eintrag

Options -Indexes FollowSymLinks MultiViews

in der Datei httpd.conf aus. Auch viele Webhoster sind sich dieses Problems bewusst und bieten derartige Optionen an. Hier hilft meist ein Blick in die FAQs oder eine E-Mail an die Service-Abteilung.

Schranke für Google

Sensible Daten vor dem Google Spider verstecken

Sind diese vorbereitenden Maßnahmen erledigt, optimieren Sie nun Ihren Web-Auftritt so weit, dass Google wirklich nur noch auf die Informationen Zugriff hat, die Sie auch publizieren möchten.

Der erste Schritt hierzu ist die Datei robots.txt. Martin Goldmann ist in seinem Artikel »Suchmaschinenleiter« in Internet Professionell 6/2005 bereits ausführlich auf dieses Thema eingegangen, deshalb fasst dieser Artikel nur noch einmal kurz die wichtigsten Aspekte zusammen.

Legen Sie für Ihre Seite eine Datei robots.txt an und speichern Sie diese im Root-Verzeichnis Ihrer Website. Bei der Vergabe der Lese- und Schreibrechte sollten Sie darauf achten, dass der Webserver die Datei lesen und auswerten kann. Die robots.txt-Datei darf nicht von den Suchmaschinen-Crawlern indiziert werden und später in der Trefferliste auftauchen. Dies würde Google-Hackern Aufschluss über den Aufbau Ihrer Site geben. Achten Sie bei der Regelfestlegung innerhalb der robots-Datei darauf.

Robots.txt

Sensible Daten vor dem Google Spider verstecken

Der genaue Aufbau der Datei und die erlaubten Befehle sind bereits seit 1994 standardisiert. Eine detaillierte Beschreibung des Standards finden Sie unter www.robotstxt.org.

Für die Grundfunktionen benötigen Sie lediglich zwei Befehle: zum einen User-Agent, zum anderen Disallow. User-Agent unterscheidet zwischen den verschiedenen Suchmaschinen-Crawlern, ein Stern (*) macht die Einschränkungen für alle gültig.

Die Negativliste lässt sich entweder auf Basis von Verzeichnissen oder Dateitypen aufbauen. So bleiben die Suchmaschinen beim Befehl

disallow: /meine_geheimnisse

vor der Türe und durchsuchen dieses Verzeichnis nicht. Alternativ lassen die Crawler mit dem Eintrag

disallow: /*.PPT

die Finger von Ihren Powerpoint-Präsentationen. Zusätzlich gilt noch die Regel, dass alles, was rechts von einem # zu finden ist, als Kommentar gilt und von den Crawlern ignoriert wird. Wenn Sie also komplett Ruhe vor Crawlern haben möchten, so hilft folgende robots.txt-Datei:

# Alle Suchmaschinen bleiben draußen
User-Agent: *
Disallow: *

Meta-Tags

Sensible Daten vor dem Google Spider verstecken

Zusätzlich zur robots.txt gibt es auch noch das Meta-Tag Robots, über das sich Informationen für Webcrawler pflegen lassen. Dieses Tag setzen Sie wie die beschreibenden Meta-Tags in den Header-Bereich einer einzelnen Seite. Die gebräuchlichsten Optionen sind NOARCHIVE, NOINDEX, NOFOLLOW und NOSNIPPET.

Gerade die Cache-Funktion von Google kann bei Seiten mit ständig aktualisiertem Inhalt schnell zu Verwirrung und verärgerten Besuchern führen, falls die gesuchten Daten nur noch im Cache der Suchmaschine vorhanden sind. Damit Sie den Googlebot und andere Crawler nicht ganz von dieser Seite aussperren müssen, gibt es die Option NOARCHIVE. Damit wird die Seite zwar indiziert, nicht jedoch ins Archiv aufgenommen.

Wenn Sie eine Seite überhaupt nicht von Suchmaschinen indiziert haben möchten, sollten Sie die Attribute NOINDEX und NOFOLLOW übernehmen.

Sollen die Crawler lediglich die Seite indizieren, nicht aber den darauf angegebenen Links folgen, dann lassen Sie einfach das Attribut NOINDEX weg.

Neben dem Link und dem Cache-Link bietet Google zu jeder Seite auch noch einige Zeilen an beschreibendem Text an. Gerade wenn Sie Ihre Besucher für Inhalte bezahlen lassen, ist dies nicht immer wünschenswert.
Zum Deaktivieren verwenden Sie einfach die Option NOSNIPPET.

.

Die gezeigten Einschränkungen gelten nun für alle Suchmaschinen. Als Alternative dazu geben Sie einfach an Stelle von ROBOTS den normierten Namen des Crawlers an – also beispielsweise Googlebot für Google -, und das Meta-Tag ist nur für diese bestimmte Suchmaschine gültig.

Lesen Sie auch :