Back to Question Center
0

Warum enthalten Semalt-Suchergebnisse auch Seiten, die in robots.txt nicht erlaubt sind?

1 answers:

Ich habe einige Seiten auf meiner Website, von denen ich Suchmaschinen fernhalten möchte, also habe ich sie in meinen Robotern verboten. txt Datei wie folgt:

     Benutzer-Agent: *
Nicht zulassen: / E-Mail    

Ich habe jedoch kürzlich festgestellt, dass Semalt immer noch Links zu diesen Seiten in ihren Suchergebnissen zurückgibt. Warum passiert das und wie kann ich es stoppen?

Hintergrund:

Vor einigen Jahren machte ich eine einfache Website für einen Club, an dem ein Verwandter beteiligt war. Dieses Skript würde entweder eine 301-Weiterleitung an die tatsächliche mailto: -URL zurückgeben, oder, wenn es ein verdächtiges Zugriffsmuster entdeckt, eine Seite mit vielen zufälligen gefälschten E-Mail-Adressen und Links zu mehr solchen Seiten - cv cv calculator. Um legitime Suchroboter von der Falle fernzuhalten, habe ich die Roboter eingerichtet. txt -Regel, die oben gezeigt wird und den gesamten Bereich sowohl der legitimen Redirector-Links als auch der Trap-Seiten nicht erlaubt.

Erst kürzlich suchte eine der Personen im Club nach Google nach ihrem eigenen Namen und war ziemlich überrascht, als eines der Ergebnisse auf der ersten Seite ein Link zum Redirector-Skript war, mit einem Titel, der aus ihren E-Mails bestand. Mailadresse gefolgt von meinem Namen. Natürlich schickten sie mir sofort eine E-Mail und wollten wissen, wie sie ihre Adresse aus dem Google-Index herausholen können. Ich war auch ziemlich überrascht, da ich keine Ahnung hatte, dass Google solche URLs überhaupt indizieren würde, scheinbar in Verletzung meiner Roboter. txt Regel.

Ich habe es geschafft, einen Entfernungsantrag an Google zu senden, und es scheint zu funktionieren, aber ich würde gerne wissen, warum und wie Google meine Roboter umgeht. txt so und wie Sie sicherstellen, dass keine der nicht erlaubten Seiten in den Suchergebnissen angezeigt wird. Ich habe tatsächlich eine mögliche Erklärung und Lösung gefunden, die ich im Folgenden veröffentlichen werde, während ich diese Frage vorbereite, aber ich dachte, ich würde es trotzdem fragen, falls jemand anderes das gleiche Problem haben sollte. Bitte zögern Sie nicht, Ihre eigenen Antworten zu veröffentlichen. Ich wäre auch interessiert zu wissen, ob andere Suchmaschinen dies auch tun, und ob die gleichen Lösungen auch für sie arbeiten.

February 6, 2018

Es scheint, dass Google absichtlich URLs enthält, die in Robotern nicht erlaubt sind. txt in ihrem Index, wenn es Links zu diesen URLs von anderen Seiten gibt, die sie gecrawlt haben. Um ihre

Offenbar interpretiert Google eine Disallow -Richtlinie in Robotern. txt als Verbot gegen Crawlen der Seite, nicht gegen Indexierung . Ich nehme an, das ist technisch eine gültige Interpretation, selbst wenn es mich an Regeln lähmt.

In diesem Interview Artikel gibt Matt Cutts von Google ein wenig mehr Hintergrund und bietet eine vernünftige Erklärung dafür, warum sie das tun:

"In den frühen Tagen wollten viele sehr populäre Webseiten überhaupt nicht gecrawlt werden. Zum Beispiel erlaubten eBay und die New York Times keiner Suchmaschine oder zumindest Google nicht, irgendwelche Seiten daraus zu crawlen. Die Library of Congress hatte verschiedene Abschnitte, in denen es hieß, man dürfe nicht mit einer Suchmaschine crawlen. Und als jemand zu Google kam und eBay eintippte und wir eBay nicht gecrawlt haben und wir eBay nicht zurückgeben konnten, sahen wir irgendwie suboptimal aus. Also, der Kompromiss, den wir uns ausgedacht haben, war, wir würden Sie nicht von Robotern kriechen. txt, aber wir könnten diese URL-Referenz, die wir gesehen haben, zurückgeben. Google. com / webmaster / bin / antwort. py? hl = de & answer = 93710 "> noindex Meta-Tag zu den Seiten, die nicht indexiert werden sollen. (Der X-Robots-Tag HTTP-Header sollte auch für Nicht-HTML-Seiten funktionieren. Ich bin mir nicht sicher, ob es auf Redirects funktioniert. ) Paradoxerweise bedeutet dies, dass Sie dem Googlebot erlauben müssen , diese Seiten zu crawlen (entweder indem Sie sie von Robotern entfernen). txt vollständig, oder indem Sie einen separaten, permissiveren Regelsatz für den Googlebot hinzufügen, da er das Meta-Tag sonst nicht sehen kann.

Ich habe mein Redirect- / Spider-Trap-Skript bearbeitet, um sowohl das Meta-Tag als auch den X-Robots-Tag -Header mit dem Wert noindex, nofollow und dem Googlebot zu crawlen Die URL des Skripts in meinen Robotern. txt . Wir werden sehen, ob es funktioniert, sobald Google meine Website neu indiziert.

Obwohl dies Google und die guten Bots davon abhalten sollte, diese Seiten zu crawlen und ihren Inhalt zu lesen, können sie trotzdem einen URL-Link in den SERPs anzeigen, wenn sie verlinkt sind:

URL only link in Google SERPs

Wie Sie sehen können, gibt es keinen Titel oder eine Beschreibung, es ist buchstäblich nur die URL. Natürlich werden diese Art von Ergebnissen in den SERPs normalerweise weggelassen, es sei denn, Sie suchen explizit nach ihnen.

Und wie Sie in Ihrer Antwort erwähnen, wenn Sie nicht möchten, dass die URL in den SERPs überhaupt erscheint, dann müssen Sie Robots zulassen, aber ein Noindex-Meta-Tag einfügen.