Logfile-Analyse: Versteckte SEO-Potenziale entdecken

Die Logfile-Analyse wird von vielen SEOs immer noch stiefmütterlich behandelt. Dabei schlummern mit zunehmender Größe einer Website immer mehr Potenziale, die durch eine Logfile-Analyse aufgedeckt werden können.

In diesem Artikel tauchen wir in die Geheimnisse der Logfile-Analyse ein. Wir zeigen dir, wie du damit deine Website optimieren und versteckte SEO-Potenziale aufdecken kannst

Warum sollte ich mich mit meinen Logs beschäftigen?

Zeit ist auch für Google Geld. Das gilt natürlich auch für den Crawling-Prozess. Umso wichtiger ist es, den Suchmaschinen-Bot nur dorthin zu schicken, wo er hin soll.

Denn: Google stellt jeder Website nur eine bestimmte Menge an Ressourcen für das Crawling zur Verfügung. Werden diese überschritten, besteht die Gefahr, dass wichtige Seiten seltener gecrawlt oder im schlimmsten Fall gar nicht indexiert werden. Die Menge dieser Ressourcen hängt von verschiedenen Faktoren ab, darunter

  • Ladezeit der Website
  • Page Rank
  • Anzahl eingehender Links

Dies sind Punkte, an denen man ansetzen kann, um das Crawl-Budget für die eigene Website und damit die Wahrscheinlichkeit einer vollständigen Indexierung zu erhöhen. Häufig ist eine unvollständige Indizierung jedoch nicht nur auf ein zu geringes Crawl-Budget zurückzuführen, sondern auch auf mangelnde Effizienz. Das bedeutet, dass der Bot auf den falschen Seiten unterwegs ist und dort seine Ressourcen verschwendet.

Das Aufdecken dieser Ressourcenverschwendung kann zum einen durch die OnPage-Crawler diverser Tool-Anbieter erfolgen, die jedoch nur eine Simulation des tatsächlichen Crawling-Prozesses der Suchmaschinen darstellen. Wer jedoch wissen möchte, wie Google mit welchen Bots wann auf welchen URLs unterwegs ist, sollte einen Blick in seine Logfiles werfen:

“Your log files contain the only data that is 100 % accurate in terms of how search engines are crawling your website.”

Samuel Scott
Auf dem Bild ist ein lächelnder Mann, der ein Smartphone in der Hand hält.

Relaunch geplant?

Wir checken deine Website durch, erarbeiten ein neues Konzept und setzen sie komplett neu auf: SEO, WordPress, Webdesign, Texte, Bilder – alles aus einer Hand.  

Welche Vorteile bietet eine Logfile-Analyse?

Um die Vorteile der Logfile-Analyse zu erkennen, muss man sich zunächst mit dem Thema vertraut machen.

Was ist überhaupt ein Logfile?

Ein Logfile ist ein automatisch erstelltes Protokoll aller Aktivitäten auf einem Server. Das bedeutet, dass alle Besuche, sowohl von Menschen als auch von Bots, protokolliert werden. Auf einem Apache-Server werden die Zugriffe in der Datei access.log gespeichert. Der Inhalt des Logs wird im sogenannten Common Log Format gespeichert, das wie folgt definiert ist:

LogFormat "%h %l %u %t \"%r\" %>s %b" common
 CustomLog logs/access_log common

Die einzelnen Bestandteile beinhalten Folgendes:

%hIP-Adresse des Rechners, der die Anfrage gestellt hat
%lIdentität des Client (in der Regel leer)
%uBenutzer-ID des Clients, z.B. bei der Verwendung von CGI
%tZeitstempel des Zugriffs
%rDer gestellte Request
%>sDer vom Server zurückgegebene Statuscode
%bDie übertragene Datenmenge in Byte

Ein mit Inhalt gefüllter Logfile-Eintrag könnte also wie folgt aussehen:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

Um die Log-Einträge auch für SEO nutzen zu können, sind die Informationen im Common Log Format jedoch zu gering. Daher sollten die Dateien um das Combined Log Format erweitert werden. Dieses Format kann über die Datei httpd.conf des Apache-Servers konfiguriert werden.

Durch Hinzufügen von \”%{Referer}i\” und \”%{User-agent}i\” werden zusätzlich der Referrer und der User-Agent übermittelt und euer File wird wie folgt befüllt:

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\"" combined
CustomLog log/access_log combined

Ein Eintrag in der access.log würde jetzt z.B. so aussehen:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "https://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

Damit lässt sich also arbeiten. Aber was genau?

Use Cases

Wie bereits erwähnt, sind in den Server-Logfiles auch die Spuren sichtbar, die der Google Bot auf einer Seite hinterlassen hat. Daraus ergeben sich vielfältige Analysemöglichkeiten, die z.B. der Search Console in einigen Fällen überlegen sind.

Aktualität

Die Google Search Console ist in der Regel die erste Anlaufstelle für Webmaster und SEOs, wenn es darum geht, das Carwling-Verhalten des Google Bots zu überprüfen.

Die Daten in der Search Console sind jedoch

  • mehrere Tage alt
  • nur auf Tagesbasis
  • lassen sich nicht auf einzelne URLs herunterbrechen

Eine Auswertung der Logfiles hingegen ermöglicht ein Monitoring in Echtzeit und bei entsprechender Speicherung eine Archivierung der Daten über einen unbegrenzten Zeitraum, denn die Daten liegen bei euch und können von euch auch beliebig gespeichert und ausgewertet werden.

Nicht indexierte URLs finden

Häufig kann man in den Sitemap-Berichten der Search Console eine mehr oder weniger große Differenz zwischen gecrawlten und indexierten Seiten feststellen. Welche Seiten gecrawlt, aber nicht indexiert wurden, sagt Google leider nicht, ein Abgleich der Sitemap mit den Logfiles kann hier Abhilfe schaffen.

(Google) Bots Verifizieren

Vor allem Webseiten mit viel Traffic haben auch immer wieder mit Bots zu kämpfen, die auf der Seite nichts zu suchen haben, sei es, weil sie die Inhalte der Seiten auslesen und für sich nutzen wollen, sei es, weil Spammer einfach ihren „User Agent“ in das Webanalyse-Tool katapultieren wollen (Stichwort „Referrer Spam“).

Um z.B. den echten Googlebot von seinen unzähligen, gefälschten Namensvettern zu unterscheiden, bietet sich eine Überprüfung per Reverse DNS Lookup an. Google empfiehlt dazu folgende Vorgehensweise

Telling webmasters to use DNS to verify on a case-by-case basis seems like the best way to go. I think the recommended technique would be to do a reverse DNS lookup, verify that the name is in the googlebot.com domain, and then do a corresponding forward DNS->IP lookup using that googlebot.com name; eg:

> host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1

I don’t think just doing a reverse DNS lookup is sufficient, because a spoofer could set up reverse DNS to point to crawl-a-b-c-d.googlebot.com.

Quelle

Unterschiedliche Googlebots erkennen

Auch wenn ihr wissen wollt, welcher Googlebot eure Seite wie oft crawlt, können die Logfiles darüber Auskunft geben. Eine Übersicht, mit welchen User Agents Google aktuell crawlt findet ihr hier

Weitere Use Cases

Es gibt viele weitere Möglichkeiten, die Logfile-Analyse für technisches SEO zu nutzen:

  • Echtzeit Monitoring der Statuscodes
  • Aufdecken von gecrawlten URLs, die eigentlich nicht gecrawlt werden sollen
  • Erkennen von 302 Redirects
  • Testen der Wirksamkeit von maskierten Links

Die Nachteile

Wo Licht ist, ist auch Schatten. So auch bei der Logfile-Analyse. Das sollte jedem klar sein: Logfiles sind kein Ersatz für ein Webanalyse-System, da wichtige Metriken wie Absprungrate, Verweildauer oder E-Commerce-Daten fehlen.

Außerdem entstehen durch die Logbucheinträge schnell mehrere Gigabyte große Dateien, die verarbeitet werden müssen. Tools wie Excel stoßen dabei schnell an ihre Grenzen..

Für Seiten, die lokal im Browser-Cache gespeichert werden, wird in der Regel kein Log-Eintrag erstellt, d.h. diese Besuche können verloren gehen. Für SEO ist dies jedoch kein Problem, da Bots über keinen Browser-Cache verfügen.

Tools & Dienstleister

Die erste Herausforderung bei der Arbeit mit Logfiles besteht darin, überhaupt an die Logfiles heranzukommen. Sofern man nicht über einen eigenen Server verfügt, führt hier meist kein Weg an der IT vorbei. Sind die Dateien aber erst einmal verfügbar, gibt es einige Tools und Anbieter, die bei der Aufbereitung der Daten helfen.

  • Für kleine Datenmengen: Excel (eine kurze Anleitung gibt’s bei MOZ)
  • Splunk (Software as a Service)
  • Für die Nutzer von Piwik: Piwik Log Analytics
  • Sumo-logic (Software as a Service)
  • Log Expert (Desktopsoftware für Windows
  • Logz.io (Software as a Service)
  • Elasticsearch / Logstash / Kibana (ELK; Open-Source-Software)
  • Screaming Frog SEO Log File Analyser
  • Auch mit dem kostenlosen Datenanalysetool KNIME kann eine Logfile-Analyse durchgeführt werden

Disclaimer: Diese Auflistung soll keine Wertung darstellen, da ich die Tools mit Ausnahme von Excel und ELK nicht getestet habe, der Vollständigkeit halber möchte ich jedoch eine Auswahl an Anbietern darlegen.

Fazit

Zusammenfassend ist die Logfile-Analyse ein mächtiges Werkzeug in der SEO. Sie bietet nicht nur tiefe Einblicke in das Crawling-Verhalten von Suchmaschinen, sondern hilft auch dabei, das volle Potenzial deiner Website zu entfalten.

Ob es darum geht, die Effizienz deines Crawling-Budgets zu maximieren oder unerwünschte Bots zu identifizieren, die Logfile-Analyse ist der Schlüssel. Mit den richtigen Tools und einer strategischen Herangehensweise kannst du deine Website auf das nächste Level heben.

Ein Mann sitzt lächelnd auf einem Stuhl und hebt seine Hand zum Gruß.

Hol dir unser Wissen direkt in dein Postfach!

Einmal pro Woche schicken wir dir Wissenswertes rund um WordPress, SEO, KI, Datenschutz, Sicherheit, Texte, Bilder und Webdesign – verständlich aufbereitet, ergänzt um spannende Einblicke in den StrategieVier-Allltag. Trag dich direkt hier in unseren Newsletter ein!

Du meldest dich zu unserem Newsletter an. Macht vier Mal Website-Wissen pro Monat. Dafür nutzen wir Active Campaign. Du kannst dich jederzeit per Klick abmelden. Datenschutz.

Michael Hohenleitner

Michael ist S4-Mitgründer. Als technischer SEO-Berater entwickelt er Gesamtstrategien als Basis unserer Projekte. Denn die Websites unserer Kunden sollen ja nicht nur schön sein, sondern erstens auch im Web gefunden werden und das zweitens von der passenden Zielgruppe.

Auf dem Bild ist ein lächelnder Mann in lässiger Kleidung, der auf dem Boden sitzt. Michael Hohenleitner

Weitere Beiträge von uns

Willst du KI-Fotos für SEO einsetzen? Lerne, wann sie nützlich sind und wann echte Fotos bevorzugt werden sollten. Authentizität kann den Unterschied machen!...
In diesem Artikel lernst du, wie du mit Google Search Console und Looker Studio ein effizientes und kostenloses Keyword Monitoring Tool erstellst. Erhalte tiefe Einblicke in deine Rankings und visualisiere die Leistung deiner Keywords über...
Entdecke, wie du mit Python auf die Google Search Console API zugreifst – ganz ohne Programmierkenntnisse! Unsere Anleitung und ein kostenloses Python-Skript ermöglichen es dir, alle wichtigen Keyword- und URL-Daten unkompliziert zu extrahieren. Wir führen...
Entdecke die Geheimnisse semantischer Suchmaschinenoptimierung! Erfahre, wie Google funktioniert, warum jedes einzelne Wort zählt und wie du deine SEO-Strategie darauf anpasst....
Hol dir unser Wissen
in dein Postfach!
Mit unserem Newsletter bekommst du regelmäßig relevante Updates rund um Websites, SEO, Content, WordPress, KI, Datenschutz und Cyber-Sicherheit.

Du meldest dich mit deiner Anfrage zum Website-Audit auch zu unserem Newsletter an. Wir schicken dir nach unseren Willkommens-E-Mails bis zu vier Mal im Monat unser Website-Wissen! Für den Versand der Mails verwenden wir Active Campaign. Du kannst dich jederzeit mit nur einem Klick wieder abmelden. Datenschutz.