Crawler

 

Was ist ein Crawler? 

Ein Crawler ist ein Programm, das Inhalte im Internet durch ein automatisiertes Verfahren durchsucht. Er liest Websites und Informationen aus, analysiert ihre Inhalte und erstellt daraus einen Index. Vorrangig kommen Crawler bei Suchmaschinen zum Einsatz, denen sie als wesentliches Tool zum Auffinden und Indexieren von Inhalten im Internet dienen. Crawler werden auch als Robots, Bots oder Spider bezeichnet. Der bekannteste Webcrawler ist der Googlebot. 

 

Funktionsweise

Damit das Crawling automatisiert ablaufen kann, werden die einzelnen Arbeitsschritte des Crawlers im Voraus definiert. Im ersten Schritt durchsucht dieser das Internet nach Informationen. Auf die besuchten Websites gelangt der Crawler meist über Hyperlinks, die sich auf bereits indexierten Seiten befinden. Die ausgelesenen Informationen werden bestimmten Kategorien zugeordnet und anschließend systematisiert. In der Regel wird mit den Ergebnissen ein Index angelegt. Die indexierten Daten werden schließlich in den Suchergebnissen der Suchmaschine angezeigt. 

 

Arten von Crawlern 

Je nach Fokus der Crawler werden unterschiedliche Arten unterschieden:

  • allgemeine Crawler: möglichst breites Spektrum an Websites
  • Focused Crawler: Fokus auf themenrelevante und aktuelle Websites 
  • E-Mail Harvester: Fokus auf E-Mail Adressen 

 

Einsatzbereiche 

Crawler werden unter anderem in folgenden Bereichen eingesetzt:

  • Suchmaschinen
  • Preisvergleichsportale
  • Informationsseiten 
  • Webanalyse Tools
  • Data Mining

 

Unterschied zwischen Crawler & Scraper

Die wesentliche Aufgabe von Webcrawlern ist lediglich das Sammeln, Aufbereiten und Bewerten von Daten. Scraper hingegen zielen auf das Kopieren und Abspeichern von Daten anderer Websites ab. Während ein Crawler in der Regel vorrangig Metadaten ausliest, extrahiert ein Scraper Daten in Form von Content. 

 

Blockierung von Crawlern

Webseitenbetreiber können Crawler blockieren, um ihre Website von der Indexierung auszuschließen. Dazu dienen Anweisungen mittels robots.txt Datei, noindex oder nofollow Tag. Beim Aufrufen der Website erhält der Crawler dadurch die Vorgabe, die Seite nicht zu indexieren. 

 

Bedeutung für SEO

Das Crawlen und Indexieren ermöglicht es Websites, überhaupt in den Suchergebnissen zu ranken. Die Anzahl der Seiten, die auf einer Website gecrawlt und indexiert werden, ist durch das Crawl Budget begrenzt. Um dieses bestmöglich auszunutzen, sollten gezielte Optimierungsmaßnahmen vorgenommen werden. Zur Überprüfung der vom Crawler erreichten und indexierten Bereiche einer Website dient die Google Search Console. 

 

Crawl Budget Optimierung

Um sicherzustellen, dass das vorhandene Crawl Budget möglichst sinnvoll ausgenutzt wird, sollten folgende Aspekte beachtet und entsprechend optimiert werden:

  • flache Seitenarchitektur und geringe Klicktiefe 
  • Anpassung der Dateigröße
  • interne Verlinkungen
  • Ausschluss unwichtiger Seiten vom Crawling durch robots.txt, noindex oder nofollow
  • XML Sitemap mit den URLs der wichtigsten Unterseiten