Crawler

Was ist ein Crawler?

Ein Crawler ist ein Programm, das Inhalte im Internet durch ein automatisiertes Verfahren durchsucht. Er liest Websites und Informationen aus, analysiert ihre Inhalte und erstellt daraus einen Index. Vorrangig kommen Crawler bei Suchmaschinen zum Einsatz, denen sie als wesentliches Tool zum Auffinden und Indexieren von Inhalten im Internet dienen. Crawler werden auch als Robots, Bots oder Spider bezeichnet. Der bekannteste Webcrawler ist der Googlebot.

Funktionsweise

Damit das Crawling automatisiert ablaufen kann, werden die einzelnen Arbeitsschritte des Crawlers im Voraus definiert. Im ersten Schritt durchsucht dieser das Internet nach Informationen. Auf die besuchten Websites gelangt der Crawler meist über Hyperlinks, die sich auf bereits indexierten Seiten befinden. Die ausgelesenen Informationen werden bestimmten Kategorien zugeordnet und anschließend systematisiert. In der Regel wird mit den Ergebnissen ein Index angelegt. Die indexierten Daten werden schließlich in den Suchergebnissen der Suchmaschine angezeigt.

Arten von Crawlern

Je nach Fokus der Crawler werden unterschiedliche Arten unterschieden:

allgemeine Crawler: möglichst breites Spektrum an Websites
Focused Crawler: Fokus auf themenrelevante und aktuelle Websites
E-Mail Harvester: Fokus auf E-Mail Adressen

Einsatzbereiche

Crawler werden unter anderem in folgenden Bereichen eingesetzt:

Suchmaschinen
Preisvergleichsportale
Informationsseiten
Webanalyse Tools
Data Mining

Unterschied zwischen Crawler & Scraper

Die wesentliche Aufgabe von Webcrawlern ist lediglich das Sammeln, Aufbereiten und Bewerten von Daten. Scraper hingegen zielen auf das Kopieren und Abspeichern von Daten anderer Websites ab. Während ein Crawler in der Regel vorrangig Metadaten ausliest, extrahiert ein Scraper Daten in Form von Content.

Blockierung von Crawlern

Webseitenbetreiber können Crawler blockieren, um ihre Website von der Indexierung auszuschließen. Dazu dienen Anweisungen mittels robots.txt Datei, noindex oder nofollow Tag. Beim Aufrufen der Website erhält der Crawler dadurch die Vorgabe, die Seite nicht zu indexieren.

Bedeutung für SEO

Das Crawlen und Indexieren ermöglicht es Websites, überhaupt in den Suchergebnissen zu ranken. Die Anzahl der Seiten, die auf einer Website gecrawlt und indexiert werden, ist durch das Crawl Budget begrenzt. Um dieses bestmöglich auszunutzen, sollten gezielte Optimierungsmaßnahmen vorgenommen werden. Zur Überprüfung der vom Crawler erreichten und indexierten Bereiche einer Website dient die Google Search Console.

Crawl Budget Optimierung

Um sicherzustellen, dass das vorhandene Crawl Budget möglichst sinnvoll ausgenutzt wird, sollten folgende Aspekte beachtet und entsprechend optimiert werden:

flache Seitenarchitektur und geringe Klicktiefe
Anpassung der Dateigröße
interne Verlinkungen
Ausschluss unwichtiger Seiten vom Crawling durch robots.txt, noindex oder nofollow
XML Sitemap mit den URLs der wichtigsten Unterseiten

Cookie	Dauer	Beschreibung
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.