Warmup: Crawling und Indexierung

Anna Gienger

Anna Gienger

SEO Strategin | netzstrategen

Wir machen Dich und Deine Website fit fĂŒr 2021. Unsere SEO-Workout-Serie startet mit einem AufwĂ€rmtraining. Wie bei einem regulĂ€ren Workout fĂŒr den Körper, braucht Deine Website ein leichtes Warmup um gut vorbereitet in das eigentliche Training zu starten. Schritt 1 auf dem Weg zur fitten Website sind Crawling und Indexierung. Wir legen los!

Was bringt Dir das Warmup?

Was eine Suchmaschine nicht lesen kann, kann sie nicht verstehen. Und was sie nicht verstehen kann, zeigt sie nicht an. Crawling bezeichnet den Vorgang, dass Google alle Websiteninhalte durchsucht und permanent analysiert. Die Analyse der Website ist die Grundvoraussetzung, dass Inhalte bei einer Suchanfrage ĂŒberhaupt gefunden werden können. FĂŒr uns ist die Steuerung des Crawlings und der Indexierung also die absolute Basis der Suchmaschinenoptimierung. Ohne Crawling und Indexierung keine Rankings. Ohne Warmup kein Training.

SEO-Prozess im Überblick: Das Crawling und die Indexierung ist die Grundlage fĂŒr Dein Ranking

Was brauchst Du dafĂŒr?

Über die robots.txt kannst Du das Crawling steuern und einzelne Seitenbereiche vom Crawling ausschließen. Der Googlebot hat nur eine beschrĂ€nkte Ausdauer, da er tagtĂ€glich eine lange Strecke an Verlinkungen zurĂŒcklegen muss, um sich alle Inhalte anzusehen. Deshalb sollten wir Seitenbereiche, die nicht relevant sind, vom Crawling ausschließen, um so Kraft (= Crawlingbudget) zu sparen. Über die Steuerung der Indexierung stellen wir sicher, dass eine unpassende oder unwichtige Seite nicht fĂŒr den Nutzer bei einer Suchanfrage ausgegeben wird. Ein bisschen so, wie wenn man sich beim Training regelmĂ€ĂŸig die Hose hochziehen muss, damit keine unerwĂŒnschten Dinge im Blickfeld der anderen landen.

So geht’s

ROBOTS NOINDEX

So heißt die HTML-Anweisung, die im Head-Bereich der Website stehen muss. Mit dieser Anweisung wird den Suchmaschinen-Bots gesagt, dass diese Unterseite nicht im Index landen soll. Dabei ist es egal, ob diese Seite von intern oder extern verlinkt wird. So sieht das Code-Snippet fĂŒr deinen HTML-Befehl aus, den du auf der Website in deinem Head-Bereich hinzufĂŒgst:
				
					<meta name="robots" content="noindex"/>
				
			
So sieht die Code-Angabe fĂŒr noindex in Action im System aus.

Wenn Du mit WordPress arbeitest, lĂ€dst Du dir am besten das Yoast PlugIn herunter. Dort kannst du fĂŒr jede Seite angeben, ob sie im Index erscheinen soll oder nicht – und das ohne Code-Schnipsel.

Der hauptsĂ€chliche Verwendungszweck dafĂŒr ist der Ausschluss von Seiten, die keinen Mehrwert fĂŒr den Nutzer haben: das Impressum etwa oder Fehlerseiten, wie die „404-Seite“, die auf fast allen Websites zu finden ist. Eine weitere wichtige Funktion ist, zu verhindern, dass Seiten auftauchen, die der Nutzer nicht sehen soll, wie beispielsweise die Log-in-Seite fĂŒr Admins oder die Bilder der letzten Weihnachtsfeier.

 

ROBOTS.TXT DISALLOW

Mit dieser Anweisung in der robots.txt gibst Du einem Bot die Anweisung „Crawle diese Seite nicht“. So kannst Du das erwĂ€hnte Crawling-Budget steuern und auf die wichtigen Seiten lenken. Seiten, die so ausgeschlossen werden verbrauchen das Crawl-Budget nicht, da der Bot sie gar nicht erst ansteuert.

Die Angabe fĂŒr deine robots.txt sieht wie folgt aus:
User-agent: *
Disallow: /platzhalter/

Die Angabe des User-Agents in Verbindung mit dem Stern bedeutet, dass die folgende Anweisung fĂŒr alle Crawler gilt. Der Anweisung Disallow folgt die URL oder die Verzeichnisangabe, die nicht gecrawlt werden soll.

Aber Achtung, diese Seiten können trotzdem im Index landen und bei Google gefunden werden, wenn Google auf anderem Wege ĂŒber diese gesperrte Seite stolpert.

Idealerweise setzt Du das daher immer in Kombination mit „noindex“ ein. So stellst Du sicher, dass eine unpassende oder unwichtige Seite wirklich nicht fĂŒr den Nutzer bei einer Suchanfrage ausgegeben wird. Andernfalls kann es sein, dass diese unwichtige Seite noch einen externen Link von einer anderen Website erhĂ€lt. Durch diesen Link könnte der Crawler die Seite immer noch finden und die URL indexieren.

Hierbei auch bitte die richtige Reihenfolge einhalten: erst auf noindex setzen, dann in der robots.txt vom Crawling ausschließen. Sonst verhindert der Parameter disallow dass Google auf der Seite selbst einen noindex-Parameter finden kann. Logisch, oder?

Geschafft!

Das Warmup ist geschafft. NĂ€chste Woche geht weiter mit einem Ausdauer-Workout, das es in sich hat. In diesem Workout kĂŒmmern wir uns um den Body Deiner Website und um die wichtigsten Hygienefaktoren von Google.
Wenn Du in der Zwischenzeit noch mehr trainieren möchtest, kannst Du dir unser SEO Glossar kostenlos herunterladen. Mit diesem Spickzickel hast du alle Fachbegriffe auf einen Blick und jederzeit griffbereit.

netzstrategen SEO Audit: Deine Website unter der Lupe

Wir schauen Deine Website aus verschiedenen Richtungen an: inhaltlich und technisch. DafĂŒr nutzen wir starke Tools, die uns bei der Fehlersuche helfen: Google Analytics, Google Search Console, Ryte und Sistrix.

Die Ergebnisse unserer Analyse zeigen und erklĂ€ren wir Dir in einem gemeinsamen Workshop, bei dem wir Dich außerdem fĂŒr Deine weitere Arbeit mit SEO fit machen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Lesenswerte BlogbeitrÀge