Warmup: Crawling und Indexierung

Anna Gienger

Anna Gienger

SEO Strategin | netzstrategen

Wir machen Dich und Deine Website fit f├╝r 2021. Unsere SEO-Workout-Serie startet mit einem Aufw├Ąrmtraining. Wie bei einem regul├Ąren Workout f├╝r den K├Ârper, braucht Deine Website ein leichtes Warmup um gut vorbereitet in das eigentliche Training zu starten. Schritt 1 auf dem Weg zur fitten Website sind Crawling und Indexierung. Wir legen los!

Was bringt Dir das Warmup?

Was eine Suchmaschine nicht lesen kann, kann sie nicht verstehen. Und was sie nicht verstehen kann, zeigt sie nicht an. Crawling bezeichnet den Vorgang, dass Google alle Websiteninhalte durchsucht und permanent analysiert. Die Analyse der Website ist die Grundvoraussetzung, dass Inhalte bei einer Suchanfrage ├╝berhaupt gefunden werden k├Ânnen. F├╝r uns ist die Steuerung des Crawlings und der Indexierung also die absolute Basis der Suchmaschinenoptimierung. Ohne Crawling und Indexierung keine Rankings. Ohne Warmup kein Training.

SEO-Prozess im ├ťberblick: Das Crawling und die Indexierung ist die Grundlage f├╝r Dein Ranking

Was brauchst Du daf├╝r?

├ťber die robots.txt kannst Du das Crawling steuern und einzelne Seitenbereiche vom Crawling ausschlie├čen. Der Googlebot hat nur eine beschr├Ąnkte Ausdauer, da er tagt├Ąglich eine lange Strecke an Verlinkungen zur├╝cklegen muss, um sich alle Inhalte anzusehen. Deshalb sollten wir Seitenbereiche, die nicht relevant sind, vom Crawling ausschlie├čen, um so Kraft (= Crawlingbudget) zu sparen. ├ťber die Steuerung der Indexierung stellen wir sicher, dass eine unpassende oder unwichtige Seite nicht f├╝r den Nutzer bei einer Suchanfrage ausgegeben wird. Ein bisschen so, wie wenn man sich beim Training regelm├Ą├čig die Hose hochziehen muss, damit keine unerw├╝nschten Dinge im Blickfeld der anderen landen.

So gehtÔÇÖs

ROBOTS NOINDEX

So hei├čt die HTML-Anweisung, die im Head-Bereich der Website stehen muss. Mit dieser Anweisung wird den Suchmaschinen-Bots gesagt, dass diese Unterseite nicht im Index landen soll. Dabei ist es egal, ob diese Seite von intern oder extern verlinkt wird. So sieht das Code-Snippet f├╝r deinen HTML-Befehl aus, den du auf der Website in deinem Head-Bereich hinzuf├╝gst:
				
					<meta name="robots" content="noindex"/>
				
			
So sieht die Code-Angabe f├╝r noindex in Action im System aus.

Wenn Du mit WordPress arbeitest, l├Ądst Du dir am besten das Yoast PlugIn herunter. Dort kannst du f├╝r jede Seite angeben, ob sie im Index erscheinen soll oder nicht – und das ohne Code-Schnipsel.

Der haupts├Ąchliche Verwendungszweck daf├╝r ist der Ausschluss von Seiten, die keinen Mehrwert f├╝r den Nutzer haben: das Impressum etwa oder Fehlerseiten, wie die ÔÇ×404-SeiteÔÇť, die auf fast allen Websites zu finden ist. Eine weitere wichtige Funktion ist, zu verhindern, dass Seiten auftauchen, die der Nutzer nicht sehen soll, wie beispielsweise die Log-in-Seite f├╝r Admins oder die Bilder der letzten Weihnachtsfeier.

 

ROBOTS.TXT DISALLOW

Mit dieser Anweisung in der robots.txt gibst Du einem Bot die Anweisung ÔÇ×Crawle diese Seite nichtÔÇť. So kannst Du das erw├Ąhnte Crawling-Budget steuern und auf die wichtigen Seiten lenken. Seiten, die so ausgeschlossen werden verbrauchen das Crawl-Budget nicht, da der Bot sie gar nicht erst ansteuert.

Die Angabe f├╝r deine robots.txt sieht wie folgt aus:
User-agent: *
Disallow: /platzhalter/

Die Angabe des User-Agents in Verbindung mit dem Stern bedeutet, dass die folgende Anweisung f├╝r alle Crawler gilt. Der Anweisung Disallow folgt die URL oder die Verzeichnisangabe, die nicht gecrawlt werden soll.

Aber Achtung, diese Seiten k├Ânnen trotzdem im Index landen und bei Google gefunden werden, wenn Google auf anderem Wege ├╝ber diese gesperrte Seite stolpert.

Idealerweise setzt Du das daher immer in Kombination mit ÔÇ×noindexÔÇť ein. So stellst Du sicher, dass eine unpassende oder unwichtige Seite wirklich nicht f├╝r den Nutzer bei einer Suchanfrage ausgegeben wird. Andernfalls kann es sein, dass diese unwichtige Seite noch einen externen Link von einer anderen Website erh├Ąlt. Durch diesen Link k├Ânnte der Crawler die Seite immer noch finden und die URL indexieren.

Hierbei auch bitte die richtige Reihenfolge einhalten: erst auf noindex setzen, dann in der robots.txt vom Crawling ausschlie├čen. Sonst verhindert der Parameter disallow dass Google auf der Seite selbst einen noindex-Parameter finden kann. Logisch, oder?

Geschafft!

Das Warmup ist geschafft. N├Ąchste Woche geht weiter mit einem Ausdauer-Workout, das es in sich hat. In diesem Workout k├╝mmern wir uns um den Body Deiner Website und um die wichtigsten Hygienefaktoren von Google.
Wenn Du in der Zwischenzeit noch mehr trainieren m├Âchtest, kannst Du dir unser SEO Glossar kostenlos herunterladen. Mit diesem Spickzickel hast du alle Fachbegriffe auf einen Blick und jederzeit griffbereit.

netzstrategen SEO Audit: Deine Website unter der Lupe

Wir schauen Deine Website aus verschiedenen Richtungen an: inhaltlich und technisch. Daf├╝r nutzen wir starke Tools, die uns bei der Fehlersuche helfen: Google Analytics, Google Search Console, Ryte und Sistrix.

Die Ergebnisse unserer Analyse zeigen und erkl├Ąren wir Dir in einem gemeinsamen Workshop, bei dem wir Dich au├čerdem f├╝r Deine weitere Arbeit mit SEO fit machen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht ver├Âffentlicht.

Lesenswerte Blogbeitr├Ąge