~/kapio.eu

Was AI-Engines sehen, wenn sie an deine Domain anklopfen

Viele Marketing-Sites im Mittelstand sind für AI-Engines unsichtbar, und niemand merkt es. Der Grund ist selten der Inhalt, fast immer die Infrastruktur: Cloudflare blockt AI-Crawler bei vielen Setups per Default. Wer in ChatGPT, Claude oder Perplexity zitiert werden will, prüft drei Dinge: den AI-Crawler-Block, die Discovery-Header und eine ausgelieferte /llms.txt.

Das Bild aus unseren Discovery-Checks ist fast immer dasselbe. Ein curl mit dem User-Agent Claude-User, also genau dem Mechanismus, mit dem Claude während eines Chats nachschlägt, läuft gegen die Firmen-Startseite. Was zurückkommt: 403 Forbidden.

Drei Cloudflare-Diagnose-Klicks später ist die Lage klar. Der Default-Schalter „Block AI Scrapers and Crawlers” steht auf an. Bewusst aktiviert hat ihn nie jemand, Cloudflare hat ihn beim Aufsetzen übernommen. Für ClaudeBot, GPTBot, PerplexityBot, OAI-SearchBot und das halbe Feld der bekannten AI-User-Agents läuft die Edge auf 403. Die robots.txt mag für AI-Bots freundlich gepflegt sein, gelesen wird sie nie, weil die Verbindung gar nicht so weit kommt.

Drei Schritte, drei Hebel

1. Den Türsteher abbauen. Cloudflare-Dashboard → Security → Bots → „Block AI Scrapers and Crawlers” aus. Parallel das Feature „Managed robots.txt” aus, das sonst still einen Disallow: /-Block für AI-Bots in jede ausgelieferte robots.txt-Antwort schiebt und die eigene Allow-Sektion komplett überstimmt.

2. Discovery-Header setzen. RFC 8288 erlaubt Link-Beziehungen direkt im HTTP-Header, nicht erst im HTML-<head>. Wir setzen pro Antwort zwei Pointer: Link: </sitemap-index.xml>; rel="sitemap" und Link: </llms.txt>; rel="describedby"; type="text/markdown". AI-Engines finden damit beim ersten Request die Sitemap und die kuratierte Übersicht, ohne zu raten.

3. /llms.txt ausliefern. Eine kurze Markdown-Datei nach dem llmstxt.org-Vorschlag: H1 plus Lead, alle Skills mit je einem Satz, die letzten Logbuch-Einträge mit Teaser, Kontakt. Genau das Format, das AI-Engines bevorzugt für Citations einsaugen, ohne die ganze Site crawlen zu müssen. Wir generieren die Datei zur Build-Zeit aus den Content-Collections, damit sie nie veraltet.

Drei weitere Schalter, die niemand auf dem Schirm hat

Wer mit den drei Hebeln fertig ist und gegen einen generischen Fetcher testet, bekommt fast immer noch ein zweites Problem: die benannten AI-Bots kommen durch, der Custom-Fetcher fliegt trotzdem raus. Erklärung sitzt eine Etage tiefer.

Bot Fight Mode (Security → Bots) ist Cloudflares zweite Verteidigungslinie. Er prüft UA-agnostisch über TLS-Fingerprint und HTTP/2-Header-Reihenfolge. ClaudeBot, GPTBot und PerplexityBot stehen auf Cloudflares Verified-Bots-Liste und kommen durch. Aber das web_fetch-Tool aus Claude Desktop, ChatGPT-Live-Search, Researcher-Crawler oder neue AI-Engines, die noch nicht registriert sind, fliegen raus. Für eine Marketing-Site, die maximal auffindbar sein will: ausschalten. Auf API- oder Backend-Domains gilt das Gegenteil.

Super Bot Fight Mode (Pro/Business) — feingranularere Variante davon, gleicher Effekt.

AI Labyrinth — neueres Feature, das verdächtigen Bots fingierte Seiten ausliefert. Charmante Idee, für die Citation-Mission das Gegenteil.

Vier Cloudflare-Defaults insgesamt, die jede Marketing-Site beim Aufsetzen einsammelt, ohne dass jemand sie bewusst aktiviert. Drei abschalten reicht für die benannten AI-Bots; alle vier, wenn auch Custom-Tools und unregistrierte AI-Engines durchkommen sollen.

Warum das jetzt zählt

AI Overviews erscheinen inzwischen bei rund 20 Prozent aller deutschen Keywords (SISTRIX, n=100 Mio. Keywords), und die Klickrate auf informationelle Treffer sinkt dabei um 12 bis 22 Prozent. Der Traffic wandert von der blauen Liste in die synthetisierte Antwort. Wer dort nicht als Quelle steht, verliert nicht Platz vier, sondern die Erwähnung.

Bing-Index ist der Crawl-Backbone für ChatGPT, Copilot und Perplexity, Googles AI Overviews ziehen aus dem klassischen Google-Index, Anthropic crawlt mit eigenen Bots für Citations. Wer in der ersten Welle der Antwort-Engines nicht zitiert wird, taucht in der zweiten meist auch nicht auf. Engines lernen, wem sie vertrauen.

Die drei Hebel sind in einem Nachmittag erledigt. Den gleichen Türsteher-Default finden wir bei Mittelständlern immer wieder auch im Marketing-Stack: Cloudflare ist Marktführer, aber Akamai, Fastly und Vercel haben äquivalente AI-Bot-Schalter. Wer eine Marketing-Site betreibt, sollte einmal nachsehen, was die Edge an AI-Crawler zurückgibt.

Triage-Quelle: isitagentready.com bündelt mehrere dieser Hebel. Den Link-Header-Vorschlag haben wir übernommen, den DNS-AID-Vorschlag (noch ein früher Entwurf) beobachtend zur Seite gelegt.

Häufige Fragen

Was ist `/llms.txt`?

Ein Vorschlag von llmstxt.org für eine kurze, maschinenlesbare Übersicht einer Website, explizit für AI-Engines gedacht. Nicht offizieller Standard, aber breit aufgegriffen. Wir liefern ihn unter https://kapio.eu/llms.txt aus.

Reichen die Cloudflare-Default-Einstellungen für eine Marketing-Site nicht?

Für klassische Suche ja. Für AI-Citation nein. Cloudflare schaltet seit 2024 mehrere AI-Bot-Schutz-Features per Default ein. Wer in ChatGPT, Claude oder Perplexity zitiert werden will, muss das aktiv prüfen.

Was bringt der Link-Header, wenn die Sitemap schon in robots.txt steht?

robots.txt wird einmalig gelesen, der Link-Response-Header steht auf jeder Antwort. AI-Engines folgen RFC 8288 und finden Sitemap plus /llms.txt sofort, ohne erst raten zu müssen.

stack

Kontakt

kapio ist ein Technologie-Studio aus Hamburg. Wir bauen Systeme, die laufen — und benutzt werden. Eine Architektur, kein Tool-Salat. Cloud oder selbst gehostet, anschlussfähig an das, was bei euch schon im Einsatz ist.

CRM · ERP · KI · Automation · Datenbanken

Pipedrive Authorized Partner · n8n · Claude · Seit 2021