Blokkering av AI- crawlere er en umulig oppgave

Skrevet av Marie Linde Mayer | Aug 16, 2023 1:41:04 PM

AI og ChatGPT har vært på alles lepper lenge. I august annonserte OpenAI at det er mulig å blokkere deres crawlerbot fra å besøke en nettside. Dersom du ikke ønsker at ChatGPTs crawler skal besøke siden, din kan du nå plassere en disallow i din robots.txt fil. Dette er en tekstfil som forteller roboter hvordan de skal forholde seg til siden din. Det er for så vidt bra, men virker mangelfullt og gir for min del flere spørsmål enn svar på hvordan man skal forholde seg til fravalg av crawlere fra ChatGPT.

Jeg tror mange SEO-folk er skeptiske til at det bare blir tilbudt en disallowfunksjon. Det er ikke spesifisert at man kan sette en no indextag i kildekoden som forteller crawleren at den skal slette siden fra biblioteket sitt. Dette er en ufullstendig løsning dersom målet er å fjerne en nettside fra ChatGPTs indeks og sørge for at den ikke blir besøkt igjen.

Grunnen til at det virker mistenksomt er at du faktisk ikke forhindrer ChatGPT i å lese innholdet på siden din. Andre crawlere henter nemlig majoriteten av dataen ChatGPT trenger og gjør det tilgjengelig i store datasett. OpenAI har selv offentliggjort at de bruker både Common Crawl (offentlig tilgjengelig) og en selvlagd crawlinnsamling kalt Webtext2 (ikke offentlig tilgjengelig).

Kartet over internett – levert av Common Crawl

Et eksempel på dette er NGO’en Common crawl som samler store datasett om alt som ligger på nett. Dette er, rett og slett et kart over internett.

Om du ønsker å stenge ut Common Crawls bot kan du legge til dette i robots.txt filen din.

User-agent: CCBot

Disallow: /

Dette vil sørge for at Common Crawl ikke kommer innom siden din igjen. Men, sannsynligheten for at siden allerede eksisterer i Common Crawls datasett er veldig høy. Det vil si at siden din allerede eksisterer i datasettene som er offentlig tilgjengelig for alle med en internettfobindelse . Disse datasettene har blitt brukt for å trene opp flere versjoner av ChatGPT. Om du ønsker å fjerne siden din fra dette biblioteket, kan du i teorien gjøre det ved å legge inn en noindex-tag som som forteller Common Crawl at den må avindeksere siden din.

Nofollow taggen til CommonCrawl er:

ChatGPT egen crawl indeks - WebText2

Webtext2 er OpenAis egen crawlindex og består av deres egen innsamlede data. WebText2 skal være en samling av alle sider som ligger på siden Reddit med mer enn tre upvotes. Reddit gikk offentlig i april med at de vil ta seg betalt for at LLMs (Large Language Models) brukte dataen deres. Kanskje ikke så rart når de plutselig er en del av grunnmuren for en av de mest kjente generative AI-ene i verden. Det har sannsynligvis også krevd en del serverressurser å bli utsatt for denne crawlingen. Det er foreløpig ikke noen identifikasjon på crawleren til Webtext2. Med andre ord har du ikke mulighet for å sperre den ute.

Er det noen grunn til å bruke disallow for ChatGPT?

Det spørs helt hvordan du regner med at denne crawlingen kommer til å påvirke nettsiden din. Vanlige bekymringer kan være at du er redd for at ChatGPT skal overbelaste siden din. Da kan jeg berolige deg med at de fleste crawlere har ganske utmerkede metoder for å unngå at dette skjer. ChatGPT har vært gjennom veldig mange sider fra før, så man kan anta at de også bruker en teknologi som er skånsom.

Om du ikke ønsker at ChatGPT skal innom nettsiden din fordi du ikke vil dele informasjon, bør du også sørge for å blokkere Common Crawl- Men selv da tror jeg ikke du kan unngå å få besøk av teknologi som blir brukt av ChatGPT til å innhente data.

Denne bloggposten er skrevet av Marie Linde Mayer, seniorkonsulent teknisk SEO.

Vil du prate mer om AI, SGE eller SEO?
Ta gjerne kontakt med meg på mail.

Vis hele posten