Cloudflare와 pay per crawl: 웹사이트와 AI 봇 사이의 새로운 긴장

20년간 웹을 지탱해온 암묵적 합의는 단순했습니다. 검색 엔진이 콘텐츠를 크롤링하는 대신, 방문자를 돌려보내 주었습니다. AI 크롤러는 이 약속을 깼습니다. 모델 학습과 사용자 질문에 직접 답변하기 위해 크롤링하면서도 원래 출처로 트래픽을 돌려보내지 않는 경우가 많습니다. 2025년 7월, 인터넷 트래픽의 상당 부분을 중개하는 Cloudflare가 개입을 결정했습니다.

기본 차단

Cloudflare는 네트워크에 새로 합류하는 도메인에 대해 AI 크롤러를 기본적으로 차단하기 시작했습니다. 각 봇을 일일이 찾아 차단하는 대신, 이제 사이트 소유자가 AI 기업이 콘텐츠에 접근하는 것을 허용할지 명시적으로 결정합니다. 이는 철학의 전환입니다. "차단하지 않으면 모두 허용"에서 "허용하지 않으면 모두 차단"으로 바뀐 것입니다.

pay per crawl이란 무엇인가

가장 야심 찬 움직임은 베타로 출시된 pay per crawl(크롤링당 결제)입니다. 퍼블리셔가 AI 기업에게 콘텐츠 접근 비용을 청구할 수 있는 시장을 만드는 것이 핵심 아이디어입니다. 기술적으로는 거의 아무도 사용하지 않던 HTTP 코드인 402 Payment Required를 활용합니다. AI 크롤러가 페이지를 요청하면 서버가 402와 조건을 응답할 수 있고, AI 기업이 결제에 동의하면 접근이 허용됩니다.

소규모 퍼블리셔가 각 AI 연구소와 개별 계약을 협상하지 않고도 AI 크롤링을 수익화할 수 있는 수단이 생긴 것은 이번이 처음입니다.

퍼블리셔에게 어떤 의미인가

콘텐츠를 게시하는 사람에게 이것은 세 가지 선택지를 엽니다.

  • 무료 허용: 클릭이 돌아오지 않더라도 AI 답변에서의 가시성에 베팅합니다.
  • 차단: 콘텐츠를 학습 데이터로 사용되거나 출처 표시 없이 인용되는 것을 막습니다.
  • 수익화: 모델이 여러분의 작업으로 창출하는 가치의 일부를 포착하려 합니다.

보편적인 정답은 없습니다. 뉴스 미디어, 쇼핑몰, 개인 블로그는 각자 전혀 다른 동기를 가집니다.

합리적인 의문들

비판적인 시각으로 살펴볼 필요가 있습니다. 이 시스템은 크롤러가 자신을 정직하게 식별할 때만 작동합니다. user-agent를 위장하거나 Cloudflare 외부에서 크롤링하는 봇은 제어에서 벗어납니다. 대형 AI 연구소들이 보편적으로 결제할지도 불분명하고, 가격 책정 방식도 아직 정해지지 않았습니다. 여전히 진화 중인 시장의 첫 번째 움직임이지, 완성된 시스템이 아닙니다.

robots.txt는 여전히 기본이다

pay per crawl은 Cloudflare 대시보드에서 관리하지만, robots.txt를 대체하지는 않습니다. 보완할 뿐입니다. robots.txt 파일은 CDN 제공업체와 무관하게, 어떤 봇을 수용하는지에 대한 공개적이고 이식 가능한 선언으로 계속 유효합니다. 수익화하거나 차단하기 전에, 현재 설정이 어떻게 되어 있는지 정확히 파악하는 것이 중요합니다.

Spider가 어떻게 도움이 되나

AI 봇을 허용할지, 차단할지, 아니면 요금을 청구할지 결정하려면 먼저 봇들이 여러분의 웹사이트를 방문할 때 무엇을 보는지 알아야 합니다. Spider.es는 GPTBot, ClaudeBot, PerplexityBot, Google-Extended 등 주요 AI 크롤러를 대상으로 도메인을 분석하고, robots.txt와 헤더 설정이 각각의 접근을 허용하는지 하나씩 보여줍니다. Cloudflare 설정을 변경하기 전에 근거 있는 결정을 내리기 위한 출발점입니다.

블로그 목록으로 돌아가기