robots.txt, 30년 후: 웹의 탄생부터 AI 시대까지
웹에서 이렇게 오래도록 건재한 것들은 많지 않습니다. robots.txt는 웹 사이트가 수천 개에 불과하던 1994년에 탄생한 단순한 텍스트 파일입니다. 30년이 지난 지금도 웹과 그것을 탐색하는 로봇 사이의 최전선 대화 수단으로 남아 있습니다. 그 역사는 어느 의미에서 인터넷이 자신을 크롤링하는 기계들과 공존하는 법을 배워온 이야기입니다.
신사 협정
이 프로토콜은 엔지니어 Martijn Koster가 1994년에 제안했습니다. 잘못 설정된 크롤러가 서버를 마비시킨 사건이 계기였습니다. 아이디어는 단순하고 우아했습니다. 사이트 루트에 /robots.txt 파일을 두고, 소유자가 봇에게 어떤 부분을 방문해도 되고 어떤 부분은 안 되는지 알려주는 것입니다. 기술적 차단이 아니라 신사 협정이었습니다. 예의 바른 봇은 자발적으로 이를 따릅니다.
관행에서 공식 표준으로
약 30년간 robots.txt는 모두가 따르지만 어떤 기관도 공식화하지 않은 사실상의 관행으로 기능했습니다. 그 흐름이 바뀐 것은 2022년 9월, IETF가 RFC 9309, 즉 Robots Exclusion Protocol을 발표했을 때입니다. Google이 주도적으로 이끈 이 작업으로, 업계가 당연시하던 규칙들이 마침내 공식적이고 명확하게 문서화되었습니다.
동작 원리
기본 메커니즘은 거의 바뀌지 않았습니다.
User-agent는 규칙이 적용될 봇을 지정합니다.Disallow와Allow는 차단하거나 허용할 경로를 표시합니다.- 와일드카드(
*와$)를 지원하며, 더 구체적인 규칙이 우선합니다. Sitemap은 사이트맵 위치를 알려줍니다.
단순하고, 읽기 쉽고, 이식성이 높습니다. 어떤 서버에서든, 규칙을 따르는 모든 봇에 대해 동일하게 작동합니다.
AI 시대의 도전
가장 큰 시험은 AI 크롤러의 등장과 함께 왔습니다. 최근 몇 년간 robots.txt에는 GPTBot, ClaudeBot, Google-Extended, PerplexityBot 같은 새로운 이름들이 가득 채워졌습니다. 콘텐츠 발행자들이 자신의 콘텐츠를 모델 학습이나 답변 생성에 사용할 수 있는 주체를 결정하려 했기 때문입니다. 1994년의 프로토콜은 의도치 않게 AI와 저작권 논쟁의 전장이 되었습니다.
한계는 여전히 존재한다
robots.txt가 아닌 것을 기억하는 것이 중요합니다. 기술적으로 아무도 차단하지 않습니다. 악의적인 봇은 완전히 무시할 수 있습니다. 민감한 콘텐츠를 보호하지도 않습니다. 그것은 인증과 서버 권한 설정의 역할입니다. 다른 사이트가 해당 페이지를 링크하고 있다면 색인화되지 않는다는 보장도 없습니다. robots.txt는 의도 표명이지 장벽이 아닙니다.
Spider가 도움이 되는 이유
30년이 지난 지금도 핵심 질문은 같습니다. 내 규칙이 내가 의도한 대로 작동하고 있는가? Spider.es는 각 봇이 robots.txt를 해석하는 방식 그대로 분석하여, Googlebot부터 최신 AI 크롤러까지 100개 이상의 크롤러에 대해 웹사이트의 각 부분에 누가 접근할 수 있는지 명확하게 보여줍니다. 이렇게 오래된 표준을 제대로 활용하는 가장 좋은 방법은 자신의 robots.txt가 올바르게 작성되어 있는지 확인하는 것입니다.