llms.txt: AI 모델이 내 웹사이트를 제대로 이해하게 하는 표준
거의 30년 동안 두 파일이 검색 엔진에게 웹사이트를 어떻게 처리할지 알려주는 역할을 해왔습니다. robots.txt는 접근 권한을 제어하고, sitemap.xml은 URL을 발견하게 합니다. 그런데 언어 모델의 등장으로 이 둘 중 어느 것도 해결하지 못하는 빈틈이 드러났습니다. 바로 "AI에게 내 사이트에서 어떤 콘텐츠가 중요하고, 메뉴·스크립트·광고에 파묻히지 않고 어떻게 읽어야 하는지를 어떻게 설명할 것인가"라는 문제입니다. llms.txt는 바로 이 질문에 답하려는 시도입니다.
llms.txt란 무엇인가
llms.txt는 도메인 루트에 https://yourdomain.com/llms.txt 경로로 배치하는 Markdown 형식의 파일입니다. Answer.AI의 공동 창업자 Jeremy Howard가 2024년 9월에 처음 제안했습니다. 목표는 AI 모델에게 가장 관련성 높은 콘텐츠를 선별되고, 깔끔하며, 계층화된 형태로 제공하는 것입니다.
이 파일이 해결하는 문제는 구체적입니다. 현대의 HTML 페이지는 내비게이션, 배너, JavaScript, 쿠키 팝업 등 노이즈로 가득 차 있고, 모델의 컨텍스트 윈도우는 제한되어 있습니다. AI에게 날것의 HTML로 문서를 이해하라고 요청하는 것은 비효율적입니다. llms.txt는 대신 실제로 중요한 페이지들을 링크한 Markdown 인덱스를 제공합니다.
구조는 어떻게 되나
형식은 의도적으로 단순합니다.
- 프로젝트 또는 사이트 이름이 담긴
H1헤딩. - 무엇인지, 누구를 위한 것인지 설명하는 요약 단락.
- 핵심 페이지로 연결되는 Markdown 링크 목록이 담긴 섹션들. 각 링크에는 AI가 해당 페이지에서 무엇을 찾을 수 있는지 짧은 메모가 붙습니다.
또한 llms-full.txt라는 변형도 있는데, 이는 콘텐츠에 링크만 하는 것이 아니라 전체 내용을 같은 파일에 포함시킵니다. 모델이 한 번에 모두 소비할 수 있도록 설계된 형식입니다.
robots.txt도 sitemap.xml도 아니다
혼동하기 쉽지만 각각의 역할이 다릅니다.
- robots.txt는 누가 접근할 수 있고 어떤 경로에 접근할 수 있는지 결정합니다. 권한 제어입니다.
- sitemap.xml은 검색 엔진이 모든 URL을 빠짐없이 발견할 수 있도록 돕습니다. 기계가 읽기 위한 XML 형식입니다.
- llms.txt는 차단하거나 모든 것을 나열하지 않습니다. 중요한 것을 사람과 모델 모두가 읽을 수 있는 형식으로 추천하고 맥락을 제공합니다.
다시 말해, robots.txt는 문을 만들고, sitemap.xml은 건물의 완전한 도면을 건네주며, llms.txt는 어느 층으로 가야 하는지 직접 알려주는 안내원입니다.
실제 채택 현황은
솔직히 말하면, llms.txt는 IETF 같은 공식 기관이 인증한 표준이 아니라 점점 더 많은 지지를 받고 있는 커뮤니티 제안입니다. 이미 수많은 기술 문서 프로젝트가 이를 게시하고 있으며, 다양한 사이트의 llms.txt 파일을 수집하는 디렉터리도 생겨났습니다. 그러나 주요 모델 제공업체들은 학습 또는 추론 중에 이를 확실히 소비한다고 공식 확인한 바 없습니다. 오늘 이것을 도입하는 것은 비용이 낮고 보상 가능성이 있는 도전이지, 마법 같은 해결책이 아닙니다.
직접 만드는 방법
사이트가 작다면 5분 안에 직접 작성할 수 있습니다. 웹을 크롤링하고 초안을 제안해주는 생성기를 활용할 수도 있습니다. 핵심부터 시작하세요. 문서, 제품 페이지, 그리고 여러분이 하는 일을 가장 잘 설명하는 글들이 그것입니다. 짧게 유지하고, 콘텐츠가 바뀌면 함께 업데이트하세요.
Spider와의 연결
llms.txt는 문제의 능동적 절반을 해결합니다. AI에게 여러분이 제공하는 것입니다. 나머지 절반은 수동적입니다. 실제로 어떤 AI 크롤러가 사이트에 접근하고 있는지, robots.txt가 그들에게 접근을 허용하는지 파악하는 것입니다. 여기서 Spider.es가 역할을 합니다. 도메인을 100개 이상의 봇(GPTBot, ClaudeBot, PerplexityBot, Google-Extended 포함)과 대조 분석하여 봇별로 누가 크롤링할 수 있는지 보여줍니다. llms.txt를 게시하고 Spider로 크롤 가능성을 확인하는 것, 이 두 가지가 AI 시대를 위한 하나의 전략의 양면입니다.