解锁你的网站给 AI：llms.txt 标准详解
为什么需要 `llms.txt`？目的与益处
剖析 `llms.txt`：结构与关键组件
`/llms.txt` 的内容格式
我的博客
博客文章
其他页面
Optional
`/llms-full.txt` 的内容格式
创建和部署 `llms.txt` 文件
在 AI 中使用 `llms.txt`
`llms.txt` 工具与实际案例
维护有效的 `llms.txt` 文件
总结：面向 AI 的网络内容新范式

解锁你的网站给 AI：llms.txt 标准详解

大型语言模型（LLMs）堪称人类知识的聚合体，但其知识库通常截止于训练数据的时间点。为了让 LLMs 能够更精确地解决实时问题（例如代码生成、研究辅助），我们需要让它们有效利用最新的网络信息。然而，标准 HTML 网页充满了导航栏、JavaScript、CSS 及其他对 LLM 理解内容非必需的元素。这些冗余信息不仅会挤占 LLM 有限的上下文窗口，还会干扰处理效率。直接让 LLM 抓取和解析完整 HTML 效率低下。

为了应对这些挑战，llms.txt 应运而生。这是一个正在讨论中的标准（参见 llms-txt.org），旨在通过一个简洁、标准的 Markdown 文件，为 LLM 提供网站内容的专业概述。你可以将 llms.txt 想象成一个网站的“AI 指南”，引导 AI 系统快速定位关键信息，并以易于解析的结构化格式呈现。

为什么需要 `llms.txt`？目的与益处

当使用具备搜索功能的 LLM，或通过 API 将搜索结果喂给不具备搜索能力的 LLM 时，传统的网站内容是为人类视觉优化的。它包含了大量无关的视觉元素（CSS 样式、动画）和交互功能（JavaScript），且核心主题往往不够明确，这给 LLM 的理解带来了巨大障碍。我们需要一种更面向 AI 的内容检索方式。

llms.txt 就是这个解决方案。它是一个放置在网站根目录下的文本文件，核心目标是向 LLM 提供结构化的、机器可读的信息，帮助它们在推理时更高效地利用网站内容。

与我们熟知的 robots.txt（面向搜索引擎爬虫）和 sitemap.xml（列出可索引页面）不同，llms.txt 专为 AI 推理引擎优化。它通过提供 AI 易于处理的内容结构，解决了 AI 在理解网页时遇到的挑战。

文件名	目的	目标受众	格式
`robots.txt`	控制搜索引擎爬虫对网站的访问	搜索引擎	文本
`sitemap.xml`	列出网站上所有可索引的页面	搜索引擎	XML
`llms.txt`	为大型语言模型提供结构化的内容概述	大型语言模型	Markdown

llms.txt（虽然尚在提议阶段）标志着向 AI 优先的内容策略转变。随着 AI 在网络内容消费中扮演越来越重要的角色，为 AI 的理解进行优化，将变得和为人类用户及搜索引擎优化同等重要。

网站所有者也能从中获益：

提高可见性：AI 聊天机器人更有可能引用提供了 llms.txt 文件的网站。
潜在排名优势：优化良好的 llms.txt 文件可能在 AI 驱动的搜索体验中获得更好的可见性、排名和可发现性。

剖析 `llms.txt`：结构与关键组件

llms.txt 标准目前定义了两种文件类型：

/llms.txt：提供网站内容的精简导航视图。它像一个目录，通过链接和简短描述，帮助 AI 快速理解网站结构和关键内容分布。
/llms-full.txt：包含所有文档内容的综合性文件。它将网站的所有相关文本内容整合到一个大型 Markdown 文件中，供 AI 进行深入处理。通常体积较大。

这种双文件设计允许网站所有者根据内容量和使用场景，灵活选择提供给 LLM 的信息粒度。大型文档站可以用 /llms.txt 提供快速导航，同时用 /llms-full.txt 提供完整原始内容。

`/llms.txt` 的内容格式

/llms.txt 文件必须遵循特定的 Markdown 语法和结构：

一级标题 (#)：以网站或项目名称开头。
可选的块引用 (>)：紧随标题后，用一到三句话简要描述项目。
二级标题 (##)：用于组织内容区块，例如 ## 文档, ## 示例, ## 主要产品 等。
列表项：在二级标题下，使用无序列表 (-) 列出链接及其描述，格式为：- [文档名称](URL): 简短描述。这里的 URL 最好是指向对应内容的 Markdown 文件（如果可用），或者等效的网页。
可选资源 (## Optional)：可以包含一个 ## Optional 区块，用于放置次要链接。当 AI 的上下文长度受限时，可以优先忽略此部分。其他如“隐私政策”等也可作为单独的二级区块。

以下是一个简单的 /llms.txt 示例：

# 我的博客
> 这是我的博客，用来记录一些个人感兴趣的内容。

## 博客文章
- [什么是 llms.txt](https://example.com/article-1.md): 介绍什么是 llms.txt 以及它的主要特性
- [从监督学习到强化学习](https://example.com/article-2.md): 回顾和比较训练 LLM 时的主流学习方法和变迁过程

## 其他页面
- [关于我](https://example.com/about/index.html.md): 介绍博客站点作者：简单的生平和其他著作。
- [许可证](http://example.com/license/index.html.md): 描述网站内容的许可证信息

## Optional
- [GitHub 源码](https://github.com/example): 网站源代码

这种结构化的 Markdown 格式确保 LLM 可以轻松解析内容和层级。Markdown 清晰的语法（标题、列表、链接）为 AI 模型提供了一致且易于处理的格式，减少歧义，提高信息提取效率。

`/llms-full.txt` 的内容格式

/llms-full.txt 的格式更为直接：它是一个包含所有相关文档内容的单一、全面的 Markdown 文件。

它应整合网站的所有文档或核心文本内容。
为了优化 AI 处理效率，建议移除文件中非必要的 HTML 标记、脚本和样式信息。最简单的方法通常是将所有源 Markdown 文件合并，生成这个大型内容文件。

/llms-full.txt 为 LLM 提供了对完整内容的直接访问，无需导航。这对于需要深入理解所有可用信息的任务（例如，技术产品文档问答）非常有价值。

创建和部署 `llms.txt` 文件

创建文件：按照上述格式创建 /llms.txt 和/或 /llms-full.txt 文件。
放置文件：将它们放置在网站的根目录下，确保证其可以通过互联网公开访问。这与 robots.txt 和 sitemap.xml 的存放方式一致，简化了 LLM 的发现过程。
（可选）配置 HTTP Header：可以在服务器配置中添加 X-Robots-Tag: llms-txt HTTP Header。这个 Header 可以向 LLM 发出明确信号，表明网站提供了 llms.txt 文件。虽然不是强制要求，但有助于标准推广。

可以使用浏览器扩展（如 llms.txt Checker）来验证网站是否正确部署了 llms.txt。

在 AI 中使用 `llms.txt`

与主动爬取网络的搜索引擎不同，目前大多数 LLM 不会自动发现和索引 llms.txt 文件（毕竟该标准尚在发展初期）。因此，我们需要手动将文件内容提供给 AI 系统：

提供链接：对于能访问互联网的 AI，可以直接提供 /llms.txt 或 /llms-full.txt 文件的 URL。
复制粘贴：对于不能访问互联网的 AI，可以将 /llms.txt 的内容直接复制粘贴到提示（Prompt）中。
文件上传：如果 AI 工具支持文件上传功能，可以直接上传 .txt 文件。

随着标准的普及，未来 AI 系统可能会发展出自动发现和利用 llms.txt 的能力，类似于搜索引擎处理 robots.txt 和 sitemap.xml 的方式。

值得注意的是，一些工具和平台已经开始集成 llms.txt 支持。例如：

Cursor 等 AI 编程助手允许用户添加和索引第三方文档（包括 /llms-full.txt），并在聊天中将其用作上下文。
llms.txt Hub 等网站提供了 llms.txt 文件的发现和检索服务。

这些早期采用表明了 llms.txt 的潜在价值。随着更多 AI 工具和平台的支持，其采用率和实用性有望显著提高。尽早适配可能有助于你的网站内容在 AI 时代占据一席之地。

`llms.txt` 工具与实际案例

现有多种工具可以帮助生成 llms.txt 文件，简化采纳过程：

工具名称	描述	生成方法	参考链接
`llmstxt` by dotenv	开源命令行工具	基于 `sitemap.xml`	https://github.com/dotenvx/llmstxt
`llmstxt` by Firecrawl	使用 Firecrawl 爬虫生成	抓取网站内容	https://llmstxt.firecrawl.dev/
Mintlify	文档平台	自动生成	https://mintlify.com/
MarkItDown by Microsoft	内容转换为 Markdown	手动转换网页内容	https://github.com/microsoft/markitdown
Reader API (SLM) by Jina AI	内容转换为 Markdown	手动转换网页内容	https://jina.ai/reader/
LLMs.txt Generator	WordPress 插件	自动创建和管理	https://wordpress.org/plugins/llms-txt-generator/

当然，这个领域仍有许多机会。为你喜欢的网站内容生成工具（如静态网站生成器、CMS）添加 llms.txt 支持，或许是参与这个标准建设的好途径。

许多知名网站已经开始实施 llms.txt 标准。你可以在 llms.txt Hub 上找到许多示例，包括：

这个标准非常适合帮助 LLM 在上下文中索引技术文档和 API 参考。如果你的网站也实现了 llms.txt，不妨将其提交到 llms.txt Hub，让更多人发现它！

维护有效的 `llms.txt` 文件

为了确保 llms.txt 的有效性，定期更新至关重要：

保持同步：当网站结构或重要内容发生变化时，务必更新 llms.txt 文件。使用自动化工具生成和更新是最佳实践。过时的 llms.txt 文件可能会误导 LLM，适得其反。
精简 /llms.txt：在 /llms.txt 文件中，应优先包含最重要的资源，将次要内容放在 ## Optional 部分。保持简洁是关键。
优化 /llms-full.txt：对于 /llms-full.txt，移除不必要的标记和脚本，专注于核心内容，以提高 AI 的处理效率。

总结：面向 AI 的网络内容新范式

采用 llms.txt 标准为 LLM 和网站所有者都带来了显著优势。对 LLM 而言，它提供了结构化、易于理解的内容概述，提高了信息检索的效率和准确性。对网站所有者而言，它可以提高在 AI 平台上的可见性，优化资源利用，并可能带来潜在的 SEO 优势（在 AI 搜索场景下）和用户信任度提升。

llms.txt 代表着向 AI 优先文档策略的转变。正如曾经的 SEO 对搜索引擎至关重要一样，在不久的将来，拥有 AI 可读的内容也将变得举足轻重。随着越来越多的网站采用该标准，相信新的工具和最佳实践会不断涌现。

llms.txt 为帮助 AI 系统更好地理解和利用网络内容（尤其是技术文档和 API）提供了一个切实可行的解决方案。通过提供对机器友好数据的确定性访问，llms.txt 有望降低 AI 应用的延迟、提高准确性，并使组织能够站在 LLM 优化网络的前沿。随着 AI 与网络的融合不断加深，llms.txt 很可能成为一个日益重要的网络标准。

目录

目录

解锁你的网站给 AI：llms.txt 标准详解

为什么需要 `llms.txt`？目的与益处

剖析 `llms.txt`：结构与关键组件

`/llms.txt` 的内容格式

`/llms-full.txt` 的内容格式

创建和部署 `llms.txt` 文件

在 AI 中使用 `llms.txt`

`llms.txt` 工具与实际案例

维护有效的 `llms.txt` 文件

总结：面向 AI 的网络内容新范式

推荐阅读

Claude Code 最佳实践：提升编码效率的技巧与工作流

LoopAgents - 多 Agent 协作的智能对话知识库系统

OpenAI 智能体构建实用指南 | 模型、工具与最佳实践

4款免费开源中文语音克隆工具推荐（支持普通话+多语言+情感控制）