全部分析

AI 如何读取 GitHub

github.com 2026年6月6日 6 分钟阅读尚未就绪

Short

18/ 100

AEO Level 1尚未就绪

▶ Watch this Short on YouTube

一句话结论

GitHub在我们的AEO扫描中得分18/100——这意味着AI代理和答案引擎几乎无法进入该平台的结构化入口点。尽管托管了数亿个存储库，但全球最大的开发者社区对自主AI代理几乎不可见。

AI 看到了什么？

当AI代理今天访问GitHub主页时，它会看到一个JavaScript密集的营销页面，几乎没有为机器读取设计的发现信号。

访问GitHub主页的AI爬虫收到的是一个主要由客户端渲染的shell。40分的结构化数据得分表明存在某些schema标记——很可能是组织身份标记——但20分的content_structure得分意味着实际页面内容对机器消费的分割很差。没有Link响应头指向代理API、MCP端点或面向代理的资源。robots.txt文件不包含GPTBot、ClaudeBot或PerplexityBot的每爬虫规则，因此AI代理在规则真空中运行。更严重的是，agent_interfaces得分为0：没有MCP服务器卡、在well-known路径没有API目录，也没有Markdown备选方案——所以偏好结构化摄取的代理无法找到任何切入点。

GitHub主页如AI代理所见——JavaScript密集的营销表面，没有Link头或代理发现信号

GitHub的robots.txt现状——仅通配符规则，没有GPTBot、ClaudeBot或PerplexityBot的命名指令

它在哪里丢分？

Agent interfaces是最弱的类别，得分0/100——对于其整个价值主张都是可编程、开发者驱动访问的平台来说，这是一个显著的差距。

该如何修复？

三个针对性的改变将弥补GitHub当前AEO态势与AI代理在与任何平台交互前期望的基线之间最重要的差距。

在robots.txt中声明AI爬虫规则

目标

为GPTBot、ClaudeBot、PerplexityBot和同类爬虫提供明确的权限规则，使它们清楚了解要索引哪些路径以及避免哪些路径。

问题

扫描结果显示任何主要AI爬虫都没有用户代理指令——每个bot都运行在为传统搜索引擎而非自主代理设计的通配符规则上。

修复

为GPTBot、ClaudeBot、PerplexityBot和OAI-SearchBot添加命名的User-agent块。在每个块下，Allow诸如/topics/、/explore/和公共存储库根等路径，同时Disallow认证API路由和私有端点。

发布MCP服务器卡

目标

通过在规范的well-known路径上提供机器可读的MCP服务器卡来将GitHub注册为可发现的代理工具，以便代理能够自动发现并针对其功能进行身份验证。

问题

/.well-known/mcp/server-card.json上没有提供任何内容，因此通过Model Context Protocol自动发现工具的AI代理无法找到GitHub官方维护的MCP服务器。

修复

使用serverInfo（名称、版本、描述）提供/.well-known/mcp/server-card.json，一个指向GitHub MCP服务器的传输端点，以及列出存储库、问题、拉取请求和代码搜索的功能——服务器已经存在，卡片只是使其自动可发现。

发布RFC 9727 API目录

目标

公开机器可读的GitHub REST和GraphQL API索引，使代理能够发现并调用它们，而不仅仅依赖训练数据。

问题

/.well-known/api-catalog上没有提供资源，使代理无法通过标准RFC 9727机制以编程方式发现GitHub广泛的API表面。

修复

将/.well-known/api-catalog作为application/linkset+json提供，其中包含REST API v3基础、GraphQL端点和Copilot Extensions API的条目，每个条目按照RFC 9727包含anchor、rel、type和title字段，以便代理可以在运行时解析功能。

常见问题

为什么GitHub尽管有大规模的公开API，但AEO得分仅为18/100？

拥有API与在AI代理首先查看的地方宣传API不同。GitHub的REST和GraphQL API对人类开发者有详尽的文档，但在机器发现端点——robots.txt信号、/.well-known/api-catalog和MCP服务器卡——上缺失，这些是自主代理在尝试与平台交互之前查阅的。

GitHub的低AEO得分是否意味着AI助手无法访问存储库数据？

不完全是。在知识截断之前在GitHub公开数据上训练的AI助手可以从记忆中回答问题。然而，实时代理访问——AI在实时任务中自主发现、验证和调用GitHub API——因为AEO扫描测量的机器发现基础设施缺失而受到严重影响。

GitHub最快能做的单项改进来提升其AEO得分是什么？

在robots.txt中添加明确的AI爬虫指令会立即提升agent_discovery得分，并向每个主要AI系统发出信号，表明GitHub积极管理其索引态势。它不需要代码部署——仅需robots.txt编辑——并在Perplexity、ChatGPT搜索和Claude中解锁更好的引用资格。

你自己的网站为 AI 做好准备了吗？

对任意网址运行同样的五类别分析。免费，开始无需注册。

免费检测你的网站