AI 如何读取 GitHub

github.com 2026年6月6日 6 分钟阅读 尚未就绪
Short
18/ 100
AEO Level 1尚未就绪

▶ Watch this Short on YouTube

一句话结论

GitHub在我们的AEO扫描中得分18/100——这意味着AI代理和答案引擎几乎无法进入该平台的结构化入口点。尽管托管了数亿个存储库,但全球最大的开发者社区对自主AI代理几乎不可见。

AI 看到了什么?

当AI代理今天访问GitHub主页时,它会看到一个JavaScript密集的营销页面,几乎没有为机器读取设计的发现信号。

访问GitHub主页的AI爬虫收到的是一个主要由客户端渲染的shell。40分的结构化数据得分表明存在某些schema标记——很可能是组织身份标记——但20分的content_structure得分意味着实际页面内容对机器消费的分割很差。没有Link响应头指向代理API、MCP端点或面向代理的资源。robots.txt文件不包含GPTBot、ClaudeBot或PerplexityBot的每爬虫规则,因此AI代理在规则真空中运行。更严重的是,agent_interfaces得分为0:没有MCP服务器卡、在well-known路径没有API目录,也没有Markdown备选方案——所以偏好结构化摄取的代理无法找到任何切入点。

它在哪里丢分?

Agent interfaces是最弱的类别,得分0/100——对于其整个价值主张都是可编程、开发者驱动访问的平台来说,这是一个显著的差距。

智能体发现25 智能体接口0 身份与认证0 内容结构20 结构化数据40

该如何修复?

三个针对性的改变将弥补GitHub当前AEO态势与AI代理在与任何平台交互前期望的基线之间最重要的差距。

1

在robots.txt中声明AI爬虫规则

目标

为GPTBot、ClaudeBot、PerplexityBot和同类爬虫提供明确的权限规则,使它们清楚了解要索引哪些路径以及避免哪些路径。

问题

扫描结果显示任何主要AI爬虫都没有用户代理指令——每个bot都运行在为传统搜索引擎而非自主代理设计的通配符规则上。

修复

为GPTBot、ClaudeBot、PerplexityBot和OAI-SearchBot添加命名的User-agent块。在每个块下,Allow诸如/topics/、/explore/和公共存储库根等路径,同时Disallow认证API路由和私有端点。

2

发布MCP服务器卡

目标

通过在规范的well-known路径上提供机器可读的MCP服务器卡来将GitHub注册为可发现的代理工具,以便代理能够自动发现并针对其功能进行身份验证。

问题

/.well-known/mcp/server-card.json上没有提供任何内容,因此通过Model Context Protocol自动发现工具的AI代理无法找到GitHub官方维护的MCP服务器。

修复

使用serverInfo(名称、版本、描述)提供/.well-known/mcp/server-card.json,一个指向GitHub MCP服务器的传输端点,以及列出存储库、问题、拉取请求和代码搜索的功能——服务器已经存在,卡片只是使其自动可发现。

3

发布RFC 9727 API目录

目标

公开机器可读的GitHub REST和GraphQL API索引,使代理能够发现并调用它们,而不仅仅依赖训练数据。

问题

/.well-known/api-catalog上没有提供资源,使代理无法通过标准RFC 9727机制以编程方式发现GitHub广泛的API表面。

修复

将/.well-known/api-catalog作为application/linkset+json提供,其中包含REST API v3基础、GraphQL端点和Copilot Extensions API的条目,每个条目按照RFC 9727包含anchor、rel、type和title字段,以便代理可以在运行时解析功能。

常见问题

为什么GitHub尽管有大规模的公开API,但AEO得分仅为18/100?
拥有API与在AI代理首先查看的地方宣传API不同。GitHub的REST和GraphQL API对人类开发者有详尽的文档,但在机器发现端点——robots.txt信号、/.well-known/api-catalog和MCP服务器卡——上缺失,这些是自主代理在尝试与平台交互之前查阅的。
GitHub的低AEO得分是否意味着AI助手无法访问存储库数据?
不完全是。在知识截断之前在GitHub公开数据上训练的AI助手可以从记忆中回答问题。然而,实时代理访问——AI在实时任务中自主发现、验证和调用GitHub API——因为AEO扫描测量的机器发现基础设施缺失而受到严重影响。
GitHub最快能做的单项改进来提升其AEO得分是什么?
在robots.txt中添加明确的AI爬虫指令会立即提升agent_discovery得分,并向每个主要AI系统发出信号,表明GitHub积极管理其索引态势。它不需要代码部署——仅需robots.txt编辑——并在Perplexity、ChatGPT搜索和Claude中解锁更好的引用资格。

你自己的网站为 AI 做好准备了吗?

对任意网址运行同样的五类别分析。免费,开始无需注册。

免费检测你的网站