AI 如何读取 GitHub
GitHub在我们的AEO扫描中得分18/100——这意味着AI代理和答案引擎几乎无法进入该平台的结构化入口点。尽管托管了数亿个存储库,但全球最大的开发者社区对自主AI代理几乎不可见。
AI 看到了什么?
当AI代理今天访问GitHub主页时,它会看到一个JavaScript密集的营销页面,几乎没有为机器读取设计的发现信号。
访问GitHub主页的AI爬虫收到的是一个主要由客户端渲染的shell。40分的结构化数据得分表明存在某些schema标记——很可能是组织身份标记——但20分的content_structure得分意味着实际页面内容对机器消费的分割很差。没有Link响应头指向代理API、MCP端点或面向代理的资源。robots.txt文件不包含GPTBot、ClaudeBot或PerplexityBot的每爬虫规则,因此AI代理在规则真空中运行。更严重的是,agent_interfaces得分为0:没有MCP服务器卡、在well-known路径没有API目录,也没有Markdown备选方案——所以偏好结构化摄取的代理无法找到任何切入点。



它在哪里丢分?
Agent interfaces是最弱的类别,得分0/100——对于其整个价值主张都是可编程、开发者驱动访问的平台来说,这是一个显著的差距。
该如何修复?
三个针对性的改变将弥补GitHub当前AEO态势与AI代理在与任何平台交互前期望的基线之间最重要的差距。
在robots.txt中声明AI爬虫规则
为GPTBot、ClaudeBot、PerplexityBot和同类爬虫提供明确的权限规则,使它们清楚了解要索引哪些路径以及避免哪些路径。
扫描结果显示任何主要AI爬虫都没有用户代理指令——每个bot都运行在为传统搜索引擎而非自主代理设计的通配符规则上。
为GPTBot、ClaudeBot、PerplexityBot和OAI-SearchBot添加命名的User-agent块。在每个块下,Allow诸如/topics/、/explore/和公共存储库根等路径,同时Disallow认证API路由和私有端点。
发布MCP服务器卡
通过在规范的well-known路径上提供机器可读的MCP服务器卡来将GitHub注册为可发现的代理工具,以便代理能够自动发现并针对其功能进行身份验证。
/.well-known/mcp/server-card.json上没有提供任何内容,因此通过Model Context Protocol自动发现工具的AI代理无法找到GitHub官方维护的MCP服务器。
使用serverInfo(名称、版本、描述)提供/.well-known/mcp/server-card.json,一个指向GitHub MCP服务器的传输端点,以及列出存储库、问题、拉取请求和代码搜索的功能——服务器已经存在,卡片只是使其自动可发现。
发布RFC 9727 API目录
公开机器可读的GitHub REST和GraphQL API索引,使代理能够发现并调用它们,而不仅仅依赖训练数据。
/.well-known/api-catalog上没有提供资源,使代理无法通过标准RFC 9727机制以编程方式发现GitHub广泛的API表面。
将/.well-known/api-catalog作为application/linkset+json提供,其中包含REST API v3基础、GraphQL端点和Copilot Extensions API的条目,每个条目按照RFC 9727包含anchor、rel、type和title字段,以便代理可以在运行时解析功能。
常见问题
为什么GitHub尽管有大规模的公开API,但AEO得分仅为18/100?
GitHub的低AEO得分是否意味着AI助手无法访问存储库数据?
GitHub最快能做的单项改进来提升其AEO得分是什么?
你自己的网站为 AI 做好准备了吗?
对任意网址运行同样的五类别分析。免费,开始无需注册。
免费检测你的网站