robots.txt 的 5 个新手陷阱
一个字符写错的 robots.txt 能让整个站点从 Google 索引中消失。本文列出 5 个最常见的 robots.txt 陷阱
robots.txt 的 5 个新手陷阱(含真实业务损失案例)
robots.txt 是技术 SEO 里"最看似简单实则最危险"的文件。一个字符写错,整个站点可能从 Google 索引中消失。下面是过去几年我亲眼见过的 5 个 robots.txt 事故。
陷阱 1:开发上线时忘了改回 Disallow: /
典型场景:开发环境的 robots.txt 写的是 Disallow: / 屏蔽所有抓取(避免测试站被索引)。但部署到生产环境时这个文件忘了改。
真实案例:一家做了 5 年 SEO 的本地企业,新版网站上线后 3 周内整站从 Google 索引中消失。流量直接归零,等团队发现已经损失了月级别的潜在订单。
避免方法:
- 把 robots.txt 的部署作为发布 checklist 的第一项
- 用环境变量管理 robots.txt 内容,生产环境强制使用允许抓取版本
- 上线后立刻用 GSC URL Inspection 验证首页是否可被抓取
陷阱 2:屏蔽了 CSS / JS 路径
典型场景:为了"减少不必要抓取",把 /assets/、/static/、/wp-content/ 全部 Disallow。
真实案例:一家电商站点屏蔽了 CSS / JS 后,Google 抓取页面时无法渲染样式,把所有产品页判定为"页面布局异常",整站排名下滑 40%。
避免方法:
- 2014 年起 Google 明确要求 CSS / JS 必须可被抓取
- robots.txt 中不要 Disallow 任何 CSS / JS / image 路径
- 用 GSC 的 "Mobile-Friendly Test" 验证抓取效果——如果 Google 看到的页面缺样式,说明被屏蔽了
陷阱 3:用 robots.txt 屏蔽"私密"页面
典型场景:为了不让 Google 索引登录页、用户管理页、内部接口,在 robots.txt 中 Disallow: /admin/。
真实案例:这种做法不仅没用,还反向暴露——任何人查看你的 robots.txt 就能立刻看到你的私密路径列表。攻击者最爱看 robots.txt 找攻击目标。
避免方法:
- 真正私密的内容应该用密码保护 + meta noindex,而不是 robots.txt
- robots.txt 只用来管理抓取效率(如屏蔽抓取无意义的 /search? 参数),不用来管理"是否公开"
陷阱 4:路径匹配规则误解
典型场景:想屏蔽某个特定页面 /promo,结果误写 Disallow: /promo,导致 /promotions、/promo-codes、/promo-summer-2026 全被屏蔽。
真实案例:一家品牌网站想屏蔽过时的促销页 /sale,结果把所有 /sale* 的 URL 全屏蔽了,包括重要的 /sale-policies(用户权益政策页)。
避免方法:
- robots.txt 的路径匹配是前缀匹配——
/promo会匹配所有以 /promo 开头的 URL - 要精确匹配单个 URL 用
$锚定:Disallow: /promo$ - 修改 robots.txt 前用 Google 的 robots.txt Tester(在 GSC 旧版可用)测试规则
陷阱 5:多个 User-agent 规则的优先级搞错
典型场景:robots.txt 中写:
User-agent: *
Disallow: /private/
User-agent: Googlebot
Disallow: /
本意是"对所有爬虫屏蔽 /private/,对 Googlebot 完全屏蔽"。但实际效果是 Googlebot 完全无法抓取你的网站。
真实案例:开发外包按"我看其它站这样写"复制粘贴了一个错误的 robots.txt 模板,结果整站被 Google 移除索引 6 周。
避免方法:
- robots.txt 中每个 User-agent 是完全独立的规则——Googlebot 不会"继承"通用规则
- 多 User-agent 配置必须每个明确写出所有要 Allow / Disallow 的路径
- 除非你有非常具体的理由,不要给特定 User-agent 写独立规则
robots.txt 应该长什么样(推荐模板)
对绝大多数本地服务 / 电商 / 内容站点,推荐的 robots.txt 是:
User-agent: *
Allow: /
Disallow: /search?
Disallow: /cart
Disallow: /checkout/
Disallow: /account/
Disallow: /*?sort=
Disallow: /*?filter=
Sitemap: https://example.com/sitemap.xml
这个模板:
- 允许所有重要内容抓取
- 屏蔽对 SEO 无价值的搜索 / 购物车 / 账户路径
- 屏蔽过滤参数(避免抓取预算浪费)
- 明确告知 Sitemap 位置
定期检查清单
- 每月用 GSC URL Inspection 验证关键页面(首页 / 服务页 / 分类页)可被抓取
- 每季度用 Screaming Frog 抓取全站,对比"应被索引"和"实际被索引"的页面差异
- 每次发布或修改 robots.txt 后立刻在 GSC 的 robots.txt Tester 验证
- 记录每次 robots.txt 修改的时间和原因,方便回溯
结论与下一步
本文的核心要点:上面提到的每一项动作都不是孤立技巧,而是需要嵌入到「内容更新节奏 + 数据回看 + 内外部信号一致性」的系统里持续运行。延伸阅读:Schema.org 官方文档。
- 先用 1 小时按文中清单做一遍当前网站/GBP 自检,对照本地 SEO 服务排查可立即修复的高优先级问题。
- 30 天内安排一轮系统化执行,把Google 评价增长服务列出的复盘指标接入月度报告,让排名、流量、线索能用数据回看。
- 若仍判断不清优先级,技术 SEO 服务预约 SeoMata 团队一次 30 分钟诊断,我们会基于行业基准给出可执行路线图。
相关文章
本地服务企业的 Google Maps 排名提升清单
把"GBP 怎么做能上 Local Pack"这件事拆成 21 个可勾选动作,按"今天就能做 / 本周完成 / 本月推进"分组。不讲理论,只列动作。
技术 SEO为什么 90% 的服务型企业官网都漏掉了这 3 个 Sche
不是技术教程,是给老板看的"对话清单"——如果你的开发外包没做这 3 个 Schema,你的 SEO 已经在裸奔。
SEO首屏 5 秒:你的网站为什么留不住人
53% 的移动端访客在 3 秒等不到首屏就离开——这不是流量问题,是产品问题。本文拆解 3 个最常见的"5 秒流失"根因,每个都附可立刻验证的修复动作。
