Seomata SEO
技术 SEO7 min2026 年 4 月 3 日

robots.txt 的 5 个新手陷阱

一个字符写错的 robots.txt 能让整个站点从 Google 索引中消失。本文列出 5 个最常见的 robots.txt 陷阱

robots.txt 的 5 个新手陷阱(含真实业务损失案例)

robots.txt 的 5 个新手陷阱
SeoMata · technical|robots-txt-five-rookie-pitfalls

robots.txt 是技术 SEO 里"最看似简单实则最危险"的文件。一个字符写错,整个站点可能从 Google 索引中消失。下面是过去几年我亲眼见过的 5 个 robots.txt 事故。

陷阱 1:开发上线时忘了改回 Disallow: /

典型场景:开发环境的 robots.txt 写的是 Disallow: / 屏蔽所有抓取(避免测试站被索引)。但部署到生产环境时这个文件忘了改。

真实案例:一家做了 5 年 SEO 的本地企业,新版网站上线后 3 周内整站从 Google 索引中消失。流量直接归零,等团队发现已经损失了月级别的潜在订单。

避免方法

  • 把 robots.txt 的部署作为发布 checklist 的第一项
  • 用环境变量管理 robots.txt 内容,生产环境强制使用允许抓取版本
  • 上线后立刻用 GSC URL Inspection 验证首页是否可被抓取

陷阱 2:屏蔽了 CSS / JS 路径

典型场景:为了"减少不必要抓取",把 /assets//static//wp-content/ 全部 Disallow。

真实案例:一家电商站点屏蔽了 CSS / JS 后,Google 抓取页面时无法渲染样式,把所有产品页判定为"页面布局异常",整站排名下滑 40%。

避免方法

  • 2014 年起 Google 明确要求 CSS / JS 必须可被抓取
  • robots.txt 中不要 Disallow 任何 CSS / JS / image 路径
  • 用 GSC 的 "Mobile-Friendly Test" 验证抓取效果——如果 Google 看到的页面缺样式,说明被屏蔽了

陷阱 3:用 robots.txt 屏蔽"私密"页面

典型场景:为了不让 Google 索引登录页、用户管理页、内部接口,在 robots.txt 中 Disallow: /admin/

真实案例:这种做法不仅没用,还反向暴露——任何人查看你的 robots.txt 就能立刻看到你的私密路径列表。攻击者最爱看 robots.txt 找攻击目标。

避免方法

  • 真正私密的内容应该用密码保护 + meta noindex,而不是 robots.txt
  • robots.txt 只用来管理抓取效率(如屏蔽抓取无意义的 /search? 参数),不用来管理"是否公开"

陷阱 4:路径匹配规则误解

典型场景:想屏蔽某个特定页面 /promo,结果误写 Disallow: /promo,导致 /promotions/promo-codes/promo-summer-2026 全被屏蔽。

真实案例:一家品牌网站想屏蔽过时的促销页 /sale,结果把所有 /sale* 的 URL 全屏蔽了,包括重要的 /sale-policies(用户权益政策页)。

避免方法

  • robots.txt 的路径匹配是前缀匹配——/promo 会匹配所有以 /promo 开头的 URL
  • 要精确匹配单个 URL 用 $ 锚定:Disallow: /promo$
  • 修改 robots.txt 前用 Google 的 robots.txt Tester(在 GSC 旧版可用)测试规则

陷阱 5:多个 User-agent 规则的优先级搞错

典型场景:robots.txt 中写:

User-agent: *
Disallow: /private/

User-agent: Googlebot
Disallow: /

本意是"对所有爬虫屏蔽 /private/,对 Googlebot 完全屏蔽"。但实际效果是 Googlebot 完全无法抓取你的网站。

真实案例:开发外包按"我看其它站这样写"复制粘贴了一个错误的 robots.txt 模板,结果整站被 Google 移除索引 6 周。

避免方法

  • robots.txt 中每个 User-agent 是完全独立的规则——Googlebot 不会"继承"通用规则
  • 多 User-agent 配置必须每个明确写出所有要 Allow / Disallow 的路径
  • 除非你有非常具体的理由,不要给特定 User-agent 写独立规则

robots.txt 应该长什么样(推荐模板)

对绝大多数本地服务 / 电商 / 内容站点,推荐的 robots.txt 是:

User-agent: *
Allow: /
Disallow: /search?
Disallow: /cart
Disallow: /checkout/
Disallow: /account/
Disallow: /*?sort=
Disallow: /*?filter=

Sitemap: https://example.com/sitemap.xml

这个模板:

  • 允许所有重要内容抓取
  • 屏蔽对 SEO 无价值的搜索 / 购物车 / 账户路径
  • 屏蔽过滤参数(避免抓取预算浪费)
  • 明确告知 Sitemap 位置

定期检查清单

  1. 每月用 GSC URL Inspection 验证关键页面(首页 / 服务页 / 分类页)可被抓取
  2. 每季度用 Screaming Frog 抓取全站,对比"应被索引"和"实际被索引"的页面差异
  3. 每次发布或修改 robots.txt 后立刻在 GSC 的 robots.txt Tester 验证
  4. 记录每次 robots.txt 修改的时间和原因,方便回溯

结论与下一步

本文的核心要点:上面提到的每一项动作都不是孤立技巧,而是需要嵌入到「内容更新节奏 + 数据回看 + 内外部信号一致性」的系统里持续运行。延伸阅读:Schema.org 官方文档

  1. 先用 1 小时按文中清单做一遍当前网站/GBP 自检,对照本地 SEO 服务排查可立即修复的高优先级问题。
  2. 30 天内安排一轮系统化执行,把Google 评价增长服务列出的复盘指标接入月度报告,让排名、流量、线索能用数据回看。
  3. 若仍判断不清优先级,技术 SEO 服务预约 SeoMata 团队一次 30 分钟诊断,我们会基于行业基准给出可执行路线图。

更多 SeoMata 服务可在服务总览查看,也欢迎通过联系页与团队直接沟通。

相关文章

准备好让您的业务实现同样的增长了吗?

获取免费 SEO 诊断,了解您的网站在本地搜索中的现状,以及最快能看到效果的行动步骤。