扫码关注公众号
想象一下,你的网站就像一座大房子,而搜索引擎的爬虫就像来访的客人。Robots.txt就是你家门口的"告示牌",告诉这些客人哪些房间可以进,哪些房间谢绝参观。配置错误,可能让重要内容无法被收录,或暴露不该公开的信息!
惊人数据:2024年AI爬虫流量激增305%!如果你不主动管理,你的网站内容可能正在被各种AI训练模型"免费使用"。
对于不同类型的网站运营者,Robots.txt的重要性体现在:
1企业网站
保护内部系统、员工信息、测试环境不被搜索引擎收录
2电商网站
避免大量重复页面(如筛选结果)浪费爬虫预算,确保重要商品页优先收录
3博客/内容站
屏蔽低质量页面(如搜索结果页),让高质量文章获得更多曝光机会
Robots.txt是一个简单的文本文件,必须放在网站根目录。例如:
https://www.example.com/robots.txt
重要提醒:
文件名必须是"robots.txt"(全小写),不能是"Robots.txt"或"ROBOTS.TXT"!
2024年10月,Google明确表示只支持4个指令,其他所有指令都会被忽略:
User-agent | ||
Disallow | ||
Allow | ||
Sitemap |
User-agent: * # 允许所有公开内容 Allow: / # 屏蔽管理后台 Disallow: /admin/ Disallow: /wp-admin/ Disallow: /login/ # 屏蔽测试环境 Disallow: /test/ Disallow: /dev/ # 屏蔽内部文档 Disallow: /internal/ Disallow: /private/ # 指定网站地图 Sitemap: https://example.com/sitemap.xml
核心原则:屏蔽无限参数组合,保护用户隐私,优化爬虫预算
User-agent: * # 允许产品和分类页面 Allow: /products/ Allow: /categories/ # 屏蔽用户相关页面 Disallow: /cart/ Disallow: /checkout/ Disallow: /account/ # 关键:屏蔽参数页面 Disallow: /*?sort= Disallow: /*?filter= Disallow: /*?page= Sitemap: https://shop.com/sitemap.xml
错误示例
User-agent: * Disallow: /
后果:整个网站被屏蔽,无法被搜索引擎收录!
正确示例
User-agent: * Disallow: /private/ Allow: /
效果:只屏蔽私密目录,其他内容正常收录
据统计,2024-2025年间,AI爬虫流量增长了305%!包括GPTBot、Claude-Web、Perplexity等。许多网站开始主动屏蔽这些AI爬虫,保护自己的内容版权。
# 屏蔽OpenAI的GPTBot User-agent: GPTBot Disallow: / # 屏蔽Google的AI训练爬虫 User-agent: Google-Extended Disallow: / # 屏蔽其他常见AI爬虫 User-agent: ChatGPT-User Disallow: / User-agent: Claude-Web Disallow: /
数据图表:2024-2025 AI爬虫流量增长趋势
展示GPTBot、Claude等主要AI爬虫的访问量变化
1登录Google Search Console
2选择"设置" → "robots.txt测试工具"
3输入要测试的URL,查看是否被屏蔽
截图:Google Search Console robots.txt测试工具界面
标注各个功能区域和操作步骤
配置完成后,请逐项检查:
Robots.txt是公开的!任何人都可以通过访问 yoursite.com/robots.txt 查看。所以千万不要在其中暴露敏感路径信息。
最后,robots.txt配置需要根据网站发展不断调整。建议每季度检查一次,确保配置仍然符合当前需求。特别是在网站改版、添加新功能或发现异常爬虫活动时,要及时更新配置。