Sitemap 和 robots.txt 是网站与搜索引擎爬虫交互的两个关键文件,二者作用不同但相辅相成,共同影响网站的抓取与收录效率。

🧱 一、robots.txt 是什么?

robots.txt 是一个放在网站根目录的纯文本文件,用于告诉搜索引擎爬虫哪些网页可以被抓取、哪些不可以。

  • 📍 位置:https://example.com/robots.txt
  • 🎯 主要作用:管理爬虫抓取权限
  • 🛠️ 常用规则:

    User-agent: *
    Disallow: /admin/
    Allow: /public/
  • 🚫 可用于:

    • 限制爬虫访问后台或敏感目录
    • 节省服务器资源
    • 防止未公开页面被搜索引擎收录

📚 更多参考:Google 官方 robots.txt 指南


🗺️ 二、sitemap 是什么?

Sitemap(站点地图) 是一个列出网站所有重要页面链接的文件,帮助搜索引擎更高效地理解网站结构。

  • 📍 常见格式:sitemap.xml
  • 🎯 主要作用:告诉搜索引擎网站结构与重要页面
  • 📋 可以包含:

    • 页面 URL
    • 最后更新时间(<lastmod>
    • 更新频率(<changefreq>
    • 优先级(<priority>

示例:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page1</loc>
    <lastmod>2025-10-20</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

🧩 sitemap 可以是 XML、TXT 或 RSS 格式,但 XML 最为主流。


🔗 三、robots.txt 与 sitemap 的关系

两者并非独立存在,而是可以相互配合使用

  • robots.txt 中可以通过以下语句指定站点地图位置:

    Sitemap: https://example.com/sitemap.xml
  • 这样做的好处:

    • 让搜索引擎更快发现并读取 sitemap
    • 提升爬取效率与收录准确度
    • 是 SEO 的最佳实践之一

✅ 四、总结对比

项目robots.txtsitemap.xml
作用控制爬虫抓取权限告诉搜索引擎网站结构
文件类型纯文本XML(或其他格式)
主要功能允许或禁止访问提供页面索引
典型位置网站根目录根目录或其他可访问路径
SEO 作用限制无关抓取提升收录效率
是否关联可在 robots.txt 中引用 sitemap被 robots.txt 指定路径

🧩 五、配合使用建议

  • ✅ 保持 robots.txt 可被访问
  • ✅ 在 robots.txt 中声明 sitemap 路径
  • ✅ 确保 sitemap 定期更新
  • ✅ 不要在 robots.txt 中屏蔽 sitemap 自身
  • ✅ 可通过 Google Search Console 提交 sitemap

🔗 参考资料

  1. CSDN:什么是robots.txt?
  2. CSDN:Sitemap原理
  3. InboundMarketing:robots.txt SEO优化指南
  4. Reddit:为什么要在robots.txt中包含sitemap?
  5. Google Search Blog:robots.txt规则说明
  6. Adobe Commerce 文档
  7. Google 官方文档
  8. 站长帮:sitemap详解
  9. Optimizely 文档:robots.txt 与 sitemap 优化