防止百度，360等搜索引擎抓取/收录网站的方法总汇

更新日期: 2017-12-26 阅读: 5k 标签: 索引分享

搜索引擎的蜘蛛spider会不断爬行互联网数据，如果网站没有做出防止搜索引擎抓取的操作，就很容易被搜索引擎收录，这篇文章主要讲解如何防止百度，360等搜索引擎收录网站内容。

方法一：robots.txt

搜索引擎的蜘蛛spider在访问网站的时候，首先会检查该网站的根域下是否存在有 robots.txt的纯文本文件，这个文件的作用是用来告诉spider在您网站上的抓取范围。

User-agent:*表示和所有搜索引擎协议适用；
Disallow:/表示禁止抓取收录全站。

User-agent: *
Disallow: /

User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /admin/

禁止所有的搜索引擎访问css、js、admin目录。如果您的网站设置了robots.txt文件，如果在搜索结果中出现您网站的相关信息，那搜索结果中展示的一般是其他网站对您相关网页的描述。

<head>与</head>之间设置meta:

<meta name="robots" content="noarchive">

通过这样设置就可以禁止搜索引擎抓取网站并显示网页快照。要允许其他搜索引擎显示快照，但仅防止百度显示，请使用以下标记：

<meta name="Baiduspider" content="noarchive">

在服务器端判断访问来源，如果是蜘蛛的IP直接404或者阻止它访问即可。

如果后面加了禁止代码，但是搜索引擎还可以搜索出来，因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要数月时间才会清除。

本文内容仅供个人学习、研究或参考使用，不构成任何形式的决策建议、专业指导或法律依据。未经授权，禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载，请保留原文来源信息，不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持！

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!