防止百度,360等搜索引擎抓取/收录网站的方法总汇
搜索引擎的蜘蛛spider会不断爬行互联网数据,如果网站没有做出防止搜索引擎抓取的操作,就很容易被搜索引擎收录,这篇文章主要讲解如何防止百度,360等搜索引擎收录网站内容。
方法一:robots.txt
User-agent:*表示和所有搜索引擎协议适用;
Disallow:/表示禁止抓取收录全站。
禁止所有内容:
User-agent: *
Disallow: /禁止访问网站的所有部分:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /admin/禁止所有的搜索引擎访问css、js、admin目录。如果您的网站设置了robots.txt文件,如果在搜索结果中出现您网站的相关信息,那搜索结果中展示的一般是其他网站对您相关网页的描述。
方法二:网页代码方法
<head>与</head>之间设置meta:
<meta name="robots" content="noarchive">通过这样设置就可以禁止搜索引擎抓取网站并显示网页快照。要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="Baiduspider" content="noarchive">方法三:判断访问来源
在服务器端判断访问来源,如果是蜘蛛的IP直接404或者阻止它访问即可。
备注:
如果后面加了禁止代码,但是搜索引擎还可以搜索出来,因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。
本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!