推广 热搜: 优化  广告  百度  服务  排名  设备  账号  项目    生活服务 

使用CloudFlare后如何才能不影响搜索引擎蜘蛛爬虫

   日期:2024-12-27     作者:vy2x6    caijiyuan  
核心提示:今天,给大家再次详细讲解一下,在使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫对站点的抓取,因为这是

今天,给大家再次详细讲解一下,在使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫对站点的抓取,因为这是很多首次使用 CloudFlare 的站长们容易忽略和触犯的问题,并不是 CloudFlare 不友好,而是 CloudFlare 的防火墙(WAF)实在是太给力。

使用CloudFlare后如何才能不影响搜索引擎蜘蛛爬虫

目前,我发现到的 CloudFlare 影响搜索引擎爬虫的只有两个地方,理论上只要这两个地方配置好了,任何搜索引擎爬虫都是可以畅通无阻的来你的站点抓取的,并且每次来访蜘蛛爬虫都可以在 CloudFlare 后台【安全性】——【事件】里看到记录的,如下图所示

在【安全性】——【事件】里明月还能看到谷歌、必应、神马搜索、搜狗、360 等等国内外的主流搜索引擎爬虫,唯一要做的就是在站点接入 CloudFlare 并所有地区 DNS 解析已经生效后,下面两点后台配置即可

1、关闭 SSL/TLS 里的【随机加密】

在 CloudFlare 后台的【SSL/TLS】里有一个【随机加密】的开关,其主要目的是让浏览器知道您的站点通过加密连接提供,从而让它们从 HTTP/2 的性能改进中受益。浏览器将继续在地址栏中显示http,而不是https。这个【随机加密】目前国内主流搜索引擎都不支持,尤其是百度爬虫,所以一定要关闭这个开关,否则就会造成百度爬虫抓取网页失败

国外的谷歌、必应都是支持这个【随机加密】的,如果不想让百度爬虫抓取你的网页也可以利用这个来限制百度爬虫。总之,就是灵活运用了,但一般明月是建议大家关闭的。

2、WAF 里创建放行爬虫规则(必须

这个是很多新手站长们使用 CloudFlare 容易忽略的地方,CloudFlare 默认 WAF 理论上是不会拦截爬虫的,但国内部分爬虫对 robots.txt 遵守不完全,加上 IP 不固定等等因素就会造成被 CloudFlare 的默认 WAF 误拦截,所以明月强烈建议大家要在 CloudFlare 的 WAF 里单独创建一个放行爬虫的规则来以防万一,在 CloudFlare 后台【安全性】——【WAF】里创建规则,具体规则配置如下所示

这里的有区别于【CloudFlare 如何让合法搜索引擎蜘蛛爬虫正常抓取】一文里第一个字段变更为已知自动程序了,无论是合法机器人爬虫还是已知自动程序其实指的都是搜索引擎爬虫,只是称谓变更而已,这里使用的意思是来访爬虫是已知的爬虫程序,注意后面的值就是勾选(意思是判断为是)。然后是And下一个条件威胁分数小于或者等于 60 分,结合到一起的意思就是来访爬虫是已知合法自动爬虫并且威胁分数小于等于 60 分的请求,这里的威胁分数是 CloudFlare 大数据里的评分,只要是合法搜索引擎爬虫威胁分数都不会高于 60 分的。当然你也可以设定更高,但基于安全考虑,明月的经验是 60 分足够了。

满足上述两个条件后就是下面要采取的措施了,一般我们都是选择跳过的,具体跳过什么如下图所示

这里大家可以根据自己的安全需要灵活勾选,上图的仅仅是适合明月自己站点的,仅供参考,理论上全部勾选也是可以的,大家根据自己需要勾选就是了。不推荐无脑照抄,因为站点情况是不一样的,只能是根据需要来选择。

至此,你的 CloudFlare 已经对所有合法的搜索引擎爬虫完全开放了,还具备了对恶意、垃圾爬虫的自动拦截屏蔽。并且还可以根据自己站点的实际需求,灵活的向爬虫、UA、IP 区域等等设定开放条件。总之,CloudFlare 强大的就是其自由灵活的按需配置,唯一的瑕疵就是免费版的 CloudFlare 只能设置 5 条 WAF 规则,不过,对于一般的站点来说是绰绰有余。

此外我这里准备了详细的Python资料,除了为你提供一条清晰的学习路径,我甄选了最实用的学习资源以及庞大的实例库。短时间的学习,你就能够很好地掌握爬虫这个技能,获取你想得到的数据。

我们把Python的所有知识点,都穿插在了漫画里面。

本文地址:http://dgaty.xhstdz.com/xwnews/767.html    物流园资讯网 http://dgaty.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类生活信息

文章列表
相关文章
最新动态
推荐图文
生活信息
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号