首页 » 搜狗SEO » githubpage百度seo_解决百度爬虫无法爬取 Github Pages 小我博客的问题

githubpage百度seo_解决百度爬虫无法爬取 Github Pages 小我博客的问题

访客 2024-10-16 0

扫一扫用手机浏览

文章目录 [+]

百度爬虫被谢绝访问

然而,2015年,由于一些不能细说的缘故原由,Github 开始谢绝百度爬虫的访问,直接返回 403。

githubpage百度seo_解决百度爬虫无法爬取 Github Pages 小我博客的问题 githubpage百度seo_解决百度爬虫无法爬取 Github Pages 小我博客的问题 搜狗SEO

官方给出缘故原由是,百度爬虫爬得太狠,影响了 Github Page 做事的正常利用。
这就导致了,但凡在 Github Page 搭建的个人博客,都无法被百度收录。

githubpage百度seo_解决百度爬虫无法爬取 Github Pages 小我博客的问题 githubpage百度seo_解决百度爬虫无法爬取 Github Pages 小我博客的问题 搜狗SEO
(图片来自网络侵删)

自去年年底佛罗里达之行回来,我开始写中文游记,目前为止,Google 收录非常及时全面,SEO 效果也很不错。
但如果只有国外的中文读者可以搜索到这些文章,那海内这最大的一批中文读者就被忽略了,再好的内容无法被分享出去也是白搭。

于是,我开始捣鼓如何让百度爬虫收录我的个人博客。

CDN 办理不了问题

我在网上粗略搜了一番,不少人提到 CDN,然而,CDN 无法完美办理问题,尤其对小流量的个人博客。

传送门:什么是 CDN。

先说结论,CDN 无法完美办理问题,尤其对小流量的个人博客。

事理上来讲,CDN 办理了末了一公里的资源分发,如果海内的 CDN 做事器有博客的静态文件,那百度爬虫访问时直接从 CDN 节点上爬取资源,Github 源站谢绝访问的问题自然就不存在了。

但是,问题就出在 CDN 节点上。
第一次访问时,CDN 上的缓存还未建立,爬虫的要求会被转发到 Github 源站,由于转发要求默认携带了百度爬虫的UA 还有原始 IP,GitHub 创造后会直接谢绝。

有些人会说,海内有些 CDN 厂商支持主动缓存预热(老本行 ),但缓存是有失落效韶光的,expired 之后,还是得回源。
对付流量小的个人博客,想让资源一贯缓存在 CDN 节点上,不现实,新写的文章怎么发布?修正的文章怎么更新?

当然,如果 CDN 节点回源时能够不带上客户端 User Agent,Github 便认不出这是正常访问还是百度爬虫了。
这个方法是可行的,很多人提到了用 Nginx 反向代理,然后 override forward IP,这确实可以乱来过去。
只不过,这些方法都须要一定的定制能力,如果是个人开拓者,还得买一台 VPS 或者云做事器。

Coding Pages 做镜像站

海内 coding.net 现在也有了类似于 GitHub Pages 的做事:Coding Pages。

在博客静态文件 repo 的配置中同时加上 Github 和 coding.net 的 remote 地址,这样一键发布,两地更新。
加上域名智能解析,对付海内的要求,转发到 Coding Page 即可。

可惜的是,现在 .coding.me 和 .coding.io 访问时会先涌现跳转页面,导致百度爬虫无法正常收录。

有没有大略、可靠还免费的方法?

答案是,有!

前段韶光逛 Twitter,看到大神 Guillermo Rauch 的一篇文章 2019 in Review,顺便就去看了他们创业正在做的产品,zeit.co,供应的正是免费的静态资源 hosting 做事。

抱着试试的心态,我随着官网文档,不到十分钟就配完了,用百度爬虫一抓,200!

写这篇博客的时候刚好一周,从百度站长上看,文章正在逐步被收录。

实在 zeit.co 的事理跟上述几个思路类似,实质上他们供应了 Storage + CDN + DNS 这一套完全做事。
根据他们的文档,全体过程我只须要:

用我的 Github 账户上岸,给了 zeit 我的静态网页 repo 的 read 权限等几秒,importing支配成功!

不用写任何 code,点两下鼠标就完事了。
支配完成后,会天生一个类似于 xxxxxxx.now.sh 的链接,点击即可访问,静态资源已经支配到了他们的边缘 CDN 节点上。

到了这一步,接下来须要做的便是切换域名,通过智能 DNS 把海内流量切过去。

不过,为了省事,我决定直接放弃 GitHub Page 供应的 CDN 功能,原来的一套技能栈是 GitHub + GitHub Pages(Fastly CDN)+ Default DNS,如果 zeit 能够供应足够智能的 CDN 和 DNS 做事,没有必要中间套两层 CDN,新的技能栈变成了 GitHub + zeit Smart CDN + zeit Smart DNS。
一旦有新的文件 submit 到 GitHub,zeit 就能自动触发更新,这跟 GitHub Pages 是一样的。

于是,我把自定义域名到 Github Page 的 CNAME 记录,换成 zeit.co 供应的 *** 和 CNAME 记录(***记录用来验证)。

后来,我创造更好的做法是,直接用 zeit 供应的 nameserver 智能 DNS,测下来解析比域名自带的免费 DNS 效果还要好。
下图是他们的 CDN 节点分布,中国附近***和喷鼻香港都有节点,海内访问该当速率不会太慢。

除了以上提到的这些,zeit 还供应了一些小 feature,比如免费的 HTTPS,基本GitHub Pages 有的 zeit 都有。
对付免用度户,每个月流量限额是20G,这点对我来说已经远够用了。

Disclamer: 我没有收 zeit 任何推广费,纯粹是慕大神之名而来。
PS: 百度站长里 sitemap 提交了快一周,才收录了 11 篇文章,这速率真是慢。

标签:

相关文章

DLL修复,介绍系统稳定性背后的关键技术

软件系统在人们的工作和生活中扮演着越来越重要的角色。由于软件本身的复杂性和外部环境的多样性,系统崩溃、运行缓慢等问题时常困扰着用户...

搜狗SEO 2025-01-05 阅读0 评论0

DLL修复,守护电脑健康的利器

Windows操作系统已成为我国用户的主流选择。在享受便捷的电脑生活的我们也不得不面对各种DLL错误。DLL(Dynamic Li...

搜狗SEO 2025-01-05 阅读0 评论0

DLL修复,破解系统疑难杂症的利器

在计算机使用过程中,DLL(Dynamic Link Library)文件作为系统的重要组成部分,承担着连接应用程序和系统资源的重...

搜狗SEO 2025-01-05 阅读0 评论0