首页 » 百度SEO » seo的年夜白话_白杨爬虫是什么白话说说SEO好同伙爬虫你真的理解吗

seo的年夜白话_白杨爬虫是什么白话说说SEO好同伙爬虫你真的理解吗

访客 2024-11-06 0

扫一扫用手机浏览

文章目录 [+]

图片

本文大纲:

seo的年夜白话_白杨爬虫是什么白话说说SEO好同伙爬虫你真的理解吗 seo的年夜白话_白杨爬虫是什么白话说说SEO好同伙爬虫你真的理解吗 百度SEO

1、爬虫是什么?反爬虫又是什么?

seo的年夜白话_白杨爬虫是什么白话说说SEO好同伙爬虫你真的理解吗 seo的年夜白话_白杨爬虫是什么白话说说SEO好同伙爬虫你真的理解吗 百度SEO
(图片来自网络侵删)

2、爬虫有哪些分类?

3、爬中流程与搜索引擎事情流程

4、http/https协议与状态码

5、robots协议

爬虫是什么?反爬虫又是什么?

这里的爬虫不是我们生活中的爬虫,如蜘蛛。
这里的爬虫更多指的是网络爬虫,即我们叫它网页蜘蛛或网络机器人。
当然,在SEO里,叫网页蜘蛛更多。

网络爬虫,是一种按照一定规则,自动地抓取互联网上的信息的一种程序。
他有一个英文名叫spider,比如百度网页蜘蛛就叫baiduspider,那搜狗的就叫Sogou spider。

这也是我们SEO职员做网站优化排名会听说的一个词。
网站为啥没收录呢?原来蜘蛛没来抓取!
如何看这个爬虫蜘蛛朋友来没来呢,让技能把网站日志***给我们,我们就可以判断了,你说算不算好朋友?

百度爬虫是什么?Baiduspider是啥?

Baiduspider是百度搜索引擎的一个自动程序,它的浸染是访问互联网上的网页,建立索引数据库,利用户能在百度搜索引擎中搜索到网站上的网页。
百度还有哪些蜘蛛呢?如下图。
最多是圈中这个,记得哈~

图片

反爬虫是什么?

我们以门户网站举例,企业网站也同理哈。
门户网站通过相应的策略和技能手段,防止爬虫程序进行网站数据的爬取,这就叫反爬虫。

当然,实在还有反反爬虫,即爬虫程序通过相应的策略和技能手段,破解了门户网站的反爬虫手段,从而爬取到相应的数据,这就叫反反爬虫。

再口语举例:你要来采集我的内容(爬虫),我不给你采并且我做防采集(反爬虫)。
你呢,又搞了更高技能把我防采集攻破了采集(反反爬虫),这样理解了吧?

爬虫有哪些分类?

爬虫统共就分两类:通用爬虫与聚焦爬虫。

通用爬虫:大略说便是尽可能的把网上的所有的网页***下来,放到做事器里再对这些网页做干系处理,末了给用户搜索用,常日指的搜索引擎爬虫。
比如:谷歌爬虫、百度爬虫、搜狗爬虫、360爬虫等。

聚焦爬虫:它是根据指定的需求抓取网络上指定网站的数据。
比如:获取知乎问答上的某一问题的浏览量和回答人数,而不是获取全体页面中所有数据。
它也可以理解叫特定爬虫。

上面提到的反爬虫与反反爬虫,基本上都是在反这种聚焦爬虫哈,你也可以理解为爬虫攻防战哈哈哈。

爬中流程与搜索引擎事情流程

爬虫一样平常事情流程:确定某个URL——发送要求——相应内容——提取数据——保存数据。

搜索引擎蜘蛛事情流程:爬取网页——存储数据——数据预处理——供应用户搜索网页排名。

是不是觉得难明得?发送要求是什么,相应内容又是什么?这个往下看HTTP协议与状态看完你就懂了。

关于搜索引擎数据预处理在处理什么,怎么理解?看公众年夜众号白杨SEO两年前写过这篇《白杨SEO:大口语见告你理解搜索引擎事情事理的意义和利用》,看完你就懂了。

http/https协议与状态码

HTTP协议是指Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网 WWW(World Wide Web缩写)做事器传输超文本到本地浏览器的传送协议。
默认端口号:80。

而HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议指的是HTTPS是在HTTP上建立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。
默认端口号:443。

你是不是理解不了这个HTTP到底什么东东?大略口语来说这个便是用来传输和吸收页面的,担保你的电脑能快速传输文本文档并且让你看到哈。

至于HTTP的要求头,相应头,都是各种代码,白杨SEO就不在这里写了,如果你要真的想理解,自己去搜索,这里只讲一下我们SEO中会看到的HTTP要求相应状态码,一样平常状态码如下:

图片

上面只假如2或者3开头都是好的,比如查白杨SEO博客的:

图片

图片

输入http://www.baiyangseo.com返回是301,而输入https://www.baiyangseo.com 返回的是200正常的你知道为什么吗?

实在,这在SEO里来说,是由于两个不同URL内容是千篇一律,为了让搜索引擎避免认为作弊,以是做了301永久重定向。
大略理解,你用不带s的HTTP那个域名打开便是这个带的了哈。

关于这个状态码,如果你想学习理解更深入一点,同样可以白杨SEO"大众号上这篇:《白杨SEO:SEO入门学习之搜索引擎蜘蛛与网站HTTP状态码》

robots协议

末了,来到针对搜索引擎网页蜘蛛robots协议了。
这个如果你是学SEO的,肯定要学的。

robots协议是什么?大略理解便是网站通过Robots协议见告搜索引擎,网站上哪些页面可以抓取,那些页面不能抓取!
但是,它仅仅是互联网中的一种约定而已。
以是有些人说我明明禁止XXX蜘蛛还是被抓取了哈哈哈。

它长啥样?到底有什么用?

图片

长啥样,如上图,浸染便是上面说的,在SEO里便是见告蜘蛛来爬我这里,一样平常每个站都会做这个,由于蜘蛛首先要爬取一个页面这个地方是最先爬取的,也会反复爬取。

不要问我为啥要给蜘蛛爬取,你做一个网站目的是啥,不便是要让蜘蛛爬取然后用户搜索的时候看到你带来流量吗?当然,你说我做网站只是用来存储我自己看除外哈哈哈。

作者简介:

白杨SEO,专注SEO研究十年,SEO、流量实战派,对互联网精准流量有深入研究。

标签:

相关文章

千万IT男跳楼,行业背后惊人真相!

关于“千万IT男跳楼”的事件频繁见诸报端,引起了社会各界的广泛关注。这一现象背后,究竟隐藏着怎样的行业真相?本文将带你揭开这个神秘...

百度SEO 2025-01-14 阅读0 评论0

半导体强势崛起,IT行业迎来新机遇!

半导体产业在我国迎来了前所未有的春天。作为信息技术的核心,半导体产业的崛起为我国IT行业带来了前所未有的发展机遇。本文将从半导体产...

百度SEO 2025-01-14 阅读0 评论0

华为IT体验店,未来智能生活新篇章!

人工智能、物联网、大数据等新技术逐渐融入我们的生活,为人们带来了前所未有的便捷和舒适。华为IT体验店应运而生,成为了开启未来智能生...

百度SEO 2025-01-14 阅读0 评论0