什么是Robots?怎么写robots.txt?Robots的误区有什么呢?
本文最后更新于 157 天前,其中的信息可能已经有所发展或是发生改变。

大家在各大搜索引擎上搜索到的内容,都是被这些搜索引擎派出的爬虫获取到,经过特定的算法,筛选、过滤才展现出来的。这些爬虫来到对应的网站后,第一件事就是检查该站点的根目录下,是否创建了一个名为robots.txt的文件。如果有,就会按照该站点下robots.txt中的规定进行爬取,如果没有,则会按照默认规则抓取网页。
那么,屏幕前的你知道什么是Robots协议吗?robots.txt又该怎么写呢?Robots的误区有什么呢?下面就跟随笔者的脚步一起来探索Robots吧!

一、什么是Robots协议?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”,robots.txt是搜索引擎查看该网站第一个访问的目标。如果有不想被抓取到的内容,如死链、后台地址、联系方式、重复的页面、隐私等就可以通过Robots协议来告诉搜索引擎可以抓取的部分和不能抓取的部分。

二、robots.txt该怎么写?

下面是关于Robots的一些语法:

User-agent:指对该规则生效的爬虫,*号代表全部搜索引擎。
Disallow:不允许抓取的页面
Allow:允许抓取的页面
#:可以当注释使用
如果你的网站内有的部分不想被任何搜索引擎抓取,你就可以在robots.txt内输入以下代码:
User-agent:*
Disallow:/目录

如果整个网站都不想被爬取,那就可以把Disallow内的值改为/
Robots协议中是支持通配符*

三、Robots的误区

网页内所有文件都需要抓取,我可以不添加robots.txt。
这种想法是错误的。蜘蛛第一个访问的就是robots.txt,如果文件不存在,蜘蛛访问就会被告知404,增长抓取时间的同时还会上报抓取错误,服务器内也会产生404的日志。为了避免这一情况出现,我们要在网站根目录下添加robots.txt文件,并调整出适应网站的规则。

转自:无名氏

文章采用 署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可
暂无评论

发送评论 编辑评论


|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇