网络蜘蛛是什么意思(网络蜘蛛搜索)- 灵感-灵感网

　　蜘蛛网是一个非常生动的名字。把互联网比作蜘蛛网，蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛通过其链接地址搜索网页，从某个页面(通常是第一页)开始，读取网页的内容，在网页中找到其他链接地址，然后通过这些链接地址搜索下一个网页，如此循环往复，直到该网站的所有网页都被爬网。如果把整个互联网看成一个网站，那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。

　　对于搜索引擎来说，几乎不可能抓取互联网上的所有网页。根据公布的数据，容量最大的搜索引擎只能抓取整个网页的40%左右。原因一方面是爬行技术的瓶颈，不能遍历所有网页，很多网页无法从其他网页的链接中找到；另一个原因是存储技术和处理技术的问题。如果每个页面的平均大小是20K(包括图片)，那么100亿个网页的容量是1002000G字节。即使可以存储，下载也有问题(如果一台机器每秒下载20K，需要340台机器连续下载一年所有网页)。同时，由于数据量太大，在提供搜索时也会对效率产生影响。所以很多搜索引擎的web蜘蛛只抓取那些重要的网页，抓取时评价重要性的主要依据是一个网页的链接深度。

　　在抓取网页时，web蜘蛛一般有两种策略：广度优先和深度优先。

　　广度优先是指蜘蛛首先抓取起始页中的所有链接页面，然后选择其中一个链接页面，继续抓取该页面中的所有链接页面。这是最常用的方法，因为这种方法可以使网络蜘蛛并行处理，提高它们的爬行速度。

　　深度优先是指蜘蛛会从起始页开始，一次跟踪一个链接，处理完这条路线再翻到下一个起始页，继续跟踪链接。这种方法的一个优点是更容易设计网络蜘蛛。下图将更清楚地解释这两种策略的区别。

　　因为不可能抓取所有网页，所以有些网络蜘蛛会设置层数来访问一些不太重要的网站。比如上图，A是起始网页，属于0层，B、C、D、E、F属于1层，G、H属于2层，I属于3层。如果蜘蛛网设置的访问层数为2，则不会访问我的网页。这也使得一些网站上的一些网页可以在搜索引擎上搜索，而另一些则无法搜索。对于网站设计师来说，扁平化的网站结构设计有助于搜索引擎抓取更多页面。

　　web蜘蛛在访问网页时，经常会遇到关于加密数据和网页权限的问题，有些网页需要成员权限才能访问。当然，网站的所有者可以让网络蜘蛛不要通过协议(下一节描述)进行抓取，但是对于一些销售报告的网站，他们希望搜索引擎可以搜索到他们的报告，但是不能让搜索者完全看到，所以需要为网络蜘蛛提供相应的用户名和密码。Web蜘蛛可以通过给定的权限抓取这些网页，从而提供搜索。当搜索者点击查看网页时，还要求搜索者提供相应的权限验证。灵感

—— 灵感网(LingGan.Vip)-用灵感点燃我的创作！

售后服务范围	1、商业模板使用范围内问题免费咨询
	2、源码安装、模板安装（一般 ¥50-300）服务答疑仅限SVIP用户
	3、单价超过200元的模板免费一次安装，需提供服务器信息。

付费增值服务	1、提供dedecms模板、WordPress主题、discuz模板优化等服务请详询在线客服
	2、承接 WordPress、DedeCMS、Discuz 等系统建站、仿站、开发、定制等服务

	3、服务器环境配置（一般 ¥50-300）
	4、网站中毒处理（需额外付费，500元/次/质保三个月）
售后服务时间	周一至周日（法定节假日除外） 9:00-23:00
免责声明	本站所提供的模板（主题/插件）等资源仅供学习交流，若使用商业用途，请购买正版授权，否则产生的一切后果将由下载用户自行承担，有部分资源为网上收集或仿制而来，若模板侵犯了您的合法权益，请来信通知我们（Email: 14212192@qq.com），我们会及时删除，给您带来的不便，我们深表歉意！

seo 普通

发表评论取消回复

售后服务：

Hi, 如果你对素材资源有疑问，可以跟我联系哦！

seo 普通

发表评论 取消回复

售后服务：

Hi, 如果你对素材资源有疑问，可以跟我联系哦！

相关推荐

灵感网——用灵感点燃我的创作！

发表评论取消回复