蜘蛛网是一个非常生动的名字。把互联网比作蜘蛛网,蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛通过其链接地址搜索网页,从某个页面(通常是第一页)开始,读取网页的内容,在网页中找到其他链接地址,然后通过这些链接地址搜索下一个网页,如此循环往复,直到该网站的所有网页都被爬网。如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。
对于搜索引擎来说,几乎不可能抓取互联网上的所有网页。根据公布的数据,容量最大的搜索引擎只能抓取整个网页的40%左右。原因一方面是爬行技术的瓶颈,不能遍历所有网页,很多网页无法从其他网页的链接中找到;另一个原因是存储技术和处理技术的问题。如果每个页面的平均大小是20K(包括图片),那么100亿个网页的容量是1002000G字节。即使可以存储,下载也有问题(如果一台机器每秒下载20K,需要340台机器连续下载一年所有网页)。同时,由于数据量太大,在提供搜索时也会对效率产生影响。所以很多搜索引擎的web蜘蛛只抓取那些重要的网页,抓取时评价重要性的主要依据是一个网页的链接深度。
在抓取网页时,web蜘蛛一般有两种策略:广度优先和深度优先。
广度优先是指蜘蛛首先抓取起始页中的所有链接页面,然后选择其中一个链接页面,继续抓取该页面中的所有链接页面。这是最常用的方法,因为这种方法可以使网络蜘蛛并行处理,提高它们的爬行速度。
深度优先是指蜘蛛会从起始页开始,一次跟踪一个链接,处理完这条路线再翻到下一个起始页,继续跟踪链接。这种方法的一个优点是更容易设计网络蜘蛛。下图将更清楚地解释这两种策略的区别。
因为不可能抓取所有网页,所以有些网络蜘蛛会设置层数来访问一些不太重要的网站。比如上图,A是起始网页,属于0层,B、C、D、E、F属于1层,G、H属于2层,I属于3层。如果蜘蛛网设置的访问层数为2,则不会访问我的网页。这也使得一些网站上的一些网页可以在搜索引擎上搜索,而另一些则无法搜索。对于网站设计师来说,扁平化的网站结构设计有助于搜索引擎抓取更多页面。
web蜘蛛在访问网页时,经常会遇到关于加密数据和网页权限的问题,有些网页需要成员权限才能访问。当然,网站的所有者可以让网络蜘蛛不要通过协议(下一节描述)进行抓取,但是对于一些销售报告的网站,他们希望搜索引擎可以搜索到他们的报告,但是不能让搜索者完全看到,所以需要为网络蜘蛛提供相应的用户名和密码。Web蜘蛛可以通过给定的权限抓取这些网页,从而提供搜索。当搜索者点击查看网页时,还要求搜索者提供相应的权限验证。灵感
售后服务:
-
售后服务范围 1、商业模板使用范围内问题免费咨询 2、源码安装、模板安装(一般 ¥50-300)服务答疑仅限SVIP用户 3、单价超过200元的模板免费一次安装,需提供服务器信息。 付费增值服务 1、提供dedecms模板、WordPress主题、discuz模板优化等服务请详询在线客服 2、承接 WordPress、DedeCMS、Discuz 等系统建站、仿站、开发、定制等服务 3、服务器环境配置(一般 ¥50-300) 4、网站中毒处理(需额外付费,500元/次/质保三个月) 售后服务时间 周一至周日(法定节假日除外) 9:00-23:00 免责声明 本站所提供的模板(主题/插件)等资源仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担,有部分资源为网上收集或仿制而来,若模板侵犯了您的合法权益,请来信通知我们(Email: 14212192@qq.com),我们会及时删除,给您带来的不便,我们深表歉意!