搜索引擎中网络爬虫的设计分析
说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里? 1)网络爬虫高度可配置性。 2)网络爬虫可以解析抓到的网页里的链接 3)网络爬虫有简单的存储配置 4)网络爬虫拥有智能的根据网页更新分析功能 5)网络爬虫的效率相当的高 那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢? 1)url的遍历和纪录 这点larbin做得非常的好,其实对于url的遍历是很简单的,例如: cat [what you got] tr \" \\n gawk '{print \$2}' pcregrep ^http:// 就可以得到一个所由的url列表 2)多进程VS多线程 各有优点了,现在一台普通的PC例如booso.com一天可以轻松爬下5个G的数据。大约20万网页。 3)时间更新控制 最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。 通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。 如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 注意,效率是取胜的关键之一。 4)爬的深度是多少呢? 看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。 如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道: 网页深度:网页个数:网页重要程度 0 : 1 : : 10 1 :20 : :8 2: :600: :5 3: :2000: :2 4 above: 6000:一般无法计算 好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。 5)爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到header的tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。 apache webserver里面纪录的304一般就是被cache的了。 6)请有空的时候照看一下robots.txt 7)存储结构。 这个人人见智,google用gfs系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs系统,要是你只有一台服务器,那么随便。 给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的: NAME=`echo \$URL perl -p -e 's/([^\w\-\.\@])/\$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord(\$1))/eg'`mkdir -p \$AUTHOR newscrawl.pl\$URL--user-agent="news.booso.com+(+http://booso.com)"-outfile=\$AUTHOR/\$NAME 特别是注意以下几句: 1.通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。 2.好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。 尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想Google有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化。 (编辑:网销顾问) |
-
目前,微信微博短视频等社交媒体被网民广泛应...[详细]
-
作为小马识途营销顾问,经常会收到客户咨询如...[详细]
-
解读搜索公关的价值和意义 SEO 叫的很响,竞价...[详细]
-
说起搜索引擎营销呢,大家可能了解最多的就是...[详细]
-
网络信息浩如烟海,搜索引擎应运而生。在海量...[详细]
-
如果你不做 SEO ,也不了解网络营销,你可能不...[详细]
-
十年磨一剑。 从2001年到2011年,中国互联网经...[详细]
-
网络信息时代降临,搜索引擎成为利用网络获取...[详细]
-
市场上有非常多的黑链,特地是09年,非常多的站...[详细]
-
网站SEO工作流程图 SEO简要工作流程图 SEO工作...[详细]