RSS爬虫更新算法小报告
Author
Zhou Renjian
Create@
2007-01-27 23:30
开始思考RSS爬虫的更新算法应该是从我尝试RSS Feed Spider开始的。因为如果我想要用有限的资源获取更多的RSS信息,我必须要用更为有效的更新算法。
之前我一直知道有Google Reader可以阅读RSS,但是我不怎么用,因为我已经习惯在家里用Thunderbird带的RSS阅读功能。由于尝试RSS Feed Spider,所以我开始重新使用Google Reader。很高兴地发现,通过Google Reader可以阅读我从2006年大概5月份开始写blog。因为我记得2006年5月份,我一高兴,自己在Google Reader里订阅了我自己的RSS Feed,所以Google Reader就从那个时候开始一直记录着我所有的文章。当然我的文章可以追溯回到2004年初,可是Google Reader或者其他RSS阅读器都不提供反向追溯历史文章的功能,所以那些文章就没有了。这些天用下来,发现Google Reader对我blog的更新比较及时的!这令我感觉或多或少的惊讶。因为我有一两天发现Google Reader对譬如国内著名博客Keso的更新都会有点不及时,记得出现一次延时半天的情况。或许那一两天我自己的Blog更新也没有更新吧,只是我当时没有写文章而已。当然我还自己把自己加入到Bloglines里去了,也是一种测试。
今天我看一下我的服务器log日记,发现如下:
- Google Reader的爬虫feedfetcher,总是在每一个小时的21、22或23分这个点来更新一下我的RSS,非常的准时。
- Bloglines的爬虫很勤奋,每半个小时爬一次,在29和59分左右,也是非常的勤奋。
- 国内的抓虾过来有时会带HEAD协议,但是不定时,不知道是不是1个半小时或更长时间爬一次。
其实在我对RSS Reader的理解中,应该尽可能地提供历史记录回溯的功能,从而使得一些著名Blog的思想有个承前启后的过渡!当然如果从Blog本身就是追求及时性的角度来说,这回溯也就免了。
不说了,我的RSS Feed Spider还没做好呢,我的其他项目也在延时……