尝试RSS Feed Spider
Author
Zhou Renjian
Create@
2007-01-14 11:14

花大概10个小时,写一个RSS Feed Spider,完成自动发现并保存RSS Feed。跑了一下从一个入口进去,耗时1个小时(包括发现问题,修复重启spider的时间)发现150个左右的feed,收集文章条目1700多条。
碰到的问题列表:
- 内容的编码问题是一个问题,需要很多功夫进行调整
- HTTP访问协议的问题,譬如路径重定向,以及各种错误
- robots协议支持的问题
- 垃圾信息处理的问题(譬如feedburner出来的RSS可能包含广告内容)
- 运行效率问题(用Java+JDBC在并发不多的情况下已经出现OutOfMemoryError了)
- 一些知名blog的历史文章尚未反向收集
- 在日期时间格式标准方面,有很多非标准的格式需要处理
- 未能很好地记录不同blog之间的引用关系
- 如何有效地控制RSS feed源头是一个问题
- 更新频率是写死的一天,没有频率计算调度
- 尚未提供添加新的RSS feed的界面接口
- 尚未实现全文检索,也没有对tag支持
- ……