感觉自己应该去做互联网应用 >>
<< What I want is "Personalized and Clustering"?
尝试RSS Feed Spider

Author Zhou Renjian Create@ 2007-01-14 11:14
whizz Note icon
花大概10个小时,写一个RSS Feed Spider,完成自动发现并保存RSS Feed。跑了一下从一个入口进去,耗时1个小时(包括发现问题,修复重启spider的时间)发现150个左右的feed,收集文章条目1700多条。

碰到的问题列表:
  1. 内容的编码问题是一个问题,需要很多功夫进行调整
  2. HTTP访问协议的问题,譬如路径重定向,以及各种错误
  3. robots协议支持的问题
  4. 垃圾信息处理的问题(譬如feedburner出来的RSS可能包含广告内容)
  5. 运行效率问题(用Java+JDBC在并发不多的情况下已经出现OutOfMemoryError了)
  6. 一些知名blog的历史文章尚未反向收集
  7. 在日期时间格式标准方面,有很多非标准的格式需要处理
  8. 未能很好地记录不同blog之间的引用关系
  9. 如何有效地控制RSS feed源头是一个问题
  10. 更新频率是写死的一天,没有频率计算调度
  11. 尚未提供添加新的RSS feed的界面接口
  12. 尚未实现全文检索,也没有对tag支持
  13. ……
更多其他方面,具体问题具体解决。
本记录所在类别:
本记录相关记录: