尝试RSS Feed Spider

碰到的问题列表:

  1. 内容的编码问题是一个问题,需要很多功夫进行调整
  2. HTTP访问协议的问题,譬如路径重定向,以及各种错误
  3. robots协议支持的问题
  4. 垃圾信息处理的问题(譬如feedburner出来的RSS可能包含广告内容)
  5. 运行效率问题(用Java+JDBC在并发不多的情况下已经出现OutOfMemoryError了)
  6. 一些知名blog的历史文章尚未反向收集
  7. 在日期时间格式标准方面,有很多非标准的格式需要处理
  8. 未能很好地记录不同blog之间的引用关系
  9. 如何有效地控制RSS feed源头是一个问题
  10. 更新频率是写死的一天,没有频率计算调度
  11. 尚未提供添加新的RSS feed的界面接口
  12. 尚未实现全文检索,也没有对tag支持

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注


*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>