跨平台博客网络博客厅网络爬虫设计
2009/02/17 22:13 评论 (0)
在09年春节前博客厅爬虫1.0开始运行,在运行3周后,出现了明显的性能下降,已经无法支撑大量数据的抓取工作,主要原因在于最初爬虫构架上使用了sqlite作为主要数据存储,但由于大量快速频繁的读写导致sqlite频繁锁表,致使事实上只有一个进程在执行,严重影响了爬虫效率,因此不得不对爬虫结构进行重新设计。新爬虫目前测试运行状况良好,在单进程下每天可以处理10万个左右网站,预计在未来三天内正式启用。
prof.syd.xu | 类别: 找事儿 | 阅读(349)
- 1

