博客厅爬虫统计
2009/02/20 02:23 评论 (0)
FROM 2009-02-18 TO 2009-02-19
ADDED 101131 NEW BLOGS
71300 NEW RELATIONS
4849 BLOGS HAVE RELATIONS
在09年春节前博客厅爬虫1.0开始运行,在运行3周后,出现了明显的性能下降,已经无法支撑大量数据的抓取工作,主要原因在于最初爬虫构架上使用了sqlite作为主要数据存储,但由于大量快速频繁的读写导致sqlite频繁锁表,致使事实上只有一个进程在执行,严重影响了爬虫效率,因此不得不对爬虫结构进行重新设计。新爬虫目前测试运行状况良好,在单进程下每天可以处理10万个左右网站,预计在未来三天内正式启用。
|
|