博客厅爬虫统计

2009/02/20 02:23 评论 (0)

FROM 2009-02-18 TO 2009-02-19

ADDED 101131 NEW BLOGS
71300 NEW RELATIONS
4849 BLOGS HAVE RELATIONS

prof.syd.xu | 类别: 找事儿 | 阅读(440)

跨平台博客网络博客厅网络爬虫设计

2009/02/17 22:13 评论 (0)

在09年春节前博客厅爬虫1.0开始运行,在运行3周后,出现了明显的性能下降,已经无法支撑大量数据的抓取工作,主要原因在于最初爬虫构架上使用了sqlite作为主要数据存储,但由于大量快速频繁的读写导致sqlite频繁锁表,致使事实上只有一个进程在执行,严重影响了爬虫效率,因此不得不对爬虫结构进行重新设计。新爬虫目前测试运行状况良好,在单进程下每天可以处理10万个左右网站,预计在未来三天内正式启用。

prof.syd.xu | 类别: 找事儿 | 阅读(707)

  • 1

Ta ma'de supperman! Feed

Be sure to subscribe to The Ta ma'de supperman! Feed.

Ta ma'de supperman!

Contact Me

Where I am