#爬虫 最初折腾爬虫还是在校期间,一个玩具项目,想把校内信息爬取下来,写一个小型校内搜索引擎,整合到公众号里
而后原理实现之后,就不想打磨细节了,急着跳入下一个坑。如那个笑话里的,程序员好不容易买齐了笔墨纸砚,写下hello world,就心满意足地离去了
去年在知乎里答过一个爬虫题目,拿了1000来个赞,陆陆续续收到一些私信问有没有兴趣换工作啥的,当时的百度和美团还是蛮有吸引力的,哎谁知一年多工夫,局势变了好多,看来拒绝的还算有先鉴之明。如pyspider作者binux所言,爬虫就那点东西,有趣的部分并不多,所以也从未考虑过此类工作。
闲暇时间,陆陆续续写过简易的几个爬虫玩具,帮朋友爬过1w枚种子,据说质量奇高,是xx中的艺术片。也爬过豆瓣知乎,数据拿来训练机器人。
说要种子的,我也不会给你啦,代码有毒,身体要紧啊同学们
写爬虫比较钟爱pyspider,选择器是jquery语法(用了pyquery),调试起来十分方便,而且又有web界面很是舒服
以下几个demo,需求都来自小伙伴。
#pyspider介绍 pyspider作者在在博客里说到
pyspider 来源于以前做的一个垂直搜索引擎使用的爬虫后端。我们需要从200个站点(由于站点失效,不是都同时啦,同时有100+在跑吧)采集数据,并要求在5分钟内将对方网站的更新更新到库中。
和大多开源项目一样,pyspider也始于作者自己真实的需求,而后发现这个解决方案对于其他人也是适用的,于是开源出来。正是自己最初真实的需求,使项目在细节方面十分周到贴心
十分推荐有兴趣的小伙伴把作者博客里的几篇文章读完:Binuxの杂货铺
这是关于爬虫方面我读过最简易清晰的几篇文章了
#安装 ##mac下安装与运行
|
|
##使用docker安装
|
|
之后在5000端口上就可以写爬虫逻辑啦,web本身作为控制面板
参考Running-pyspider-with-Docker
#demo ###1 爬取豆瓣8分以上书籍
|
|
###demo2 爬取京东众筹数据
|
|
###demo3 爬取知乎指定用户收藏夹
|
|
#附录
###Ubuntu 12.04 64bit 安装PhantomJS
|
|
文章作者 种瓜
上次更新 2015-11-30