说在前面
一般听到“爬虫”这个词总能让我们回想起一些不愉快的经历,或是在阴暗角落中蠕动的长条状物体,或是厨房里一闪而过的蟑螂。但在计算机中,网络爬虫(webcrawler)却是非常有用的工具,它可以帮助我们抓取网页,分析内容,将你想要的部分做抽象提取。大型的爬虫工具被广泛应用于搜索引擎、数据挖掘等领域
爬虫的本质是一个大循环和字符串提取,因此很多编程语言都有对应的爬虫工具,而使用相对简单、效率高的必当属Python家的scrapy啦,Python本身语法简单,模块众多,尤其是HTTP相关模块非常丰富
由于本人也是边学边做,因此有些瑕疵和低级错误,欢迎留言交流~
刚开始是跟着菜鸟教程(runoob.