鏃╂湡鐧界櫆椋庣殑鐥囩姸鍥剧墖 https://m-mip.39.net/nk/mipso_5410869.html“项目说明某易云音乐歌单数据获取,获取某一歌曲风格的所有歌单,进入每个歌单获取歌单名称、创建者、播放量、页面链接、收藏数、转发数、评论数、标签、介绍、收录歌曲数、部分收录歌名,并统计播放量前十的歌单,将播放量前十的歌单以及对应的所有信息进行另外存储,对其进行可视化展示。在做这个爬虫的时候,对于如何翻页问题和身边的人进行了探讨,有人说用selenium模拟点击,但是通过观察网页,我发现即使是不用模拟点击翻页也能历遍爬完歌单的信息,接下来我就带着大家一起如何爬取数据。”
代码框架
第三方库说明在项目中用到的一些第三方库的介绍:#bs4BS4全称是BeautifulSoup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。#requests用requests库来访问网页,获取网页内容,支持HTTP特性#timeTime库是与时间处理有关的模块,在这个项目中是用来强制网页访问间隔时间的。#randomRandom库主要功能是提供随机数,在项目中和time库配合使用,生产随机强制访问的间隔时间的#xlwtPython访问Excel时的库,其功能是写入xls文件,在本项目中是用于写入爬取的数据#pandasPandas库是基于NumPy的一种工具,用于读取文本文件的,可以快速便捷的处理数据的库。#pyecharts.chartspyecharts.charts是用于数据可视化的库,其中包含很多种画图工具,在本项目中应用到的是画柱状图是Bar,圆饼图是Pie#matplotlib.pyplotmatplotlib也是可视化的库,由各种可视化的类构成,matplotlib.pyplot是绘制各类可视化图形的命令子库内容爬取说明
爬取链接: