小爬虫pos机

 新闻资讯2  |   2023-07-15 12:25  |  投稿人:pos机之家

网上有很多关于小爬虫pos机,python爬虫及数据分析的知识,也有很多人为大家解答关于小爬虫pos机的问题,今天pos机之家(www.poszjia.com)为大家整理了关于这方面的知识,让我们一起来看下吧!

本文目录一览:

1、小爬虫pos机

小爬虫pos机

当今社会,速度已经深入人心了,“快”成了大家默认的办事境界,看机器上一件件飞一般传递着的产品,听办公室一族打电话时那种无人能及的语速……休闲的概念已日渐模糊,大家似乎都变成了在“快咒”控制下的小人儿,似乎连腾出点时间来松口气的时间都没有了,看得见的、看不见的规则约束着我们;有形的、无形的的鞭子驱赶着我们,我们马不停蹄追求事业、爱情、地位、财富,似乎自己慢一拍,就会被这个世界抛弃

工作仅仅是生活的一部分,千万不要忽略了其他乐趣,人生本是一幅美丽的风景画,不必对所有的事情都抱有强烈的目的性,人的一生总有做不完的事情,只要我们有一个平和之心,就不会错过沿途风景。

一个阳光明媚的早晨,手拿一杯咖啡,翻开一本喜欢的书,也不失为一种人生乐趣,作为IT一族,我们不能只是局限于IT类的数据,要广大自己的视野,提升自己的内在,今天这篇文章我们会给你推荐几本不错的文学书籍,大家一起来看下。

作为一名程序猿,我们不用为该读什么书发愁,因为我们有python,一个号称除了生孩子,什么都可以做的语言。下面进入正题。

关注,转发,私信小编“01”即可获取python书籍!

本文大概涉及两个方法:

1.书籍信息爬取

1.1 requests 抓取网页

1.2 BeautifulSoup ,re正则分析网页结构

2.信息分析

2.1 pandas 处理文件

2.2 pyecharts 可视化分析

1.网页抓取

目标URL : https://book.douban.com/tag/文学?start=0&type=T

注意start=0,网页的offset是20,后面代码里有体现

我们还是用requests 库来抓取网页信息,下面说下requests 库大致用法

1.常用方法

requests.get()

requests.post()

requests.put()

requests.delete()

2.参数

下面正式开始抓取网页信息

右击网页----->检查------->network------->按F5刷新网页 就会出现下面的界面(我用的Chrome浏览器)

经过上面的几行代码,我能就可以抓取页面的内容了

2.分析网页,抓取数据

这次我们要抓取的信息包括:

书名,链接,作者,出版社,出版日期,价格,评分,评论数,评论内容

我们下面看看怎么获取信息

我们可以选择我们想要抓取的信息,下面显示在 div class=\'article\' 这个标签下,到这里先别急写代码,我们可以继续往下看几层,是不是可以搜小我们选择的范围

我们向下看了几层,发现其实我们想要的数据都在 li class = "subject-item" 这样的标签下,下面我们就可以用BeautifulSoup来分析了

#用lxml方法来解析网页,默认是html.parsesoup = BeautifulSoup(response,\'lxml\')#找到所有<li class = "subject-item">这样的标签,注意find_all方法返回的是list类型,下面使用的时候要用for循环,find是只找到第一个符合条件的标签,返回的是bs4.element类型,可以直接调用方法artiche = soup.find_all(\'li\',\'subject-item\')

下面分别看下我们想要的数据的具体位置,选择第一个 li class = "subject-item" 标签

下面所有要的信息,以及标签我在图上做了标识

下面看代码

抓取完信息我们要用pandas的to_csv方法把数据存入csv文件里方便后续分析

这样我们的数据抓取就算大功告成了。

3.数据分析

数据分析这段我们使用pyecharts工具,我们大概分析几个方面,自我感觉分析的不是太到位,哈哈,大家主要还是用来学习下怎么使用pyecharts和pandas。

首先我们用pandas分析上面的csv文件,处理下等到我们想要的格式

1.根据评论数量和评分,分析大家对那些书敢兴趣,评分比较高

bar = Bar("豆瓣文学类图书", "评价数量")bar.add("评论数排名", dfn_book_name, dfn_comment_nums, is_more_utils=True)# bar.print_echarts_options() # 该行只为了打印配置项,方便调试时使用bar.render(\'豆瓣文学评论数分析.html\') # 生成本地 HTML 文件#bar = Bar("豆瓣文学类图书", "评价数量")bar.add("评分排名", dfn_book_name_score, dfn_comment_score, is_more_utils=True)# bar.print_echarts_options() # 该行只为了打印配置项,方便调试时使用bar.render(\'豆瓣文学书籍评分分析.html\') # 生成本地 HTML 文件

从上面看的出来,<<风筝的人>>,<<活着>>,<<解忧杂货店>>,<<小王子>>,<<白夜行>>等书,还是值得我们一看的,大家也可以上豆瓣读书上看下,网站自己有个综合排名,感觉和我分析的差不多,有兴趣可以自己看下。

2.各年份出版的书籍数量

pie = Pie("各年份出版书籍数量分布饼图", title_pos=\'center\')pie.add("", dfn_n_year, dfn_n_count, radius=[40, 75], label_text_color=None, is_label_show=True, legend_orient="vertical", legend_pos="left")# pie.show_config()pie.render(\'年份出版书籍数量分布饼图.html\')

我们看随着时间的推进,人们对书籍的需求也越来越大,从1999-2019,书籍的出版数量呈上升趋势。

3.各大出版的发行书籍数据占比

pie = Pie("各出版社出版书籍数量分布饼图", title_pos=\'center\')pie.add("", dfn_n_pub_name, dfn_n_pub_count, radius=[40, 75], label_text_color=None, is_label_show=True, legend_orient="vertical", legend_pos="left")# pie.show_config()pie.render(\'各出版社出版书籍数量分布饼图.html\')

出版社的分析,大家自己看下就行。

最后还是那句话,工作再忙,也要享受片刻的读书时光,减少焦虑。

大家如果有兴趣可以拿的代码自己执行抓取数据,自己做点自己想要知道的分析。

以上就是关于小爬虫pos机,python爬虫及数据分析的知识,后面我们会继续为大家整理关于小爬虫pos机的知识,希望能够帮助到大家!

转发请带上网址:http://www.poszjia.com/newsone/85224.html

你可能会喜欢:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 babsan@163.com 举报,一经查实,本站将立刻删除。