pos机显示乱码

 新闻资讯2  |   2023-07-20 09:35  |  投稿人:pos机之家

网上有很多关于pos机显示乱码,简单爬虫爬下豆瓣评论并玩转词云可视化显示的知识,也有很多人为大家解答关于pos机显示乱码的问题,今天pos机之家(www.poszjia.com)为大家整理了关于这方面的知识,让我们一起来看下吧!

本文目录一览:

1、pos机显示乱码

pos机显示乱码

利用爬虫爬下豆瓣影评

可以爬下其他页面的同类内容

并且利用词云(wordcloud)展示出来

词云安装方法

pip install wordcloud

同样的还要安装jiaba分词,BeautifulSoup以及plt

结巴分词github地址:https://github.com/fxsjy/jieba

#coding=utf-8

from urllib import request

from bs4 import BeautifulSoup as bs

import re,jieba,jieba.analyse,os

num=5#每+1 评论收集多加20个

main_word=[]

xu=""#这个是虚词,网上有虚词库,可以去除没用的词汇

for i in range(0,num):

resp=request.urlopen("https://book.douban.com/review/best/?start="+str(i*20))

html_data=resp.read()

hl=bs(html_data)

talk=hl.select(".title-link")

for i in talk:

i=str(i).split(\'"\') #开始新的遍历网页

resp = request.urlopen(i[3])

html_data = resp.read()

hl = bs(html_data)

main_text=hl.select("#link-report")

try:

i = str(main_text).split("<p>")[1]

talk_text=i.split("</p>")[0] #下面引用jieba分词提取关键词

for i in jieba.analyse.extract_tags(talk_text, topK=20, withWeight=False, allowPOS=()):

if xu.find(i) == -1: if i.find("t") > -1or i.find("s")>-1or i.find("b")>-1:

pass

else:

main_word.append(i)

except:

passprint(main_word)#最后利用词云显示一波- - 懒得按电影分类了

import matplotlib.pyplot as plt

from wordcloud import WordCloud

wc = WordCloud( background_color="white", width="360px",height="auto" />

font_path="font.ttc",#不加这一句显示口字形乱码 margin=2)#乱码解决办法源自http://www.cnblogs.com/fanyuchen/p/7156959.htmlsplit = " ".join(main_word)

pic=wc.generate(split)

plt.imshow(pic)

plt.axis("off")

plt.show()#当然可以优化一下分词以及对电影的分类展示,但是- = 我懒

效果图在下面

划重点:1、try 的使用方式。2、字体乱码可利用设置字体文件解决。3、结巴分词的使用方法。4、词云的使用方法。

注意:这个程序同时适用于豆瓣图书和电影

以上就是关于pos机显示乱码,简单爬虫爬下豆瓣评论并玩转词云可视化显示的知识,后面我们会继续为大家整理关于pos机显示乱码的知识,希望能够帮助到大家!

转发请带上网址:http://www.poszjia.com/newsone/87032.html

你可能会喜欢:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 babsan@163.com 举报,一经查实,本站将立刻删除。