网上有很多关于pos机显示乱码,简单爬虫爬下豆瓣评论并玩转词云可视化显示的知识,也有很多人为大家解答关于pos机显示乱码的问题,今天pos机之家(www.poszjia.com)为大家整理了关于这方面的知识,让我们一起来看下吧!
本文目录一览:
1、pos机显示乱码
pos机显示乱码
利用爬虫爬下豆瓣影评
可以爬下其他页面的同类内容
并且利用词云(wordcloud)展示出来
词云安装方法
pip install wordcloud
同样的还要安装jiaba分词,BeautifulSoup以及plt
结巴分词github地址:https://github.com/fxsjy/jieba
#coding=utf-8
from urllib import request
from bs4 import BeautifulSoup as bs
import re,jieba,jieba.analyse,os
num=5#每+1 评论收集多加20个
main_word=[]
xu=""#这个是虚词,网上有虚词库,可以去除没用的词汇
for i in range(0,num):
resp=request.urlopen("https://book.douban.com/review/best/?start="+str(i*20))
html_data=resp.read()
hl=bs(html_data)
talk=hl.select(".title-link")
for i in talk:
i=str(i).split(\'"\') #开始新的遍历网页
resp = request.urlopen(i[3])
html_data = resp.read()
hl = bs(html_data)
main_text=hl.select("#link-report")
try:
i = str(main_text).split("<p>")[1]
talk_text=i.split("</p>")[0] #下面引用jieba分词提取关键词
for i in jieba.analyse.extract_tags(talk_text, topK=20, withWeight=False, allowPOS=()):
if xu.find(i) == -1: if i.find("t") > -1or i.find("s")>-1or i.find("b")>-1:
pass
else:
main_word.append(i)
except:
passprint(main_word)#最后利用词云显示一波- - 懒得按电影分类了
import matplotlib.pyplot as plt
from wordcloud import WordCloud
wc = WordCloud( background_color="white", width="360px",height="auto" />
font_path="font.ttc",#不加这一句显示口字形乱码 margin=2)#乱码解决办法源自http://www.cnblogs.com/fanyuchen/p/7156959.htmlsplit = " ".join(main_word)pic=wc.generate(split)
plt.imshow(pic)
plt.axis("off")
plt.show()#当然可以优化一下分词以及对电影的分类展示,但是- = 我懒
效果图在下面
划重点:1、try 的使用方式。2、字体乱码可利用设置字体文件解决。3、结巴分词的使用方法。4、词云的使用方法。
注意:这个程序同时适用于豆瓣图书和电影
以上就是关于pos机显示乱码,简单爬虫爬下豆瓣评论并玩转词云可视化显示的知识,后面我们会继续为大家整理关于pos机显示乱码的知识,希望能够帮助到大家!









