Zehao Liu

一个普通人类,自由的呼吸者

[实践]python统计excel中出现频率较高的词汇形成词云

0.快速修改使用 1 2 0.1 修改对应的excel文件和其对应的列:59行修改excel文件名60行修改对应的列名 0.2 77行 500 的意思是取出出现频率前500的词汇,这个可以修改,比如100就把500改成100 1.需要的库 1 pip install pandas pkuseg numpy matplotlib PIL wordcloud pkuseg是一个分词器:https://github.com/lancopku/pkuseg-python pandas,matplottlib,PIL 用来辅助作图,pandas中包含处理excel格式的函数 wordcloud 用来生成词云 numpy用来进行科学计算 2.代码逻辑 1.从excel表中读取所需要的文字 2.采用分词器进行分词操作 3.过滤一些没用的符号,单个词 4.统计词频 5.生成词云 3.分块功能说明 3.1统计词频 1 2 3 4 5 6 7 8 9 10 def count_words(sp, n): w = {} for i in sp: if i not in w: w[i] = 1 else: w[i] += 1 top = sorted(w.items(), key=lambda item:(-item[1], item[0])) top_n = top[:n] return top_n 输入分词后的结果,list格式。n为返回词频率由高到低前n的词。
0%