目录
一、如何进行关键词提取
1、关键词提取步骤
1)数据收集
2)数据准备
3)模型建立
4)模型结果统计
5)TF-IDF分析
2、什么是语料库
3、如何进行中文分词
1)导包
2)导入分词库
3)导入停用词库
4)使用jieba库分词
5)代码实例
二、核心算法
1、TF-IDF分析
2、TF-IDF算法公式
1)TF词频公式
2)IDF逆文档频率公式
3)TF-IDF公式
4)举例
3、案例
运行结果:
三、处理红楼梦词库
1、导入红楼梦词库
用法示例:
2、对整篇红楼梦文章进行拆分
完整代码:
运行结果:
1、关键词提取步骤
1)数据收集
收集研究需要的数据,建立相应的语料库
2)数据准备
导入分词库和通用词库
3)模型建立
使用 jieba 库,对语料库进行分词处理
4)模型结果统计
根据分类结果,进行词频统计,并绘制词云图
5)TF-IDF分析
得到加权后分词结果
2、什么是语料库
语料库是指用于训练和评估模型的文本数据集。语料库通常包含大量的自然语言文本,例如新闻文章、书籍、网页内容等。
语料库中存放的是在语言的实际使用中真实出现过的语言材料。
3、如何进行中文分词
1)导包
2)导入分词库
固定词组,jieba库没有内置的词组
3)导入停用词库
没有意义的词
4)使用jieba库分词
将文章完全分词即可
5)代码实例
此时的运行结果为:
上述如果没有使用固定词组则会有下列运行结果:
1、TF-IDF分析
TF-IDF是一种用来评估一个词在文档中的重要性的统计方法。
TF指的是某一个给定的词语在该文件中出现的次数,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。
IDF指的是逆文档频率。IDF的主要思想是:如果包含词条 t 的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
TF-IDF倾向于过滤掉常见的词语,保留重要的词语,它的值等于一个词的TF乘以它的IDF值,其大小用于衡量一个词在一个文档中的重要性,相当于加权
2、TF-IDF算法公式
1)TF词频公式
2)IDF逆文档频率公式
3)TF-IDF公式
4)举例
以《中国的蜜蜂养殖》为例,假定该文长度为1000个词,“中国"、"蜜蜂”、养殖"各出现20次,则这三个词的"词频"(TF)都为0.02。然后,搜索Google发现,包含"的"字的网页共有250亿张,假定这就是中文网页总数。包含"中国"的网页共有62.3亿张,包含”蜜蜂”的网页为0.484亿张,包含“养殖”的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:
“中国”、 “密封”、“养殖”的TF值 = 20/1000 = 0.02
“中国” IDF值 = log(250/62.3+1) = 0.603
“中国” TF-IDF值 = TF * IDF = 0.0121
同理即可得到剩余词组的TF-IDF值
3、案例
文档内容:(五行代表五篇文章)
运行结果:
1、导入红楼梦词库
词库内有如下内容:
用法示例:
运行结果为:
2、对整篇红楼梦文章进行拆分
红楼梦.txt 文件内容:(其中包含整篇文章)
现需将其中的每一卷内容保存为一个新的文本文件,并且文件命名也是相应卷名
完整代码:
运行结果:
共120卷