cntext

中文文本分析库,可对文本进行词频统计、词典扩充、情绪分析、相似度、可读性等

 

功能模块含

 


安装

 


一、cntext

查看cntext基本信息

Run


Run


查看词表

Run

 



二、stats

目前含

 


中文可读性 算法参考自

徐巍,姚振晔,陈冬华.中文年报可读性:衡量与检验[J].会计研究,2021(03):28-44.

以上三个指标越大,都说明文本的复杂程度越高,可读性越差。

 

 



三、dictionary

本模块用于构建词表(典),含

3.1 SoPmi 共现法

Run

 


3.2 W2VModels 词向量

Run


3.3 co_occurrence_matrix

词共现矩阵

 



 

四、 sentiment

 

4.1 senti_by_hownet(text, adj_adv=False)

使用知网Hownet词典进行(中)文本数据的情感分析,统计正、负情感信息出现次数(得分)

Run


考虑副词(否定词、程度词)对情绪形容词的反转和情感强度修饰作用

Run

 



4.2 senti_by_dutir(text)

使用大连理工大学情感本体库对文本进行情绪分析,统计各情绪词语出现次数。

Run

情绪分析使用的大连理工大学情感本体库,如发表论文,请注意用户许可协议

如果用户使用该资源发表论文或取得科研成果,请在论文中添加诸如“使用了大连理工大学信息检索研究室的情感词汇本体” 字样加以声明。

参考文献中加入引文“徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J]. 情报学报, 2008, 27(2): 180-185.”

 

 



4.3 senti_by_diy(text)

使用diy词典进行情感分析,计算各个情绪词出现次数,未考虑强度副词、否定词对情感的复杂影响,

Run



 

4.4 注意

返回结果: num表示词语出现次数; score是考虑副词、否定词对情感的修饰,结果不是词频,是情感类别的得分。



 

五、similarity

使用cosine、jaccard、miniedit等计算两文本的相似度,算法实现参考自

Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.


Run