代码 | 如何用Python计算知识宽度(赫芬达尔—赫希曼指数)

赫芬达尔-赫希曼指数(Herfindahl-Hirschman Index)作为一种衡量市场集中度的经济指标,通常用于分析产业或市场中企业份额的分布情况。近年来有学者使用HHI算法测量专利的所涉领域的集中程度,反应专利的知识宽度。我们是否可能利用HHI来量化某个语料库中不同词汇的使用频率分布,以此来分析个人、群体或时代的语言风格、词汇丰富度、或是语言标准化与变化的趋势。如果词汇分布非常均匀,表明语言使用中的词汇多样性高,HHI值就会较低;反之,如果少数词汇占据了大部分文本空间,表明词汇使用集中,HHI值则较高。...

2024-06-20 · 2 min · 大邓

MOR | 使用md&a测量企业民族主义指标

该论文开发了一种企业层面的修辞民族主义计算方法。回顾文献,开发了与企业相关的四维民族主义理论框架:民族自豪感、排外主义、主导议程(民族复兴)和企业角色。然后,使用文本分析方法计算了 2000 年至 2020 年中国上市公司的 41,000 多份年度报告,并为每个维度确定了一个词典。该论文数据集可公开访问:https://sites.google.com/view/firms-rhetorical-nationalism...

2024-06-18 · 3 min · 大邓

实验 | 使用本地大模型从文本中提取结构化信息

...

2024-06-14 · 3 min · 大邓

数据集 | 30w条「问政湖南」留言&回复数据(2010-2024)

[问政湖南](https://wz.rednet.cn/#/leaveMsgList?reply=1),类似于 [人民网地方领导留言板](https://textdata.cn/blog/2023-12-22-renmin-gov-leader-comment-board/), 数据信息量也很大, 网民留言日期2010~2024, 记录数约30w(截止2024-06-05)。 适合社会学、新闻学、公共管理、管理学等领域学者使用。...

2024-06-05 · 2 min · 大邓

播客数据集 | 30w播客(Podcast)的560w条评论数据(2005-2023)

...

2024-06-03 · 4 min · 大邓