LIST | 社科(经管)数据挖掘文献资料汇总

如何从网络世界中高效地采集数据?是否能从文本中挖掘出人类的偏见等认知信息?如何从杂乱的文本数据中抽取文本信息(变量)?本文汇总的列表将让你对文本、对Python文本分析个全面的了解...

2024-04-15 · 2 min · 大邓

LIST| 文本分析代码资料汇总

如何使用Python从网络中爬取数据,如何从文本数据中抽取信息。本文汇总了常见的python代码案例,方便大家快速学习...

2024-04-15 · 3 min · 大邓

代码 | 如何用Python计算知识宽度(赫芬达尔—赫希曼指数)

赫芬达尔-赫希曼指数(Herfindahl-Hirschman Index)作为一种衡量市场集中度的经济指标,通常用于分析产业或市场中企业份额的分布情况。近年来有学者使用HHI算法测量专利的所涉领域的集中程度,反应专利的知识宽度。我们是否可能利用HHI来量化某个语料库中不同词汇的使用频率分布,以此来分析个人、群体或时代的语言风格、词汇丰富度、或是语言标准化与变化的趋势。如果词汇分布非常均匀,表明语言使用中的词汇多样性高,HHI值就会较低;反之,如果少数词汇占据了大部分文本空间,表明词汇使用集中,HHI值则较高。...

2024-06-20 · 2 min · 大邓

实验 | 使用本地大模型从文本中提取结构化信息

...

2024-06-14 · 3 min · 大邓

数据集 | 聚焦美股企业社会责任CSR Wire网站新闻数据集(1999-2024)

CSRWire(CSRwire)是一个成立于1999年的数字媒体平台,专注于提供有关企业社会责任(CSR)和可持续性的最新新闻、观点和报告。CSRWire是3BL网络的一部分,致力于帮助组织创建和分享与关键利益相关者(包括投资者、消费者、评级机构、非政府组织等)的可持续性和影响力内容。...

2024-07-19 · 2 min · 陈世强