文本分析 | 词典法的两种代码实现

但这周末,我使用1.4G的mda数据集, 5w条记录。尝试计算某类词的出现次数, 该词典含几百个词。在我的96G内存的macbook中,运行了十几个小时都没结果。于是同一个问题,本文分享了两种实现方法。一般情况下,使用「方法一」即可。当第一种方法运行不出结果,可以尝试「方法二」。...

2023-04-17 · 2 min · 大邓

不要当真 | 词云图看婚姻的本质是什么

...

2023-04-14 · 2 min · 大邓

数据集 | 3571万条专利申请数据集(1985-2022年)

3571万专利申请全量数据(1985-2022年)数据...

2023-04-13 · 5 min · 大邓

数据集 | 3.9G 全国POI地点兴趣点数据集

POI是英文"Point of Interest"的缩写,中文翻译为"兴趣点"或"兴趣地点"。在地理信息系统(GIS)和位置服务领域中,POI通常指代一些在地图上显示的特定地点或地理位置,例如商店、餐厅、公园、景点等。...

2023-04-12 · 2 min · 大邓

中文心理词典,含具体性、可成象性等指标

该研究建立了一个**汉字书写的心理语言学数据库**。该数据库挑选出了1600个频率分布广泛的汉字,采用听写任务,总共203名被试来书写这些汉字,采集了被试的书写潜伏期、书写时长、书写正确率,并收集了1600汉字的14个词汇变量。研究结果发现,字频、习得年龄、语境是影响正字法通达、运动执行和书写正确率的共同因素;语音变量(是否为形声字、规则性、同音字密度)影响正字法通达,但不影响运动执行;语义变量(表象性和具体性)只影响书写正确率。研究结果对汉字书写产生机制有着重要启发。作为第一个大规模的汉字书写的心理语言学数据库,该数据库可以作为二次数据分析的资源以及书写实验材料制作的工具...

2023-04-05 · 1 min · 大邓