之前分享过 JCR的一篇语言具体性的研究应用,语言具体性Concreteness描述了一个词在多大程度上是指一个实际的、有形的或“真实的”实体,以一种更具体、更熟悉、更容易被眼睛或心灵感知的方式描述对象和行为。但是具体性词典是英文的。今天分享的这篇论文是1600个词,含具体性和表象性词典。
Wang, Ruiming, Shuting Huang, Yacong Zhou, and Zhenguang G. Cai. “Chinese character handwriting: A large-scale behavioral study and a database.” Behavior Research Methods 52 (2020): 82-96.
摘要
该研究建立了一个汉字书写的心理语言学数据库。该数据库挑选出了1600个频率分布广泛的汉字,采用听写任务,总共203名被试来书写这些汉字,采集了被试的书写潜伏期、书写时长、书写正确率,并收集了1600汉字的14个词汇变量。研究结果发现,字频、习得年龄、语境是影响正字法通达、运动执行和书写正确率的共同因素;语音变量(是否为形声字、规则性、同音字密度)影响正字法通达,但不影响运动执行;语义变量(表象性和具体性)只影响书写正确率。研究结果对汉字书写产生机制有着重要启发。作为第一个大规模的汉字书写的心理语言学数据库,该数据库可以作为二次数据分析的资源以及书写实验材料制作的工具。数据库免费公开,访问网址为:https://osf.io/7s9kq/。
字段
字段有很多,我挑选最重要的翻译过来。
Item | Item number of characters |
---|---|
Character | 中文单字 |
Word | 由该字组成的词语 |
… | … |
zImageability | 可成像性(归一化评分) |
zConcreteness | 具体性(归一化评分) |
… | … |
import pandas as pd
df = pd.read_excel('Database.xlsx', sheet_name='Data')
df.columns
Run
Index(['Item', 'Character', 'Word', 'nOccurrence', 'nACC', 'nMisheard', 'nTOP',
'nMisspelt', 'nMisremembered', 'ACC', 'Misheard', 'TOP', 'Misspelt',
'Misremembered', 'Latency_Correct', 'Duration_Correct', 'Latency_z',
'Duration_z', 'FreqCount', 'FreqContext', 'AoA', 'nMeaning',
'zImageability', 'zConcreteness', 'Phonogram', 'SRO', 'zRegularity',
'logHomoDen', 'nStroke', 'nRadical', 'Comp_LR', 'Comp_TD',
'zwFamiliarity'],
dtype='object')
df[['Character', 'Word', 'zConcreteness', 'zImageability']]
Character | Word | zConcreteness | zImageability | |
---|---|---|---|---|
0 | 哀 | 悲哀 | -0.103212 | 0.404177 |
1 | 癌 | 癌症 | 0.319844 | 0.176291 |
2 | 疤 | 伤疤 | 1.180032 | 0.919010 |
3 | 白 | 明白 | 0.691302 | 0.527291 |
4 | 百 | 一百 | -0.234004 | -0.039290 |
... | ... | ... | ... | ... |
1595 | 组 | 小组 | -0.556125 | -0.326855 |
1596 | 钻 | 钻石 | 0.412641 | 0.116090 |
1597 | 嘴 | 住嘴 | 1.447112 | 0.846971 |
1598 | 醉 | 麻醉 | 0.297512 | 0.596776 |
1599 | 作 | 工作 | -0.817521 | -0.933269 |
1600 rows × 4 columns
## 广而告之