作者
刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础。 因果抽取是一个十分有趣的话题,研发大规模逻辑推理知识库有助于支持实体或事件等传导驱动决策任务,而目前尚未有开源的因果事件对出现,为了弥补这一空缺,本文对外开源一个面向多领域的十万级因果事件对数据集,可以自行转成因果关系图谱,展开更多有趣实验,供大家一起参考。 地址:https://github.com/liuhuanyong/CausalDataset
一、因果抽取常用方法
我们在《事件图谱技术:因果关系事件对抽取常用方法的解析与动手实践》中讲述了因果抽取的方法,从传统模式规则、语义分析、依存句法、序列标注四种方式进行实践,并配上实现项目进行讲解,这涵盖了当前因果事件抽取的常用方式。
地址: https://github.com/liuhuanyong/CausalityEventExtraction
1.1 基于模式匹配的因果事件对提取
基于模式匹配的方式,是进行因果抽取的入门级以及兜底方式,充分利用好语言学知识,具有显式标记的因果关联词、因果表达句式进行归纳,并配以正则表达式实现,可以有效地提取出大量的因果事件对。
1.2 基于语义角色的因果事件抽取
基于触发词模式匹配的方法无法捕捉因果事件之间的关联关系,因此可以借助依存句法分析以及语义角色标注的方式进行处理。
以因果关系触发词为核心动作,首先从语义角色方面找寻该触发词动作的实施对象和受事对象,将实施对象作为原因事件,将受事对象作为结果事件,并根据词性过滤事件;
1.3 基于依存句法的因果事件抽取
由于自然语言处理的复杂性,LTP中未能对一些子句中的因果关系触发词进行语义角色标注,或者只标注了一部分,即A0和A1未同时被标注出来,因此利用依存句法分析来抽取此类情况下的因果事件对。
1.4 基于序列标注的因果抽取
针对基于规则的因果抽取模型中的不足,可以使用基于Bert微调的序列标注模型。在序列标签的设计上,模型的序列标签采用BIO标签体系,标签类型主要为cause、triger、effect。 为了能方便地根据标签结果进行因果三元组组合,在设计标签体系时也对单因果、多因果进行了区分,分别设置为multi-cause、multi-effect。
二、基于多领域文本数据集的因果事件对
为了得到多领域因果事件对,我们以清华大学开源的文本分类数据集THUnews,THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。
其在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。满足了多领域性的需求。
数据地址:http://thuctc.thunlp.org/#中文文本分类数据集THUCNews
训练因果抽取识别模型,最终去重得到了100,688条因果关系对,通过对频次进行统计,可以过滤出质量较高的因果对,下面显示了格式为原因事件@结构事件\t出现频次格式下的数据样例。
投资风险巨大@本金全部亏损 248
用户友好界面@模式帮助用户选择场景 38
政策消息面和技术面所有信息@交易者预期变 37
磨砂表面处理@触感更佳 31
加上F2大光圈和丰富手动功能@机器推出受到消费者广泛关注 26
金属材质设计@整体造型更具品质感 25
商务机型中并常见@上下边框显得厚 23
顶盖采用工程塑料制成配@笔记本外壳防滑耐磨 19
取消传统曲面过度@iPhone4底部扬声器变得硕大 17
准专业机型GRDIGITALII和GX200电子水平仪功能引进@使用R10拍摄高楼山水 16
镜头位移减震功能以及闪光灯控制系统@低光照下拍摄照片时噪 14
像素触摸式液晶屏幕@操控方面人性化 14
采用直线条形式边框风格@整体看上去大气 14
像素摄像头镶嵌屏幕上方@视频聊天方便 14
2.1 关于“地震”相关的因果事件对
日本东北部海域发生里氏大地震@重大人员伤亡和财产损失 6
日本东北部海域发生里氏地震@重大人员伤亡和财产损失 5
印尼西爪哇省附近印度洋海域发生里氏地震@人死亡人受伤 4
智利中南部城市康塞普西翁附近发生里氏强烈地震@重大人员伤亡 3
智利发生里氏地震@重大人员伤亡和财产损失 3
东部凡省发生强烈地震@死亡人数 3
上周五地震中受损核反应堆发生爆炸@核工业相关公司股票 3
日本大地震@金融市场动 3
最近地震和海啸灾害中复苏@日元汇率下跌 3
日本东北部大地震@全球关注 2
汶川地震期间捐款数目@高度关注 2
2.2 与“贬值”相关的因果事件对
虚拟道具贬值@广范围用户付费意愿越来越低 3
流动性过剩加剧@贬值趋势 3
日本核泄露事件@外资产贬值 3
全球性经济复苏以及贬值流动性过剩@全球商品价格出现暴涨 3
朝鲜进行货币贬值@市场经济瘫痪 2
欧洲主权债务危机深化和亚洲国家货币贬值@日本有警惕金融资本市场动荡 2
游戏公司滥发虚拟物品@玩家虚拟物品贬值 2
住房价格贬值@全球经济下滑形势演变成 2
中长期内贬值@资金撤离资产 2
持续贬值和人民币升值预期@中国内地成为资金洼地 2
韩元贬值@进口商品价格上升 2
货币大体上呈贬值趋势@国际油价名义价格走高 2
朱广沪时期大面积召人@国家队贬值 1
2.3 与“恋爱”相关的因果事件对
恋爱观婚姻观@观众极大兴趣 2
恋爱问题@学生意外伤害事 2
人相知相惜@恋爱温度始终保持合适系数 1
持人大爆钱包@恋爱故事 1
来美丽密令恋爱线人电影@陆毅闪耀大银幕上 1
李成儒和小演员侯角恋爱往事@媒体关注 1
歌曲转换过渡上显得流畅@听起来实在如男女恋爱中不伦恋 1
抓紧时间南京谈恋爱@台上台下哄笑 1
公司安排工作@没时间恋爱 1
强打精神去面对@恋爱没有兴趣 1
总结
本文以清华大学开源的文本分类数据集THUnews,对外开源了一个面向多领域的十万级因果事件对数据集,并介绍了常用技术方法。当然,数据的质量也有不足之处,规模不大,可以加以改善。