最近大邓意外发现,使用mda预训练语言模型扩展互联网黑近义词,模型返回的有鼻子有眼的,这意味着上市公司高管在md&a中可能频繁使用了互联网黑话。
一、互联网黑话
二字动词
复盘,赋能,沉淀,倒逼,落地,串联,协同,反晡,兼容,包装,重组,履约,晌应,量化,发力,布局,联动,细分,梳理,输出,加速,共建,支撑,融合,聚合,集成,对齐,对标,对焦,拆解,拉通,抽象,摸索,提炼,打通,打透,吃透,迁移,分发,分层,分装,穿梭,辐射,围绕,复用,渗透,扩展,开拓。
二字名词
漏斗,中台,闭环,打法,拉通,纽带,矩阵,刺激,规模,场景,聚焦,维度,格局,形态,生态,话术,体系,抓手,赛道,认知,玩法,体感,感知,调性,心智,战役,合力,心力。
三字名词
颗粒度,感知度,方法论,组合拳,引爆点,点线面,精细化,差异化,平台化,结构化,影响力,耦合性,易用性,一致性,端到端,短平快。
四字名词
生命周期,价值转化,强化认知,资源倾斜,完善逻辑,抽离透传,复用打法,商业模式,快速响应,定性定量,关键路径,去中心化,结果导向,垂直领域,如何收口,归因分析,体验度量,信息屏障。
二、模型近义词
之前分享过一个中文金融领域的word2vec预训练语言模型,这里就不详细介绍模型参数。
使用中文MD&A数据集训练word2vec预训练模型, 可扩展或新建会计金融等领域的情感词典
文本分析最常用的方法是词典法(例如,LIWC),而词向量模型可以帮助我们扩展或者构建概念情感词典。
现在给大家演示只给一个词,返回topn个语义最相关的词。
# 与 seedwords 最相关的前topn个词
# wv是预训练语言模型
expand_dictionary(wv=wv,
seedwords=['复盘'],
topn=10)
Run
['复盘',
'检视',
'检讨',
'KPI',
'考核评估',
'量化考核',
'跟踪考核',
'纠偏',
'过程跟踪',
'分析总结',
'KPI指标']
expand_dictionary(wv=wv,
seedwords=['赋能'],
topn=10)
Run
['赋能',
'技术赋能',
'全面赋能',
'平台赋能',
'科技赋能',
'助力',
'数字化赋能',
'数据赋能',
'数智化',
'数据驱动',
'生态构建']
expand_dictionary(wv=wv,
seedwords=['感知度'],
topn=10)
Run
['感知度',
'体验度',
'产品认知度',
'知晓度',
'购买率',
'品牌黏性',
'满意度忠诚度',
'忠诚度美誉度',
'消费者满意度',
'体验满意度',
'好感度']
expand_dictionary(wv=wv,
seedwords=['倒逼'],
topn=10)
Run
['倒逼',
'倒逼企业',
'势在必行',
'迫使',
'大势所趋',
'促使',
'优胜劣汰',
'加速淘汰',
'势必',
'趋严',
'成为常态']
expand_dictionary(wv=wv,
seedwords=['闭环'],
topn=10)
Run
['闭环',
'完整闭环',
'全链路',
'全链条',
'全流程',
'闭环式',
'端端',
'端到端',
'服务闭环',
'全周期',
'闭环管理']
expand_dictionary(wv=wv,
seedwords=['端到端'],
topn=10)
Run
['端到端',
'端端',
'端到端的',
'全链路',
'端端的',
'数字化运营',
'全业务流程',
'场景全',
'全链条',
'敏捷',
'全价值链']
可以看到, 返回的近义词都是挺互联网范儿的。 只有较为频繁使用, 语言模型才有可能捕捉到这种语义关系。这从侧面反映了近年来互联网高级黑话影响力之大。
三、获取模型
模型训练不易, 为付费资源,如需使用请 点击进入跳转购买链接
期待合作
cntext目前仍在技术迭代,版本2.0.0综合了训练语言模型&多语言模型对齐, 有较大的应用价值,期待有独特文本数据集交流合作。
通过cntext2.0.0,理论上可以对文本所涉社会主体进行计算,适合企业文化、品牌印象、旅游目的地形象、国家形象等
- 同主体不同时间段, 文本中蕴含的文化态度认知变迁,
- 或同时间段,不同主体的大样本文本蕴含的差异性