最近大邓意外发现,使用mda预训练语言模型扩展互联网黑近义词,模型返回的有鼻子有眼的,这意味着上市公司高管在md&a中可能频繁使用了互联网黑话。



一、互联网黑话

二字动词

复盘,赋能,沉淀,倒逼,落地,串联,协同,反晡,兼容,包装,重组,履约,晌应,量化,发力,布局,联动,细分,梳理,输出,加速,共建,支撑,融合,聚合,集成,对齐,对标,对焦,拆解,拉通,抽象,摸索,提炼,打通,打透,吃透,迁移,分发,分层,分装,穿梭,辐射,围绕,复用,渗透,扩展,开拓。

二字名词

漏斗,中台,闭环,打法,拉通,纽带,矩阵,刺激,规模,场景,聚焦,维度,格局,形态,生态,话术,体系,抓手,赛道,认知,玩法,体感,感知,调性,心智,战役,合力,心力。

三字名词

颗粒度,感知度,方法论,组合拳,引爆点,点线面,精细化,差异化,平台化,结构化,影响力,耦合性,易用性,一致性,端到端,短平快。

四字名词

生命周期,价值转化,强化认知,资源倾斜,完善逻辑,抽离透传,复用打法,商业模式,快速响应,定性定量,关键路径,去中心化,结果导向,垂直领域,如何收口,归因分析,体验度量,信息屏障。



二、模型近义词

之前分享过一个中文金融领域的word2vec预训练语言模型,这里就不详细介绍模型参数。

使用中文MD&A数据集训练word2vec预训练模型, 可扩展或新建会计金融等领域的情感词典


文本分析最常用的方法是词典法(例如,LIWC),而词向量模型可以帮助我们扩展或者构建概念情感词典。

现在给大家演示只给一个词,返回topn个语义最相关的词。

# 与 seedwords 最相关的前topn个词
# wv是预训练语言模型
expand_dictionary(wv=wv, 
                  seedwords=['复盘'],
                  topn=10)

Run

['复盘',
 '检视',
 '检讨',
 'KPI',
 '考核评估',
 '量化考核',
 '跟踪考核',
 '纠偏',
 '过程跟踪',
 '分析总结',
 'KPI指标']

expand_dictionary(wv=wv, 
                  seedwords=['赋能'],
                  topn=10)

Run

['赋能',
 '技术赋能',
 '全面赋能',
 '平台赋能',
 '科技赋能',
 '助力',
 '数字化赋能',
 '数据赋能',
 '数智化',
 '数据驱动',
 '生态构建']

expand_dictionary(wv=wv, 
                  seedwords=['感知度'],
                  topn=10)

Run

['感知度',
 '体验度',
 '产品认知度',
 '知晓度',
 '购买率',
 '品牌黏性',
 '满意度忠诚度',
 '忠诚度美誉度',
 '消费者满意度',
 '体验满意度',
 '好感度']

expand_dictionary(wv=wv, 
                  seedwords=['倒逼'],
                  topn=10)

Run

['倒逼', 
'倒逼企业', 
'势在必行', 
'迫使', 
'大势所趋', 
'促使', 
'优胜劣汰', 
'加速淘汰', 
'势必', 
'趋严', 
'成为常态']

expand_dictionary(wv=wv, 
                  seedwords=['闭环'],
                  topn=10)

Run

['闭环',
'完整闭环', 
'全链路', 
'全链条', 
'全流程', 
'闭环式', 
'端端', 
'端到端', 
'服务闭环', 
'全周期', 
'闭环管理']

expand_dictionary(wv=wv, 
                  seedwords=['端到端'],
                  topn=10)

Run

['端到端',
 '端端',
 '端到端的',
 '全链路',
 '端端的',
 '数字化运营',
 '全业务流程',
 '场景全',
 '全链条',
 '敏捷',
 '全价值链']

可以看到, 返回的近义词都是挺互联网范儿的。 只有较为频繁使用, 语言模型才有可能捕捉到这种语义关系。这从侧面反映了近年来互联网高级黑话影响力之大。



三、获取模型

模型训练不易, 为付费资源,如需使用请 点击进入跳转购买链接



期待合作

cntext目前仍在技术迭代,版本2.0.0综合了训练语言模型&多语言模型对齐, 有较大的应用价值,期待有独特文本数据集交流合作。

通过cntext2.0.0,理论上可以对文本所涉社会主体进行计算,适合企业文化、品牌印象、旅游目的地形象、国家形象等

  • 同主体不同时间段, 文本中蕴含的文化态度认知变迁,
  • 或同时间段,不同主体的大样本文本蕴含的差异性



广而告之