数据集 | 人民网地方领导留言板原始文本(2011-2023.12)

...

2023-12-22 · 3 min · 大邓

数据集 | 2.49亿条中国工商注册企业信息(23.9更新)

341个地市, 2亿条工商注册信息, 网盘压缩文件夹体积17.6G...

2023-12-03 · 2 min · 大邓

Word Embeddings、Transformer与GPT:一文揭示三者关系

...

2023-11-16 · 4 min · 7号床

代码 | 使用LDA预测文本的话题类型

...

2023-11-14 · 2 min · 大邓

不可不防的大模型“人肉搜索”能力

今年10月的一项研究显示,语言大模型的推测能力,使其在“某些方面”的准确度几乎接近人类甚至超越人类。这引发了作者对大模型可能被用来“人肉搜索”的担忧。“开盒”从未如此简单?大模型是否会侵害我们的隐私? 大语言模型(Large language Model, LLM)可以从文本中准确推断个人属性。...

2023-11-13 · 1 min · Robin Staab, Mark Vero, Mislav Balunović, and Martin Vechev