个人感觉博客 textdata.cn 文本分析代码案例都集中在这里了,我将内容按大类分成
- Python语法
- 数据采集
- 数据处理&Pandas
- 正则表达式
- pandas常用方法
- pandas性能优化
- 其他操作
- 文本分析
- 概览
- 词典法
- 词向量
- 大语言模型
- 数据标注&机器学习
- 数据标注
- 监督机器学习
- 非监督机器学习
- 可视化
- R语言
- 其他
一、Python语法
二、数据采集
三、数据处理&Pandas
3.1 文本处理
使用正则表达式可以筛选文本数据,做数据预处理(数据清洗)
3.2 常用方法
3.3 性能优化&其他操作
四、文本分析
4.1 概览
4.2 词典法
- cntext库 | 中文情感分析包
- 推荐 | 中文文本分析cntext2.x库使用手册
- tfidf有权重的情感分析
- Asent库 | 英文文本数据情感分析
- 欢迎各位向cntext库分享情感词典
- 中文金融情感词典
- 文本分析 | 中国企业高管团队创新注意力
4.3 社交网络分析
4.4 词向量
- 可视化 | 人民日报语料反映七十年文化演变
- 实验 | 互联网黑话与MD&A
- 豆瓣影评 | 探索词向量妙处
- 词向量 | 使用1亿B站用户签名训练word2vec词向量
- 预训练词向量模型的方法、应用场景、变体延伸与实践总结
- Python | 词移距离(Word Mover’s Distance)
- 训练&使用 Glove 语言模型, 可度量刻板印象等
- BERTopic库 | 使用预训练模型做话题建模
- BERTopic | 使用推特数据构建 动态主题模型模
- KeyBERT | 关键词发现库
- Top2Vec | 主题建模和语义搜索库
- FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型
- sentence-transformer库 | 句子语义向量化
- WordBias库 | 发现偏见(刻板印象)的交互式工具
- GTE中文通用文本向量表示模型
- Shifterator库 | 词移图分辨两文本用词风格差异
4.4 大语言模型
五、提取特征&机器学习
5.1 监督机器学习
5.2 非监督机器学习
六、可视化
- 可视化 | 使用umap对200维词向量的进行降维和可视化
- 使用patchwork包进行多图排版
- 可视化 | 使用 DataMapPlot 绘制数据地图
- B站 | “高铁互殴"视频词云图绘制
- 可视化 | 睡前消息的科学社会、科学技术、社会化抚养话题可视化
- 可视化 | 使用whatlies库可视化词向量
- 可视化 | 绘制《三体》人物关系网络图
- 可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势
- 可视化 | 微博用户群体情绪随时间变化趋势
- 可视化 | 使用 chatGPT 做词频统计&词云图
- 可视化(推荐) | Netflix 数据可视化最佳实践
- 可视化 | 2021年幸福指数&人口数据可视化最佳实践
- 可视化 | 使用PyPlutchik库可视化文本的情绪轮(情绪指纹)
- 可视化 | 使用pynimate库绘制动态可视化图
- 可视化 | 使用LovelyPlots库绘制科学论文、论文和演示文稿的可视化图形
- 可视化 | 使用ggdag包绘制有向图
- prettymaps库 | 绘制绝美地图
七、R语言
- 相关性分析 | 从模型预测出发挖掘更多特征之间的关系
- R语言 | ggplot2简明绘图之散点图
- R语言 | ggplot2简明绘图之直方图
- R语言 | ggplot2简明绘图之动态图
- R语言 | 使用posterdown包制作学术会议海报
- R语言 | 使用ggsci包绘制sci风格图表
- R语言 | ggpubr包让数据可视化更加优雅
- R语言 | 让统计更easy的easystats集合包
- R语言 | 使用shiny的reactive表达式写应用程序
- R语言 | 使用stargazer包输出格式化回归结果
- R语言 | 使用word2vec词向量模型
- R语言 | 绘制文本数据情感历时趋势图