个人感觉博客 textdata.cn 文本分析代码案例都集中在这里了,我将内容按大类分成
- Python语法
- 数据采集
- 数据处理&Pandas
- 正则表达式
- pandas常用方法
- pandas性能优化
- 其他操作
- 文本分析
- 概览
- 词典法
- 词向量
- 大语言模型
- 数据标注&机器学习
- 数据标注
- 监督机器学习
- 非监督机器学习
- 可视化
- R语言
- 其他
一、Python语法
二、数据采集
- 网络爬虫 | 使用scrapegraph-ai(大模型方案)自动采集网页数据
- 网络爬虫 | 采集穷游网某城市旅游景点
- 网络爬虫 | 使用Python披露采集 Up 主视频列表详情信息
- 网络爬虫 | 批量采集话题「如何评价淄博烧烤?」的回答
- 网络爬虫 | 使用Python采集豆瓣「全职儿女」小组组员信息
- 网络爬虫 | 使用Python采集B站弹幕和评论数据
- 百度指数 | 使用qdata采集百度指数
- Maigret库 | 查询某用户名在各平台网站的使用情况
三、数据处理&Pandas
3.1 文本处理
使用正则表达式可以筛选文本数据,做数据预处理(数据清洗)
3.2 常用方法
3.3 性能优化&其他操作
四、文本分析
4.1 概览
4.2 词典法
- cntext库 | 中文情感分析包
- 推荐 | 中文文本分析cntext2.x库使用手册
- tfidf有权重的情感分析
- Asent库 | 英文文本数据情感分析
- 欢迎各位向cntext库分享情感词典
- 中文金融情感词典
- 文本分析 | 中国企业高管团队创新注意力
4.3 社交网络分析
4.4 词向量
- 可视化 | 人民日报语料反映七十年文化演变
- 实验 | 互联网黑话与MD&A
- 豆瓣影评 | 探索词向量妙处
- 词向量 | 使用1亿B站用户签名训练word2vec词向量
- 预训练词向量模型的方法、应用场景、变体延伸与实践总结
- Python | 词移距离(Word Mover’s Distance)
- 训练&使用 Glove 语言模型, 可度量刻板印象等
- BERTopic库 | 使用预训练模型做话题建模
- BERTopic | 使用推特数据构建 动态主题模型模
- KeyBERT | 关键词发现库
- Top2Vec | 主题建模和语义搜索库
- FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型
- sentence-transformer库 | 句子语义向量化
- WordBias库 | 发现偏见(刻板印象)的交互式工具
- GTE中文通用文本向量表示模型
- Shifterator库 | 词移图分辨两文本用词风格差异
4.4 大语言模型
- simpleT5 库 | 根据英文摘要内容生成标题
- 以聚类为例 | 使用大语言模型LLM做文本分析
- 教程 | 如何使用 Ollama 下载 & 使用本地大语言模型
- 实验 | 使用大模型从文本中提取结构化信息
- 实验 | 如何使 Ollama 结构化输出 JSON 样式的结果
- 实验 | 使用本地大模型DIY制作单词书教案PDF
- 实验 | 使用 Crewai 和 Ollama 构建智能体(AI Agent)帮我撰写博客文章
- 实验 | 使用本地大模型预测在线评论情感类别
五、提取特征&机器学习
5.1 监督机器学习
5.2 非监督机器学习
六、可视化
- 可视化 | 如何在matplotlib中显示中文
- cntext2.x | 新增读取pdf/docx| 提取MD&A | 文本可视化等功能
- 可视化 | 使用umap对200维词向量的进行降维和可视化
- 使用patchwork包进行多图排版
- 可视化 | 使用 DataMapPlot 绘制数据地图
- B站 | “高铁互殴"视频词云图绘制
- 可视化 | 睡前消息的科学社会、科学技术、社会化抚养话题可视化
- 可视化 | 使用whatlies库可视化词向量
- 可视化 | 绘制《三体》人物关系网络图
- 可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势
- 可视化 | 微博用户群体情绪随时间变化趋势
- 可视化 | 使用 chatGPT 做词频统计&词云图
- 可视化(推荐) | Netflix 数据可视化最佳实践
- 可视化 | 2021年幸福指数&人口数据可视化最佳实践
- 可视化 | 使用PyPlutchik库可视化文本的情绪轮(情绪指纹)
- 可视化 | 使用pynimate库绘制动态可视化图
- 可视化 | 使用LovelyPlots库绘制科学论文、论文和演示文稿的可视化图形
- 可视化 | 使用ggdag包绘制有向图
- prettymaps库 | 绘制绝美地图
七、R语言
- 相关性分析 | 从模型预测出发挖掘更多特征之间的关系
- R语言 | ggplot2简明绘图之散点图
- R语言 | ggplot2简明绘图之直方图
- R语言 | ggplot2简明绘图之动态图
- R语言 | 使用posterdown包制作学术会议海报
- R语言 | 使用ggsci包绘制sci风格图表
- R语言 | ggpubr包让数据可视化更加优雅
- R语言 | 让统计更easy的easystats集合包
- R语言 | 使用shiny的reactive表达式写应用程序
- R语言 | 使用stargazer包输出格式化回归结果
- R语言 | 使用word2vec词向量模型
- R语言 | 绘制文本数据情感历时趋势图