报名信息
-
时间:2022.10.03 ~ 2022.10.04
-
地点: 小鹅通平台(线上直播)
-
报名咨询: 17816181460(同微信)(汪老师)
-
报名费:2500元
- 单位:杭州国商智库信息技术服务有限公司
- 开户银行: 中国银行杭州大学城支行
- 银行账户:6232636200100260588
简介
在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!
在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。大数据时代,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:
- 网络爬虫 解决 如何从网络世界中高效地 采集数据?
- 文本分析 解决 如何从杂乱的文本数据中 构建指标?
为方便大家感受到文本数据的魅力,按照是否采用某项技术(爬虫、词频、词袋、w2v建词典、w2v认知变迁),从五个维度标记代表性的7篇论文。
文献 | 爬虫 | 定性 | 词频 | 词袋 | W2V建词典 | W2V认知变迁 |
---|---|---|---|---|---|---|
王伟 , 陈伟, 祝效国 and 王洪伟, 2016. 众筹融资成功率与语言风格的说服性–基于 Kickstarter 的实证研究. 管理世界, (5), pp.81-98. | Y | Y | Y | |||
语言具体性如何影响顾客满意度 Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806. |
Y | |||||
Wang, Quan, Beibei Li, and Param Vir Singh. “Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis.” Information Systems Research 29, no. 2 (2018): 273-291. | Y | Y | ||||
文本相似度 Cohen, L., Malloy, C. and Nguyen, Q., 2020. Lazy prices. The Journal of Finance, 75(3), pp.1371-1415. |
Y | |||||
胡楠, 薛付婧 and 王昊楠, 2021. 管理者短视主义影响企业长期投资吗———基于文本分析和机器学习. 管理世界, 37(5), pp.139-156. | Y | Y | ||||
Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies, 2020 | Y | Y | ||||
女性就职高管改变组织内性别偏见 Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. “Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language.” Proceedings of the National Academy of Sciences 119, no. 9 (2022): e2026443119. |
Y |
主讲老师
大邓,哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。在多所大学分享数据采集和文本分析。运营公众号:大邓和他的Python,主要分享Python、爬虫、文本分析、机器学习等内容。
一、入门语法
- Python跟英语一样是一门语言
- 数据类型之字符串
- 数据类型之列表元组集合
- 数据类型之字典
- 数据类型之布尔值、None
- 逻辑语句(if&for&tryexcept)
- 列表推导式
- 理解函数
- 常用的内置函数
- os路径库
- 内置库csv文件库
- 常见错误汇总
二、数据采集
- 网络爬虫原理
- 寻找网址规律
- 获取网页-requests库
- pyquery库解析html网页
- 案例: 豆瓣小说
- json库解析json网页
- 案例: 豆瓣电影
- 案例: 微博
- 案例: 文件下载
- 案例: 上市公司定期报告pdf批量下载
- 区分动态网站与静态网站
三、文本初识
- 从信息传播视角重新认识文本
- 读取各类文件中的数据
- 案例: 识别图片中的文本
- 数据清洗re库
- 案例: 将多个数据文件汇总至一个csv文件
- 案例: 中文jieba分词、词频统计、制作词云图
- 案例: 使用共现(word2vec)法扩展情感词典
- 案例: 使用词典做情感分析(无权重)
- 案例: 数据分析pandas库快速入门
- 案例: 使用pandas对excel中的文本进行情感分析
四、文本进阶
- 文本分析与机器学习
- 特征工程-认识词袋法、one-hot、Tf-Idf、word2vec
- 将文档转为机器可处理的向量
- 案例: 使用情感词典和tf-idf做情感分析(有权重)
- 案例: 在线评论文本分类
- 案例: 使用文本相似性识别变化(政策连续性)
- 案例: Kmeans聚类算法、LDA话题模型
- 文本中的人类记忆(认知)
- 如何测量人类认知偏见(刻板印象)
- 案例: 词向量模型的使用方法-豆瓣影评
- 文本分析在经管社科领域中的应用概述
参考文献
[1]沈艳, 陈赟 and 黄卓, 2019. 文本大数据分析在经济学和金融学中的应用: 一个文献综述. *经济学 (季刊)*, *18*(4), pp.1153-1186.
[2]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J/OL].南开管理评论:1-27[2022-04-08].http://kns.cnki.net/kcms/detail/12.1288.F.20210905.1337.002.html
[3]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[4]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[5]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[6]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[7]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[8]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." *Journal of Business and Psychology* 33, no. 4 (2018): 445-459.
[9]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[10]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[11]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[12]Hoberg, Gerard, and Gordon Phillips. 2016, Text-based network industries and endogenous product differentiation,?*Journal of Political Economy* 124, 1423-1465
[13]Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." *The Journal of Finance* 66, no. 1 (2011): 35-65.
[14]Fairclough, Norman. 2003. Analysing discourse: Textual analysis for social research (Psychology Press)
[15]Grimmer, Justin, and Brandon M Stewart. 2013, Text as data: The promise and pitfalls of automatic content analysis methods for political texts, *Political analysis*21, 267-297.
[16]Markowitz, D. M., & Shulman, H. C. (2021). The predictive utility of word familiarity for online engagements and funding. Proceedings of the National Academy of Sciences, 118(18).
[17]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” Journal of Consumer Research 47, no. 5 (2021): 787-806.
[18]Chen, H., Yang, C., Zhang, X., Liu, Z., Sun, M. and Jin, J., 2021. From Symbols to Embeddings: A Tale of Two Representations in Computational Social Science. Journal of Social Computing, 2(2), pp.103-156.
[19]Lawson, M. Asher, Ashley E. Martin, Imrul Huda, and Sandra C. Matz. "Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language." *Proceedings of the National Academy of Sciences* 119, no. 9 (2022): e2026443119.