LIST | 社科(经管)数据挖掘文献资料汇总
如何从网络世界中高效地采集数据?是否能从文本中挖掘出人类的偏见等认知信息?如何从杂乱的文本数据中抽取文本信息(变量)?本文汇总的列表将让你对文本、对Python文本分析个全面的了解...
如何从网络世界中高效地采集数据?是否能从文本中挖掘出人类的偏见等认知信息?如何从杂乱的文本数据中抽取文本信息(变量)?本文汇总的列表将让你对文本、对Python文本分析个全面的了解...
如何使用Python从网络中爬取数据,如何从文本数据中抽取信息。本文汇总了常见的python代码案例,方便大家快速学习...
非结构文本、图片、视频等数据是待挖掘的数据矿藏, 在经管、社科等研究领域中谁拥有了从非结构提取结构化信息的能力,谁就拥有科研上的数据优势。正则表达式是一种强大的文档解析工具,但它们常常难以应对现实世界文档的复杂性和多变性。而随着chatGPT这类LLM的出现,为我们提供了更强大、更灵活的方法来处理多种类型的文档结构和内容类型。For many years, regular expressions have been my go-to tool for parsing documents, and I am sure it has been the same for many other technical folks and industries.Even though regular expressions are powerful and successful in some case, they often struggle with the complexity and variability of real-world documents.Large language models on the other end provide a more powerful, and flexible approach to handle many types of document structures and content types....
报告以文本分析方法为例,围绕着文本产生、作用、算法、编程四个方面展开。报告人结合自己的最新研究对大数据时代文本分析方法在管理领域的应用展开讨论,介绍文本编码常见算法,诸如词典法、文档向量化、词向量等,分享此类研究的过程和要点。Application of Text Analysis in Economics and Management Research 西安交通大学管理学院孙少龙老师。...
我们使用最新的机器学习技术——**词嵌入模型**——和209,480份盈利电话会议记录创建了一本文化词典。我们对2001年至2018年期间的62,664个公司年度观察数据的**五个公司文化价值——创新、诚信、质量、尊重和团队合作**进行评分。结果表明,创新文化比公司创新的通常衡量标准——研发支出和专利数量——更广泛。此外,我们还表明,企业文化与业务结果相关,包括运营效率、风险承担、盈利管理、高管薪酬设计、企业价值和交易等,并且文化-绩效联系在困难时期更加显著。最后,我们提供了初步证据,表明企业文化受到重大公司事件(如合并和收购)的影响。...