一、数据集介绍
「上证e互动、深证互动易」问答记录
覆盖日期: 2009-04-09 ~ 2024-12-31
数据来源: 上证e互动、深证互动易
数据格式: csv
企业数: 5344
记录条数: 5364719
所含字段:
- symbol 股票代码
- shortName 公司简称
- indexId 网址ID(供爬虫使用)
- question 提问内容
- questionDate 提问时间
- authorName 提问者昵称
- authorCode 提问者ID
- answer 回答内容
- answerDate 回答时间
本文声明: 如有问题, 请加微信372335839,备注「姓名-学校-专业」
二、查看数据
2.1 读取数据
import pandas as pd
df = pd.read_csv('互动平台问答文本.csv.gz', compression='gzip')
df.head()
2.2 数据量
#数据量
len(df)
Run
5364719
2.3 企业数
#企业数
df.symbol.nunique()
Run
5344
三、可视化
3.1 字段缺失情况
import missingno as ms
ms.matrix(df)
所有字段均是饱满的黑柱, 看不到条纹。 因此该数据集字段不存在明显的数据缺失情况。
3.2 按年度显示问答记录量(条数)
from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf')
volumes = []
df['questionDate'] = pd.to_datetime(df['questionDate'])
df.set_index('questionDate', inplace=True)
for date, y_df in df.groupby(pd.Grouper(freq='YE')):
years.append(date.year)
volumes.append(len(y_df))
data = pd.DataFrame({'year': range(2009, 2025),
'volume': volumes})
(
ggplot(data, aes(x='year', y='volume'))
+geom_bar(stat='identity')
+labs(title='上证e互动、深证互动易年度问答记录量(2009-2024)',
x = '年度',
y = '记录量(条)')
+geom_text(aes(label='volume'), # 添加数据标签
va='bottom', # 垂直对齐方式为底部(即在柱子顶部)
size=8, # 设置字体大小
format_string='{}') # 格式化字符串
+theme(figure_size=(10, 6),
text = element_text(family = font_prop.get_name(), size=14),
plot_title = element_text(family = font_prop.get_name(), size=18)
)
+scale_x_continuous(breaks=range(2009, 2025, 5))
)
相关文献
丁慧, 吕长江, 陈运佳. 投资者信息能力:意见分歧与股价崩盘风险——来自社交媒体“上证e互动”的证据[J]. 管理世界, 2018, 34 (09): 161-171.
丁慧, 吕长江, 黄海杰. 社交媒体、投资者信息获取和解读能力与盈余预期——来自“上证e互动”平台的证据[J]. 经济研究, 2018, 53 (01): 153-168.
高敬忠, 杨朝, 彭正银. 网络平台互动能够缓解企业融资约束吗——来自交易所互动平台问答的证据[J]. 会计研究, 2021, (06): 59-75.
卞世博, 陈曜, 汪训孝. 高质量的互动可以提高股票市场定价效率吗?——基于“上证e互动”的研究[J]. 经济学(季刊), 2022, 22 (03): 749-772.