一、数据集介绍

「上证e互动、深证互动易」问答记录

覆盖日期: 2009-04-09 ~ 2024-12-31

数据来源: 上证e互动、深证互动易

数据格式: csv

企业数: 5344

记录条数: 5364719

所含字段:
 -  symbol 股票代码
 -  shortName 公司简称
 -  indexId 网址ID(供爬虫使用)
 -  question 提问内容
 -  questionDate 提问时间
 -  authorName 提问者昵称
 -  authorCode 提问者ID
 -  answer 回答内容
 -  answerDate 回答时间
  
本文声明: 如有问题, 请加微信372335839,备注「姓名-学校-专业」



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('互动平台问答文本.csv.gz', compression='gzip')
df.head()


2.2 数据量

#数据量
len(df)

Run

    5364719

2.3 企业数

#企业数
df.symbol.nunique()

Run

5344


三、可视化

3.1 字段缺失情况

import missingno as ms

ms.matrix(df)

所有字段均是饱满的黑柱, 看不到条纹。 因此该数据集字段不存在明显的数据缺失情况。


3.2 按年度显示问答记录量(条数)

from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf') 


volumes = []
df['questionDate'] = pd.to_datetime(df['questionDate'])
df.set_index('questionDate', inplace=True)
for date, y_df in df.groupby(pd.Grouper(freq='YE')):
    years.append(date.year)
    volumes.append(len(y_df))

data = pd.DataFrame({'year': range(2009, 2025), 
                     'volume': volumes})


(
    ggplot(data,  aes(x='year', y='volume'))
    +geom_bar(stat='identity')
    +labs(title='上证e互动、深证互动易年度问答记录量(2009-2024)',
          x = '年度', 
          y = '记录量(条)')
    +geom_text(aes(label='volume'),  # 添加数据标签
               va='bottom',           # 垂直对齐方式为底部(即在柱子顶部)
               size=8,                # 设置字体大小
               format_string='{}')     # 格式化字符串
    +theme(figure_size=(10, 6),
           text = element_text(family = font_prop.get_name(), size=14), 
           plot_title = element_text(family = font_prop.get_name(), size=18)
          )
    +scale_x_continuous(breaks=range(2009, 2025, 5)) 

)



相关文献

丁慧, 吕长江, 陈运佳. 投资者信息能力:意见分歧与股价崩盘风险——来自社交媒体“上证e互动”的证据[J]. 管理世界, 2018, 34 (09): 161-171.

丁慧, 吕长江, 黄海杰. 社交媒体、投资者信息获取和解读能力与盈余预期——来自“上证e互动”平台的证据[J]. 经济研究, 2018, 53 (01): 153-168.

高敬忠, 杨朝, 彭正银. 网络平台互动能够缓解企业融资约束吗——来自交易所互动平台问答的证据[J]. 会计研究, 2021, (06): 59-75.

卞世博, 陈曜, 汪训孝. 高质量的互动可以提高股票市场定价效率吗?——基于“上证e互动”的研究[J]. 经济学(季刊), 2022, 22 (03): 749-772.