一、数据用途
新闻报刊类数据集 可提取丰富的指标,包括但不限于 **经济政策不确定性指数 **、环境政策不确定性、 媒体关注度指数、文本相似度、情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。
相关参考文献
[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.
二、「经济类新闻数据集」概况
自 新闻数据集(含60+报刊) 取出与经济、工业、消费相关媒体(如下表),方便经济、管理领域学者使用。
编号 | 媒体 | 起止日期 | 记录数 | 参考价格 |
---|---|---|---|---|
N133 | 经济观察报 | 2006-01-02 ~ 2024-06-07 | 61101 | 200元 |
N125 | 经济日报 | 2008-01-27 ~ 2024-05-24 | 427386 | 200元 |
N107 | 中国消费者报 | 2010-01-01 ~ 2024-05-24 | 106170 | 200元 |
N126 | 中国贸易报 | 2011-01-25 ~ 2024-05-23 | 73992 | 200元 |
N129 | 中国企业报 | 2011-04-01 ~ 2024-05-21 | 48290 | 100元 |
N121 | 中国经济导报 | 2012-09-01 ~ 2024-05-23 | 49405 | 100元 |
N128 | 中国工业报 | 2012-02-23 ~ 2024-05-24 | 90987 | 100元 |
N123 | 经济参考报 | 2015-01-05 ~ 2024-05-24 | 90847 | 100元 |
N127 | 中国工商报 | 2016-01-05 ~ 2024-05-24 | 70673 | 100元 |
N122 | 中国基金报 | 2014-03-03 ~ 2024-05-20 | 5671 | 50元 |
N119 | 中国政府采购报 | 2017-11-17 ~ 2024-05-24 | 22721 | 50元 |
N120 | 中国财经报 | 2017-11-11 ~ 2024-05-23 | 48131 | 50元 |
N124 | 每日经济新闻 | 2018-02-01 ~ 2024-05-24 | 43070 | 50元 |
N403 | 消费日报 | 2019-10-08 ~ 2024-05-24 | 6328 | 50元 |
覆盖时期最久的经济类日报是 经济观察报(2006-01-02~至今) ,其次是经济日报(2008-01-27), 点赞!!
三、实验代码
3.1 数据集统计信息
上述表格的基本信息是通过程序自动统计出来的, 代码如下
import glob
import pandas as pd
from prettytable import PrettyTable
table = PrettyTable()
table.field_names = ["编号", "媒体", "起止日期", "所含字段", "记录数", "体积"]
csvfs = sorted(glob.glob('*/*.csv.gz'))
for csvf in csvfs:
print(csvf)
df = pd.read_csv(csvf, compression='gzip')
df = df[df.date!='date']
df.drop_duplicates(inplace=True)
df['date'] = pd.to_datetime(df['date'])
code = csvf.split('/')[0].split('-')[0]
media_name = csvf.split('/')[0].split('-')[1]
start_date = df['date'].min().strftime('%Y-%m-%d')
end_date = df['date'].max().strftime('%Y-%m-%d')
date_range = f'{start_date} ~ {end_date}'
fields = '、 '.join(df.columns)
#数据占用内存的体积,该体积一般小于文件体积。
memeory_size = df.memory_usage(deep=True).sum()/(1024*1024)
memeory_size = round(memeory_size, 2)
table.add_row([code, media_name, date_range, fields, len(df), str(memeory_size)+' M'])
# 打印表格
print(table)
Run
+-------+----------------+-------------------------+------------------------+---------+-----------+
| 编号 | 媒体 | 起止日期 | 所含字段 | 记录数 | 体积 |
+-------+----------------+-------------------------+------------------------+---------+-----------+
| N107 | 中国消费者报 | 2010-01-01 ~ 2024-05-24 | date、 title、 content | 106170 | 702.11 M |
| N119 | 中国政府采购报 | 2017-11-17 ~ 2024-05-24 | date、 title、 content | 22721 | 54.94 M |
| N120 | 中国财经报 | 2017-11-11 ~ 2024-05-23 | date、 title、 content | 48131 | 125.61 M |
| N121 | 中国经济导报 | 2012-09-01 ~ 2024-05-23 | date、 title、 content | 49405 | 296.83 M |
| N122 | 中国基金报 | 2014-03-03 ~ 2024-05-20 | date、 content | 4376 | 24.26 M |
| N123 | 经济参考报 | 2015-01-05 ~ 2024-05-24 | date、 title、 content | 90847 | 604.59 M |
| N124 | 每日经济新闻 | 2018-02-01 ~ 2024-05-24 | date、 title、 content | 43070 | 162.33 M |
| N125 | 经济日报 | 2008-01-27 ~ 2024-05-24 | date、 content | 427386 | 926.97 M |
| N126 | 中国贸易报 | 2011-01-25 ~ 2024-05-23 | date、 title、 content | 73992 | 140.71 M |
| N127 | 中国工商报 | 2016-01-05 ~ 2024-05-24 | date、 title、 content | 70673 | 128.41 M |
| N128 | 中国工业报 | 2012-02-23 ~ 2024-05-24 | date、 title、 content | 90987 | 172.77 M |
| N129 | 中国企业报 | 2011-04-01 ~ 2024-05-21 | date、 title、 content | 48290 | 119.78 M |
| N133 | 经济观察报 | 2006-01-02 ~ 2024-06-07 | date、 title、content | 61101 | 326.47 M |023-01-01 ~ 2024-05-24 | date、 title、 content | 26338 | 60.13 M |
| N403 | 消费日报 | 2019-10-08 ~ 2024-05-24 | date、 content | 6321 | 94.94 M |
+-------+----------------+-------------------------+------------------------+---------+-----------+
3.2 查看部分数据
import pandas as pd
df = pd.read_csv('经济观察报.csv.gz')
memeory_size = df.memory_usage(deep=True).sum()/(1024*1024)
print(f'数据占用内存: {memeory_size:.2f} M')
df
数据占用内存: 326.01 M
四、购买数据
编号 | 媒体 | 起止日期 | 记录数 | 参考价格 |
---|---|---|---|---|
N133 | 经济观察报 | 2006-01-02 ~ 2024-06-07 | 61101 | 200元 |
N125 | 经济日报 | 2008-01-27 ~ 2024-05-24 | 427386 | 200元 |
N107 | 中国消费者报 | 2010-01-01 ~ 2024-05-24 | 106170 | 200元 |
N126 | 中国贸易报 | 2011-01-25 ~ 2024-05-23 | 73992 | 200元 |
N129 | 中国企业报 | 2011-04-01 ~ 2024-05-21 | 48290 | 100元 |
N121 | 中国经济导报 | 2012-09-01 ~ 2024-05-23 | 49405 | 100元 |
N128 | 中国工业报 | 2012-02-23 ~ 2024-05-24 | 90987 | 100元 |
N123 | 经济参考报 | 2015-01-05 ~ 2024-05-24 | 90847 | 100元 |
N127 | 中国工商报 | 2016-01-05 ~ 2024-05-24 | 70673 | 100元 |
N122 | 中国基金报 | 2014-03-03 ~ 2024-05-20 | 5671 | 50元 |
N119 | 中国政府采购报 | 2017-11-17 ~ 2024-05-24 | 22721 | 50元 |
N120 | 中国财经报 | 2017-11-11 ~ 2024-05-23 | 48131 | 50元 |
N124 | 每日经济新闻 | 2018-02-01 ~ 2024-05-24 | 43070 | 50元 |
N403 | 消费日报 | 2019-10-08 ~ 2024-05-24 | 6328 | 50元 |
-
强烈推荐!全套新闻数据集(60+家媒体), 原价5000元, 现在特价3000元。
-
推荐!经济类新闻数据集(含14家媒体), 打包原价1550, 现在特价1000元。
-
单买按 参考价格 交易。
支持开票,需要的请加微信372335839,备注【姓名-学校-专业-news】
更多数据集,请查看 LIST | 可供社科(经管)领域使用的数据集汇总