说明

科研用途;需要的请加微信 372335839, 备注「姓名-学校-专业-news」。



一、「中文新闻报刊数据集」概况

报纸(数字版)数据集,媒体源 120家,

  • 35家国级,如 人民日报、光明日报、经济日报、人民政协报、中国青年报等
  • 85家省市级报刊(覆盖30个省份) , 新华日报(江苏)、扬子晚报(江苏);河北日报、燕赵晚报;天津日报、今晚报;宁波日报、青岛日报、杭州日报等

需要注意,一般日报是偏正式、严肃。而晚报、商报、都市报,内容更多样,风格较为轻松。 大家使用前注意下内容风格。


如Excel打开csv乱码, 请百度搜【在 Excel 中正确打开 CSV UTF-8 文件】


1.1 国家级报刊

+------+----------------+-------------------------+---------+-----------+
| 省份 |      报刊       |         起止日期          |  记录数  |    体积   |
+------+----------------+-------------------------+---------+-----------+
|      |    新闻联播    | 2016-02-04 ~ 2024-05-24 |   44623  |  164 M  |
|      |    人民日报    | 1946-05-15 ~ 2024-06-22 | 2027532 | 3838.51 M |
|      |    光明日报    | 1985-01-01 ~ 2024-06-22 |  862987 |  4022.7 M |
|      |   中国青年报   | 2005-01-01 ~ 2024-05-24 |  327806 | 1075.73 M |
|      |    农民日报    | 2011-01-01 ~ 2024-05-24 |  214136 | 1009.64 M |
|      |    经济日报    | 2008-01-27 ~ 2024-06-22 |  428692 |  926.95 M |
|      |   人民政协报   | 2008-01-02 ~ 2024-05-24 |  346525 |  734.6 M  |
|      |   中国消费报   | 2010-01-01 ~ 2024-05-24 |  106170 |  698.87 M |
|      |    参考消息    | 1957-03-09 ~ 2002-12-31 |  528545 |  633.15 M |
|      |   经济参考报   | 2015-01-05 ~ 2024-05-24 |  90847  |  601.83 M |
|      |   人民法院报   | 2010-01-01 ~ 2024-05-24 |  157167 |  399.99 M |
|      |    工人日报    | 2014-01-01 ~ 2024-06-22 |  193213 |  373.06 M |
|      |   中国气象报   | 1989-01-16 ~ 2024-05-24 |  228910 |  342.82 M |
|      |  中国经济导报  | 2012-09-01 ~ 2024-06-22 |  49606   |  296.55 M |
|      |    解放军报    | 2018-01-01 ~ 2024-05-24 |  112484 |  260.51 M |
|      |    法治日报    | 2021-01-01 ~ 2024-06-22 |  60984  |  201.45 M |
|      |   中国贸易报   | 2011-01-25 ~ 2024-05-23 |  73992  |  138.47 M |
|      |   中国工业报   | 2012-02-23 ~ 2024-05-24 |  90987  |  170.18 M |
|      |  每日经济新闻  | 2018-02-01 ~ 2024-06-21 |  43412  |  162.67 M |
|      |   中国工商报   | 2016-01-05 ~ 2024-05-24 |  70673  |  126.33 M |
|      |   中国财经报   | 2017-11-11 ~ 2024-05-23 |  48131  |  124.26 M |
|      |   中国企业报   | 2011-04-01 ~ 2024-05-21 |  48290  |  118.32 M |
|      |   中国经营报   | 2022-01-03 ~ 2024-05-20 |   8726  |  114.73 M |
|      |    检察日报    | 2022-01-01 ~ 2024-06-22 |  35918  |  97.45 M  |
|      |    消费日报    | 2019-10-08 ~ 2024-05-24 |   6321  |  94.85 M  |
|      |   中国国防报   | 2018-01-02 ~ 2024-05-24 |  29942  |  61.06 M  |
|      |   中国城市报   | 2021-01-04 ~ 2024-05-20 |   7197  |  27.16 M  |
|      |   中国教育报   | 2021-01-01 ~ 2024-05-24 |  22383  |  84.46 M  |
|      |    科技日报    | 2021-01-04 ~ 2024-05-24 |  31421  |  83.75 M  |
|      |   中国妇女报   | 2021-01-20 ~ 2024-05-24 |  29202  |  80.19 M  |
|      |   中国能源报   | 2019-01-07 ~ 2024-05-20 |  19306  |  57.25 M  |
|      | 中国政府采购报 | 2017-11-17 ~ 2024-06-21 |  22947  |  54.98 M  |
|      |   中国电影报   | 2019-05-29 ~ 2024-05-22 |  12288  |  36.38 M  |
|      |    科普时报    | 2018-01-05 ~ 2024-05-24 |  12654  |  30.71 M  |
|      |   中国基金报   | 2014-03-03 ~ 2024-05-20 |   4376  |   24.2 M  |
+------+----------------+-------------------------+---------+-----------+

1.2 省市级

+--------+--------------+-------------------------+--------+-----------+
|  省份  |     报刊     |         起止日期        | 记录数 |    体积   |
+--------+--------------+-------------------------+--------+-----------+
|  浙江  |   杭州日报   | 2022-01-01 ~ 2024-05-24 | 49445  |  216.11 M |
|  浙江  |   钱江晚报   | 2006-01-01 ~ 2024-05-24 | 673746 | 2522.17 M |
|  浙江  |   每日商报   | 2022-01-01 ~ 2024-05-24 | 40329  |  140.01 M |
|  浙江  |   浙江日报   | 2006-01-01 ~ 2024-05-24 | 444705 |  817.24 M |
|  浙江  |   宁波日报   | 2014-01-01 ~ 2024-03-31 | 160124 |  301.16 M |
|  浙江  |   都市快报   | 2022-01-01 ~ 2024-05-24 | 45028  |  186.12 M |
|  广东  |   南方日报  | 2023-01-01 ~ 2024-05-24 | 47577  |  405.51 M |
|  广东  |  南方都市报  | 2020-01-01 ~ 2024-05-24 | 58612  |  522.24 M |
|  广东  |   南方周末   | 2008-01-02 ~ 2023-05-31 | 75734  |  872.59 M |
|  广东  |  深圳特区报  | 2017-05-01 ~ 2024-05-24 | 171692 |  836.4 M  |
|  广东  |   深圳晚报   | 2017-05-02 ~ 2024-05-24 | 100023 |  390.9 M  |
|  广东  |   珠江晚报   | 2018-01-01 ~ 2024-06-22 | 89853  |  98.94 M  |
|  广东  |  珠海特区报  | 2018-01-01 ~ 2024-06-22 | 135648 |  523.58 M |
|  广东  |   广州日报   | 2022-05-29 ~ 2023-08-14 | 33159  |  74.92 M  |
|  广东  |   羊城晚报   | 2018-01-01 ~ 2024-05-24 | 207532 |  863.59 M |
|  山东  |   齐鲁晚报   | 2012-01-01 ~ 2014-03-10 | 325253 |  941.76 M |
|  山东  |  半岛都市报  | 2017-01-01 ~ 2024-05-24 | 191003 |  830.37 M |
|  山东  |   大众日报   | 2021-01-01 ~ 2023-07-28 | 71799  |  344.34 M |
|  山东  |   济南日报   | 2022-11-01 ~ 2024-01-08 | 14335  |  55.69 M  |
|  山东  |   济南时报   | 2022-11-01 ~ 2024-01-08 | 15389  |  73.12 M  |
|  山东  |  经济观察报  | 2006-01-02 ~ 2024-06-07 | 61101  |  320.74 M |
|  山东  |   青岛日报   | 2022-05-29 ~ 2024-05-24 | 30781  |  76.73 M  |
|  河南  |    大河报    | 2010-06-09 ~ 2024-05-23 | 300201 | 1273.86 M |
|  河南  |   河南商报   | 2007-11-20 ~ 2024-05-17 | 98273  |  468.26 M |
|  河南  |   郑州晚报   | 2008-06-02 ~ 2024-05-24 | 474628 |  1553.1 M |
|  江苏  |   新华日报   | 2021-12-01 ~ 2024-05-24 | 72515  |  181.58 M |
|  江苏  |   南京日报   | 2024-01-01 ~ 2024-06-22 |  9129  |  45.37 M  |
|  江苏  |   扬子晚报   | 2020-08-01 ~ 2024-05-24 | 71990  |  298.76 M |
|  上海  |    文汇报    | 2019-01-01 ~ 2024-05-24 | 76231  |  238.06 M |
|  上海  |   新民晚报   | 2018-12-28 ~ 2024-05-24 | 11566  |  107.56 M |
|  上海  |   解放日报   | 2023-01-01 ~ 2024-05-24 | 24697  |  165.69 M |
|  四川  |  华西都市报  | 2009-01-01 ~ 2024-05-24 | 265924 | 1092.56 M |
|  四川  |   四川日报   | 2022-01-01 ~ 2024-05-24 | 30568  |  71.44 M  |
|  云南  |   云南日报   | 2021-05-15 ~ 2024-06-22 | 60761  |  111.66 M |
|  云南  |   春城晚报   | 2019-01-02 ~ 2024-06-21 | 64516  |  109.62 M |
| 内蒙古 |  内蒙古日报  | 2017-01-01 ~ 2024-05-24 | 105112 |  212.55 M |
|  北京  |   北京日报   | 2021-01-01 ~ 2024-05-24 | 73810  |  187.57 M |
|  北京  |   北京晚报   | 2020-07-13 ~ 2024-05-24 | 83733  |  414.71 M |
|  北京  |    新京报    | 2012-01-01 ~ 2024-05-24 | 121652 |  308.23 M |
|  吉林  |   吉林日报   | 2022-01-01 ~ 2024-05-24 | 28373  |   63.0 M  |
|  吉林  |   城市晚报   | 2016-11-14 ~ 2024-05-24 | 81370  |  316.84 M |
|  天津  |    今晚报    | 2023-12-25 ~ 2024-06-22 | 20400  |  56.49 M  |
|  天津  |   天津日报   | 2022-09-01 ~ 2024-05-24 | 41775  |  75.44 M  |
|  宁夏  |   宁夏日报   | 2022-02-01 ~ 2024-05-24 | 36418  |  76.85 M  |
|  安徽  |   合肥日报   | 2023-06-25 ~ 2024-06-22 | 12318  |  51.19 M  |
|  安徽  |   合肥晚报   | 2023-06-25 ~ 2024-06-22 | 12657  |  56.13 M  |
|  安徽  |   安徽商报   | 2007-03-28 ~ 2024-06-22 | 93310  |  152.47 M |
|  安徽  |   安徽日报   | 2023-06-25 ~ 2024-06-22 | 20902  |  37.93 M  |
|  安徽  |   新安晚报   | 2022-01-04 ~ 2024-06-22 | 32980  |  53.97 M  |
|  山西  |   山西日报   | 2022-08-01 ~ 2024-05-24 | 35662  |  50.54 M  |
|  山西  |   山西晚报   | 2021-01-01 ~ 2024-05-24 | 37932  |  174.47 M |
|  广西  |   广西日报   | 2020-01-01 ~ 2024-05-24 | 170532 |  263.17 M |
|  新疆  |   新疆日报   | 2018-01-01 ~ 2024-05-24 | 88757  |  204.84 M |
|  江西  |   江西新闻   | 2018-09-01 ~ 2024-05-24 | 122594 |  228.83 M |
|  河北  |   河北日报   | 2018-01-02 ~ 2024-05-23 | 141332 |  336.95 M |
|  河北  |   燕赵晚报   | 2021-01-01 ~ 2024-05-24 | 37329  |  180.88 M |
|  西藏  |   西藏日报   | 2019-12-01 ~ 2024-05-24 | 55075  |  322.98 M |
|  海南  |  南国都市报  | 2013-01-01 ~ 2024-05-24 | 300891 |  380.18 M |
|  海南  |   海南日报   | 2008-03-01 ~ 2024-05-24 | 516119 |  835.39 M |
|  湖南  |   湖南日报   | 2021-01-01 ~ 2024-05-24 | 78022  |  421.3 M  |
|  湖南  |   潇湘晨报   | 2008-01-01 ~ 2024-05-24 | 267006 |  401.57 M |
|  甘肃  |   甘肃日报   | 2018-01-01 ~ 2024-06-22 | 119826 |  255.6 M  |
|  甘肃  | 甘肃经济日报  | 2017-04-06 ~ 2024-06-21 | 81191  |  326.59 M |
|  辽宁  |   辽宁日报   | 2019-01-01 ~ 2024-05-24 | 103454 |  176.69 M |
|  辽宁  |   辽沈晚报   | 2018-09-05 ~ 2024-05-24 | 62680  |  299.74 M |
|  辽宁  |   半岛晨报   | 2017-02-04 ~ 2023-05-31 | 102036 |  159.38 M |
|  陕西  |   西安日报   | 2019-06-10 ~ 2024-05-24 | 79217  |  162.26 M |
|  陕西  |   西安晚报   | 2019-06-10 ~ 2024-06-22 | 75127  |  319.2 M  |
|  陕西  |   陕西日报   | 2020-01-01 ~ 2024-05-24 | 69102  |  150.79 M |
|  贵州  |   贵州日报   | 2022-01-01 ~ 2024-05-24 | 64168  |  127.38 M |
| 黑龙江 |    生活报    | 2020-08-22 ~ 2024-05-24 | 31393  |  106.85 M |
| 黑龙江 |  黑龙江日报  | 2020-12-06 ~ 2024-05-24 | 44274  |  97.98 M  |
|  重庆  |   重庆日报   | 2022-01-01 ~ 2024-05-24 | 37255  |  107.46 M |
|  重庆  |   重庆晚报   | 2023-01-03 ~ 2024-05-24 |  9267  |  31.27 M  |
|  福建  |   厦门日报   | 2022-08-01 ~ 2023-11-09 | 25568  |  53.79 M  |
|  福建  |   厦门晚报   | 2022-08-01 ~ 2023-11-19 | 15577  |   23.4 M  |
|  福建  |  海峡都市报  | 2022-08-12 ~ 2024-05-24 | 17305  |  87.72 M  |
|  福建  |   福州日报   | 2021-04-24 ~ 2024-06-22 | 39667  |  70.53 M  |
|  福建  |   福州晚报   | 2023-01-01 ~ 2024-06-22 | 20612  |  28.22 M  |
|  福建  |   福建日报   | 2023-04-01 ~ 2024-05-24 | 21331  |  47.32 M  |
|  青海  |  西海都市报  | 2022-01-01 ~ 2024-06-22 | 27677  |  54.34 M  |
|  青海  |   青海日报   | 2022-01-01 ~ 2024-06-22 | 38828  |  92.16 M  |
|  湖北  |  楚天都市报  | 2023-01-01 ~ 2024-05-24 | 16225  |  33.64 M  |
|  湖北  |   湖北日报   | 2023-01-01 ~ 2024-05-24 | 26338  |  59.34 M  |
+--------+--------------+-------------------------+--------+-----------+

1.3 数据格式

所有数据均为 csv 文件,所含字段datetitlecontent 。数据集总体积 40+G。

少数几个媒体,只含date、content, 如人民日报、光明日报、中国青年报、中国政协报



二、查看数据

2.1 经济日报

少数几个媒体,只含date、content, 如人民日报、光明日报、中国青年报、中国政协报

import pandas as pd

df = pd.read_csv('经济日报.csv')
df


2.2 海南日报

省级日报中相对数据量比较大的日报, 覆盖日期 2008~2024。

import pandas as pd
df = pd.read_csv('海南日报.csv')
df


2.3 钱江晚报

浙江省的省级都市报,记录数挺多的, 覆盖日期 2006~2024。

import pandas as pd
df = pd.read_csv('钱江晚报.csv')
df



三、数据用途

中文新闻报刊类数据集 可提取丰富的指标,包括但不限于 经济政策不确定性指数环境政策不确定性媒体关注度指数文本相似度情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。

相关参考文献

[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.


四、相关内容



精选内容