今日分享一个数据集 纽约时报 nytimes.com,该网站在墙内可正常访问。
一、纽约时报新闻数据集
1.1 概况
数据集: 纽约时报新闻数据集(2000~2025.3.1)
数据来源: https://www.nytimes.com/
采集方式: API(https://developer.nytimes.com/apis)
使用语言: 英文
记录数两: 293326
覆盖日期: 2000-01-01~2025.3.1
数据格式: csv
数据体积: 1.75 G
所含字段: title, pub_date, section, subsection, author, abstract,
lead_paragraph, keywords, img_url, web_url
本文声明: 如有问题, 请加微信372335839,备注「姓名-学校-专业」
1.2 数据用途
可提取丰富的指标,包括但不限于 **经济政策不确定性指数 **、环境政策不确定性、 媒体关注度指数、文本相似度、情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。
相关参考文献
[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.
二、查看数据
2.1 读取数据
import pandas as pd
df = pd.read_csv('纽约时报新闻数据集.csv.gz', compression='gzip')
#或 解压得到csv再读取
#df = pd.read_csv('纽约时报新闻数据集.csv')
print('记录条数:', len(df))
df
Run
记录条数: 2191515
2.2 所含字段
for col in df.columns:
print(f' - {col}')
Run
- title 标题
- pub_date 文章发布日期
- section 栏目(如运动、观点、纽约、世界、美国等)
- subsection 二级栏目(如运动、观点、纽约、世界、美国等)
- author 作者
- abstract 摘要
- lead_paragraph 文章导语
- keywords 关键词
- img_url 图片链接
- web_url 文章原文链接
2.3 覆盖日期
df['pub_date'] = pd.to_datetime(df['pub_date'])
print('覆盖日期:', df['pub_date'].min(), '~' ,df['pub_date'].max())
Run
覆盖日期: 2000-01-01 05:00:00+00:00 ~ 2025-03-01 00:39:55+00:00
三、可视化
3.1 字段缺失情况
import missingno as ms
ms.matrix(df)
从上图可以看出 subsection、 img_url 这两个字段存在较为严重的缺失, author 、 keywords、 abstract、lead_paragraph 存在轻微的缺失情况。
3.1 按年度,统计发文量
from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf')
volumes = []
df['pub_date'] = pd.to_datetime(df['pub_date'])
df2 = df.set_index('pub_date')
for date, y_df in df2.groupby(pd.Grouper(freq='YE')):
volumes.append(len(y_df))
data = pd.DataFrame({'year': range(2000, 2026),
'volume': volumes})
(
ggplot(data, aes(x='year', y='volume'))
+geom_bar(stat='identity')
+labs(title='纽约时报nytimes新闻年度发文量(2000-2025.3.1)',
x = '年度',
y = '发文量(条)')
+geom_text(aes(label='volume'), # 添加数据标签
va='bottom', # 垂直对齐方式为底部(即在柱子顶部)
size=8, # 设置字体大小
format_string='{}') # 格式化字符串
+theme(figure_size=(10, 6),
text = element_text(family = font_prop.get_name(), size=14),
plot_title = element_text(family = font_prop.get_name(), size=18)
)
+scale_x_continuous(breaks=range(2000, 2026, 3))
)