今日分享一个数据集「今日美国USA Today」,该网站是国内可合法访问(科学上网违法吗),只是访问速度比较慢。



一、USA Today数据集

1.1 概况

数据集:  USA Today
数据源:  https://www.usatoday.com/
记录数:  532628
覆盖日期: 2001-02-21 ~2024-06-30 
数据格式: CSV
数据体积: 3422 M
所含字段: date、title、content、author_link、publisher、link


1.2 说明

  • 科研用途;需要的请加微信 372335839, 备注「姓名-学校-专业-news」

1.3 数据用途

可提取丰富的指标,包括但不限于 **经济政策不确定性指数 **、环境政策不确定性媒体关注度指数文本相似度情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。

相关参考文献

[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('USA_Today.csv.gz', compression='gzip')
df.head()


2.2 所含字段

df.columns

Run

Index(['date', 'title', 'content', 'author_link', 'publisher', 'link'], dtype='object')

2.3 查看记录数

print('记录数:', len(df))

Run

记录数: 532628

2.4 覆盖日期

df['date'] = pd.to_datetime(df['date'])

print('起:  ', df['date'].min())
print('止:  ', df['date'].max())

Run

起:   2001-02-21 21:01:00
止:   2024-06-30 10:55:00

2.5 数据体积

size = sum(df.memory_usage(deep=True)/1024/1024)
print(f'数据体积 {size:.2f} M')

Run

数据体积 3422 M

2.6 发文量统计

按月度,统计发文量

months = []
for date, month_df in df.groupby(pd.Grouper(key='date', freq='M')):
    #print(date)
    months.append((date, len(month_df)))
data = pd.DataFrame(months)
data.columns = ['date', 'count']
data

from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf') 

date_labels = [str(y) for y in range(2001, 2025)]


(
    ggplot(data,  aes(x='date', y='count'))
    +geom_point()
    +geom_line()
    +theme(figure_size=(10, 6),
           text = element_text(family = font_prop.get_name()), 
           plot_title = element_text(family = font_prop.get_name(), size=14)
          )
    +labs(title='USA Today月度发文量(2001.02 ~2024.06)',
          x = '月度', 
          y = '发文量')
    +scale_x_datetime(labels = date_labels, breaks=date_labels)
)



三、相关内容



精选内容