今日分享一个数据集「NOS.nl」,该网站需通过科学地方式连网访问。

NOS.nl 是荷兰公共广播组织(Nederlandse Omroep Stichting)的官方新闻网站,提供涵盖荷兰本土及全球的综合性新闻报道‌1。该网站以新闻时效性和深度分析为核心,内容涉及政治、经济、体育、文化等多个领域,并通过文字报道、实时更新及多媒体内容满足用户需求‌。



一、NOS.nl新闻数据集

1.1 概况

数据集:  NOS.nl新闻数据集
数据来源:  https://nos.nl/
使用语言: 荷兰文
记录数两:  293326
覆盖日期: 2015-01-01 ~2025-02-28
数据格式: csv
数据体积: 886 M
所含字段: channel, url, type, title, keywords, section, description,
       published_time, modified_time, image, content

本文声明: 如有问题, 请加微信372335839,备注「姓名-学校-专业」

1.2 数据用途

可提取丰富的指标,包括但不限于 **经济政策不确定性指数 **、环境政策不确定性媒体关注度指数文本相似度情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。

相关参考文献

[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('NOL荷兰新闻数据集.csv.gz', compression='gzip')
#或  解压得到csv再读取
#df = pd.read_csv('NOL荷兰新闻数据集.csv')

print('记录条数:', len(df))
df

Run

记录条数: 293326


2.2 所含字段

for col in df.columns:
    print(f' - {col}')

Run

- channel        频道 [两个不同的频道:nos, nieuwsuur]
- url            文章链接[NOS.nl 网站]
- type           文章类型 [2 种类型: article, liveblog]
- title          文章的标题
- keywords       关键词 [例如:moord谋杀,liquidatie暗杀,afrekening清算]
- section        例如:体育sports, 经济economie
- description    描述 [文章内容的简要概述]
- published_time 发布日期 [格式: 2024-10-31 23:00:42]
- modified_time  修改日期 [格式: 2024-10-31 23:00:42]
- image          图片链接
- content        原文html内容

2.3 覆盖日期

df['published_time'] = pd.to_datetime(df['published_time'])

print('覆盖日期:', df['published_time'].min(), '~' ,df['published_time'].max())

Run

覆盖日期: 2015-01-01 00:32:52 ~ 2025-02-28 23:34:07

三、可视化

3.1 字段缺失情况

import missingno as ms

ms.matrix(df)

该数据集只有 keywordssectionimage 存在轻微的字段缺失情况。


3.2 按年度,统计发文量


from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf') 


volumes = []
df['published_time'] = pd.to_datetime(df['published_time'])
df2 = df.set_index('published_time')
for date, y_df in df2.groupby(pd.Grouper(freq='YE')):
    volumes.append(len(y_df))

data = pd.DataFrame({'year': range(2015, 2026), 
                     'volume': volumes})


(
    ggplot(data,  aes(x='year', y='volume'))
    +geom_bar(stat='identity')
    +labs(title='荷兰NOS.nl新闻年度发文量(2015-2025.2.28)',
          x = '年度', 
          y = '发文量(条)')
    +geom_text(aes(label='volume'),  # 添加数据标签
               va='bottom',           # 垂直对齐方式为底部(即在柱子顶部)
               size=8,                # 设置字体大小
               format_string='{}')     # 格式化字符串
    +theme(figure_size=(10, 6),
           text = element_text(family = font_prop.get_name(), size=14), 
           plot_title = element_text(family = font_prop.get_name(), size=18)
          )
    +scale_x_continuous(breaks=range(2015, 2026, 3)) 

)



精选内容