一、数据集概况

媒体名称: New York Times
覆盖年度: 1920 ~ 2020
记录条数: 11027535
所含字段: year, title, excerpt
数据集地址: https://www.kaggle.com/datasets/tumanovalexander/nyt-articles-data/data



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_parquet('nyt_data.parquet')
df.drop_dupliacates(inplace=True)
df


2.2 文本长度

title_mean_len = df.title.str.len().mean()
excerpt_mean_len = df.excerpt.str.len().mean()
print(f'标题平均长度: {title_mean_len:.2f}')
print(f'摘录平均长度: {excerpt_mean_len:.2f}')

Run

标题平均长度: 173.30
摘录平均长度: 68.43

2.3 缺失率

这里我们定义文本长度为0,则该字段为缺失。

title_na_ratio = 100 * df[df.title.str.len()==0].size / df.size
excerpt_na_ratio = 100 * df[df.excerpt.str.len()==0].size / df.size

print(f'标题缺失率: {title_na_ratio:.2f}%')
print(f'摘录缺失率: {excerpt_na_ratio:.2f}%')

Run

标题缺失率: 0.00%
摘录缺失率: 52.25%



类似的数据集

媒体名称: Times of India
覆盖年度: 2001 ~ 2023.q2
记录条数: 3876557
所含字段: publish_date, headline_category, headline_text
数据集地址: https://www.kaggle.com/datasets/therohk/india-headlines-news-dataset



三、相关内容



广而告之