news 2026/6/10 10:32:39

新闻文本主题关键词提取 2006-2025

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新闻文本主题关键词提取 2006-2025

CNPaperData

随着互联网的普及与媒体数字化转型,新闻报道成为社会大众获取信息、了解时事的主要渠道。每天产生的大量新闻文本不仅记录了社会事件的发展轨迹,也反映了公众关注的焦点和舆论走向。如何从这些海量文本中提炼出有价值的结构化信息,已成为新闻传播学、社会科学以及自然语言处理等领域的重要研究问题。

传统的人工分析方式难以应对大规模新闻数据,因此需要借助自动化的文本挖掘与建模方法。本研究基于新闻语料(光明日报、人民日报2024~2025年每日新闻文本,以及新闻联播2006~2024年的新闻文本),采用主题建模(Topic Modeling) 的思路,通过 潜在狄利克雷分配(LDA, Latent Dirichlet Allocation) 模型对新闻文本进行无监督学习,识别其中潜在的主题分布与关键词特征。并且预设了八大方向(经济、科技、民生、环保、外交、教育、医疗、安全),对每篇新闻文本输出概率最大的五个主题和适配的方向词。希望能为后续研究(政策研究、社会热点监测、媒体报道风格分析等方向)提供数据支持。

数据信息

CNPaperData

  • 数据来源:数据来源于新闻报道

  • 数据范围:光明日报、人民日报、新闻联播

  • 时间跨度:2006~2025

  • 数据格式:xlsx

  • 数据字段:

date

newspaper

topic1_id

topic1_name

probability1

topic2_id

topic2_name

probability2

topic3_id

topic3_name

probability3

topic4_id

topic4_name

probability4

topic5_id

topic5_name

probability5

max_topic_id

max_topic_name

max_topic_keywords

max_probability

final_direction

数据展示

CNPaperData

参考文献

cNPaperData

[1]方匡南,戴明晓,郑挺国,等。国家治理政府注意力指数构建及其应用 —— 基于新闻文本的测度 [J]. 统计研究,2025,42 (03):131-145.

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 2:15:05

矩阵QR 分解在SLAM,目标检测,图像特征方面的应用

矩阵QR分解是将矩阵分解为一个正交矩阵Q和一个上三角矩阵R的乘积的过程,在SLAM、目标检测、图像特征提取等领域有着广泛且重要的应用,以下为你详细介绍: 同时定位与地图构建(SLAM) 优化位姿求解 在SLAM中,位…

作者头像 李华
网站建设 2026/6/6 13:37:22

手把手教你实现大模型驱动的多智能体SOC自动化分析系统

这篇文章介绍了一个基于大模型的多智能体安全运营中心(SOC)自动化分析助手,通过5个专用智能体系统实现威胁指标提取、VirusTotal集成、MITRE ATT&CK映射、CVE情报获取、数字取证与事件响应规划等功能。系统使用LangGraph构建流水线,可生成结构化JSON…

作者头像 李华
网站建设 2026/6/5 12:55:09

别再卷传统赛道了,Java转型AI大模型开发,真香!非常详细建议收藏

“AI会取代我的工作吗?” 这恐怕是现在每个职场人睡前都要琢磨的问题。 尤其是在技术迭代加速的IT圈,看着AI自动生成代码、定位bug、甚至辅助架构设计,不少程序员更是陷入“被替代”的焦虑——难道多年积累的技术经验,真的要被A…

作者头像 李华
网站建设 2026/6/10 1:23:35

巨鲸写作领衔6款AI论文神器:一键生成初稿,AIGC率低至6%!

在学术写作竞争日益激烈的当下,大学生、研究生与科研人员面对的是时间紧、任务重、质量要求高的多重压力。传统写作方式已无法满足高频、多学科、跨场景的论文需求。AI论文工具的崛起,正以一键生成、智能合规、极低AIGC率三大硬核优势,彻底颠…

作者头像 李华
网站建设 2026/6/6 12:56:43

可以设定时长的耗时运算程序

可以设定时长的耗时运算程序,用于调试测试import timedef seconds_operation(s) -> None:"""耗时约输入的s秒钟的运算函数采用CPU密集型计算 时间校准,确保不同硬件下耗时稳定在s秒左右"""start_time time.perf_coun…

作者头像 李华