news 2026/6/10 12:26:33

红楼梦相关的分词,出现次数最高的20个(python版)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
红楼梦相关的分词,出现次数最高的20个(python版)

运行代码

import jieba

txt = open("C:/Users/3574045633/Desktop/红楼梦.txt", "r", encoding='gb18030').read()
words = jieba.lcut(txt)
counts = {}

alias_map = {
'宝玉': '贾宝玉', '宝二爷': '贾宝玉', '怡红公子': '贾宝玉',
'黛玉': '林黛玉', '颦儿': '林黛玉', '林妹妹': '林黛玉',
'宝钗': '薛宝钗', '宝姑娘': '薛宝钗', '宝姐姐': '薛宝钗',
'凤姐': '王熙凤', '凤辣子': '王熙凤', '琏二奶奶': '王熙凤',
'老太太': '贾母', '史太君': '贾母', '老祖宗': '贾母',
'太太': '王夫人',
'探春': '贾探春', '三姑娘': '贾探春',
'湘云': '史湘云',
'袭人': '袭人', '花袭人': '袭人',
'姥姥': '刘姥姥',
}

for word in words:
if len(word) == 1:
continue
if word in alias_map:
word = alias_map[word]
counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)

for i in range(20):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))

输出示例

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 12:18:32

别再手动建节点了!用Python+Neo4j批量导入CSV,5分钟搞定唐诗知识图谱

PythonNeo4j自动化构建唐诗知识图谱实战指南 当我们需要处理大量结构化的唐诗数据时&#xff0c;手动在Neo4j中创建节点和关系不仅效率低下&#xff0c;还容易出错。本文将带你用Python脚本实现CSV数据的自动化导入&#xff0c;5分钟完成传统方式需要数小时的手工操作。 1. 环…

作者头像 李华
网站建设 2026/6/10 12:10:37

别再折腾硬路由了!用VMware和Cisco vWLC 8.5在家搭建企业级无线网络(保姆级避坑指南)

家庭网络革命&#xff1a;用虚拟化技术打造企业级无线环境1. 为什么家庭用户需要企业级无线解决方案在智能家居设备爆炸式增长的今天&#xff0c;传统家用路由器已经难以满足现代家庭对无线网络的需求。当你的家中同时有4K视频流、在线游戏、智能家居设备和远程办公需求时&…

作者头像 李华
网站建设 2026/6/10 12:10:36

代数曲面饱和性:概念、判定与应用

1. 代数曲面饱和性概述 代数曲面的饱和性是代数几何中一个深刻而富有技术性的概念&#xff0c;它刻画了曲面在某种"极大性"意义下的完备特性。简单来说&#xff0c;一个代数曲面X被称为饱和的&#xff0c;如果它不能通过添加有限个点的方式进一步"扩大"而不…

作者头像 李华