news 2026/6/10 12:26:35

知识图谱(七)之数据处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱(七)之数据处理

一数据标注回顾

1.1整体思路

  1. 现在我们有txt和txtroiginal.

txt里面是标注数据,txtoriginal里面是原始数据,数据如下:

txt:

txtoriginal:

  1. 根据标注数据和标签类型构建字典

这是标签类型:

  1. 遍历原始数据,通过索引和标签的字典,给想引得位置打上标签.通过索引查字典,如果能查到则将对应的value作为标签,否则打上o的标签.

二代码实现

2.1使用路径拼接读取数据

import os import json cur = os.getcwd() print(cur) os.chdir('..') cur = os.getcwd() print(f'修改以后的目录{cur}') path=os.path.join(cur,'data/labels.json') print(f'拼接后的路径{path}') labels=json.load(open(path,'r',encoding='utf-8')) print(f'labels->{labels}')

2.1.1补充os.getcwd()方法:这个方法的缺陷是其他包在导入使用这个方法的包后,获取到的是其他包的路径,会导致读取数据出现错误

报错的原因是路径输出的是当前文件夹的路径,因为输出的不是导入的包的路径,所以找不到相关文件.

2.2.2使用os.path.abspath()的方法可以避免这个问题

import os import json # 如何设计,让这个代码在调用时,相对路径不随着调用位置变化而变化 file_path = os.path.abspath(__file__) print(f'file_path-->{file_path}') base_dir = os.path.dirname(file_path) print(f'base_dir-->{base_dir}') # 路径拼接 path = os.path.join(base_dir, '../data/labels.json') print(f'拼接之后的路径2-->{path}') # 读取json文件 labels = json.load(open(path, 'r', encoding='utf-8')) print(f'labels-->{labels}')

拼接好路径以后,使用os.walk()读取路径下的文件

这个方法返回的是可迭代对象,用循环的方法遍历,分别返回的是:文件夹路径,文件夹列表,文件列表

results = os.walk(os.path.join(base_dir, '../data_origin')) print(f'results-->{results}') for dir_path, dirs, files in results: # 路径、文件夹(列表)、文件(列表) print('*'*50) print(f'dir_path-->{dir_path}') print(f'dirs-->{dirs}') print(f'files-->{files}')

2.2数据处理

先获取实体的英文名,然后用B-英文名或者I-英文名拼接,,得到每实体里面每个字的标签.

遍历原始文本,通过标签数据的索引给原始文本里面的字打标签,如果没有这个字的标签,就打O

2.2.1拼接的方法

拼接结果:

2.2.2遍历原始文本,给实体打标签

找到索引提取value,找不到索引打O

2.2.3最终结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:09:21

如何高效实现文本相似度分析?GTE中文模型镜像一键部署指南

如何高效实现文本相似度分析?GTE中文模型镜像一键部署指南 1. 引言:语义相似度的工程价值与挑战 在自然语言处理(NLP)领域,文本相似度分析是信息检索、问答系统、推荐引擎和去重系统等场景的核心技术。传统方法如TF-…

作者头像 李华
网站建设 2026/6/8 0:01:16

DeepSeek-R1-Distill-Qwen-1.5B法律文书处理实战:垂直领域F1值提升15%

DeepSeek-R1-Distill-Qwen-1.5B法律文书处理实战:垂直领域F1值提升15% 1. 引言 随着大模型在垂直领域的深入应用,如何在资源受限的环境下实现高效、精准的专业任务处理成为工程落地的关键挑战。特别是在法律、医疗等对语义理解精度要求极高的场景中&am…

作者头像 李华
网站建设 2026/6/10 11:07:34

音频转录总缺情感标签?SenseVoiceSmall后处理优化实战教程

音频转录总缺情感标签?SenseVoiceSmall后处理优化实战教程 1. 引言:为什么传统语音识别无法满足情感分析需求? 在智能客服、会议纪要、视频内容分析等场景中,仅靠“语音转文字”已无法满足业务对上下文理解的深度需求。传统的AS…

作者头像 李华
网站建设 2026/6/7 12:25:56

Qwen3-Reranker-0.6B部署手册:本地开发环境配置

Qwen3-Reranker-0.6B部署手册:本地开发环境配置 1. 引言 随着信息检索和自然语言处理技术的不断发展,文本重排序(Re-ranking)在搜索、推荐和问答系统中扮演着越来越关键的角色。Qwen3-Reranker-0.6B 是通义千问系列最新推出的轻…

作者头像 李华
网站建设 2026/6/10 2:35:34

Sambert模型加载慢?磁盘I/O优化提升启动速度70%实战

Sambert模型加载慢?磁盘I/O优化提升启动速度70%实战 1. 引言:Sambert多情感中文语音合成的工程挑战 1.1 开箱即用镜像的背景与价值 Sambert-HiFiGAN 是当前主流的高质量中文语音合成方案之一,尤其在多情感、多发音人场景下表现出色。阿里达…

作者头像 李华
网站建设 2026/5/30 11:25:28

终于找到好用的语音情感分析工具,附详细步骤

终于找到好用的语音情感分析工具,附详细步骤 1. 背景与需求:为什么需要语音情感分析? 在智能客服、会议纪要、在线教育、心理评估等场景中,仅靠“语音转文字”已无法满足对用户情绪和语境理解的需求。传统ASR(自动语…

作者头像 李华