news 2026/4/17 23:39:00

AI大模型实战——关于自然语言处理,你需要了解的基本概念

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI大模型实战——关于自然语言处理,你需要了解的基本概念

目录

    • 一、NLP 基础
    • 二、文本预处理
      • 2.1、文本清洗
      • 2.2、分词
      • 2.3、去除停用词
      • 2.4、词干提取
      • 2.5、词形还原
      • 2.6、词性标注
      • 2.7、命名实体识别
    • 三、特征提取
      • 3.1、词袋模型(Bag of Words,BoW)
      • 3.2、词嵌入(Word Embeddings)
    • 四、模型训练
      • 4.1、评估与应用

本文来源:极客时间vip课程笔记

注:后续技术类文章会同步到我的公众号里,搜索公众号小志的博客感兴趣的读友可以去找来看看。

一、NLP 基础

  • NLP是人工智能的一个重要分支,研究的目的是让计算机能够理解、解释和生成人类语言。NLP 结合了计算机、人工智能和语言学等多个学科的方法,尽可能缩小人类语言与计算机理解之间的差距。一般来说,包含四个步骤

    1、文本预处理:将原始文本转换成易于机器理解的格式。包括分词(将文本分解成单词或短语)、去除停用词、词干提取、词性标注等。

    2、特征提取:从处理过的文本中提取特征,以便用于机器学习模型。这通常涉及将文本转换为数值形式,如词袋模型或词嵌入 Word Embedding,也就是向量化。

    3、模型训练:使用提取的特征和相应的机器学习算法来训练模型,可能是分类器、回归模型、聚类算法等。

    4、评估与应用:评估模型的性能,并在实际应用中使用模型来解释、生成或翻译文本。

  • NLP 的应用场景非常广泛,搜索引擎、语音转换、文本翻译、系统问答等几乎覆盖我们生活的方方面面。下面我们一步一步去学习一下相关的技术,首先就是文本预处理。

二、文本预处理

  • 文本预处理是 NLP 中的一项基础且关键的步骤,目的是将原始文本转换成易于机器理解和处理的格式。这一步骤通常涉及多个不同的任务,具体包括以下几个步骤。

2.1、文本清洗

  • 文本清洗主要包括去除噪声及标准化文本等。去除噪声是指清除文本中对分析无关紧要的部分,比如 HTML 标签、标点符号、特殊字符等。你可以参考我给出的示例代码。

    importredefremove_noise(text):# 去除HTML标签 text=re.sub(r'<.*?>','',text)# 去除标点符号和特殊字符 text=re.sub(r'[^\w\s]','',text)returntext text="<p>Hello, World! Here's a <a href='https://example.com'>link</a>.</p>"clean_text=remove_noise(text)print(clean_text)# 全部标准化成小写 tokens_normalized=[token.lower()fortoken in clean_text]print(tokens_normalized)
  • 输出:

    HelloWorldHeresa link['h','e','l','l','o',' ','w','o','r','l','d',' ','h','e','r','e','s',' ','a',' ','l','i','n','k']

2.2、分词

  • 将文本分解成词汇、句子等。

    from nltk.tokenizeimportword_tokenizetext="Natural language processing (NLP) is a field of computer science."tokens=word_tokenize(text)print(tokens)
  • 输出:

    ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'computer', 'science', '.']

2.3、去除停用词

  • 停用词是文本中频繁出现但对分析意义不大的词,如 is、and 等。去除它们可以提高处理效率和分析效果,同时还可以使数据集变小。

    from nltk.corpusimportstopwordsimportredefremove_noise(text):# 去除HTML标签 text=re.sub(r'<.*?>','',text)# 去除标点符号和特殊字符 text=re.sub(r'[^\w\s]','',text)returntext #从停用词库取出英文相关的停用词,放到 set 集合中, stop_words=set(stopwords.words('english'))print(stop_words)text="<p>Hello, World! Here's a <a href='https://example.com'>link</a>.</p>"clean_text=remove_noise(text)print(clean_text)tokens_normalized=[token.lower()fortoken in clean_text]print(tokens_normalized)filtered_tokens=[wordforword in tokens_normalizedifnot word in stop_words]print(filtered_tokens)
  • 输出:

    {"you'd",'just','shouldn', 'here', 'as', 'mightn',"wasn't",'him','have','you','an','not','mustn','ma','o','myself','what','was',"shouldn't",'during','wouldn','no',"mightn't",
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:58:29

如何高效提取Wallpaper Engine资源:RePKG实用指南

如何高效提取Wallpaper Engine资源&#xff1a;RePKG实用指南 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 想要解锁Wallpaper Engine壁纸包的内部资源吗&#xff1f;RePKG正是你…

作者头像 李华
网站建设 2026/4/11 11:04:42

5分钟本地AI编程神器:Open Interpreter + Qwen3-4B快速上手指南

5分钟本地AI编程神器&#xff1a;Open Interpreter Qwen3-4B快速上手指南 获取更多AI镜像 想探索更多AI镜像和应用场景&#xff1f;访问 CSDN星图镜像广场&#xff0c;提供丰富的预置镜像&#xff0c;覆盖大模型推理、图像生成、视频生成、模型微调等多个领域&#xff0c;支持…

作者头像 李华
网站建设 2026/4/18 7:59:44

Voice Sculptor:基于LLaSA与CosyVoice2的指令化语音合成实践

Voice Sculptor&#xff1a;基于LLaSA与CosyVoice2的指令化语音合成实践 1. 技术背景与核心价值 近年来&#xff0c;随着深度学习在语音合成领域的持续突破&#xff0c;传统TTS&#xff08;Text-to-Speech&#xff09;系统已逐步向可控性更强、表达更自然的方向演进。然而&am…

作者头像 李华
网站建设 2026/4/7 17:34:00

Qwen3-VL-2B-Instruct知识蒸馏:小型化模型部署教程

Qwen3-VL-2B-Instruct知识蒸馏&#xff1a;小型化模型部署教程 1. 引言 随着多模态大模型在视觉理解、语言生成和跨模态推理能力上的持续突破&#xff0c;Qwen3-VL 系列成为当前最具代表性的视觉-语言模型之一。其中&#xff0c;Qwen3-VL-2B-Instruct 作为该系列中轻量级但功…

作者头像 李华
网站建设 2026/4/18 1:50:22

LeagueAkari游戏助手完整教程:英雄联盟玩家的终极效率工具

LeagueAkari游戏助手完整教程&#xff1a;英雄联盟玩家的终极效率工具 【免费下载链接】LeagueAkari ✨兴趣使然的&#xff0c;功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari 还在…

作者头像 李华
网站建设 2026/4/18 8:19:39

5分钟快速部署Open Interpreter,零基础打造本地AI编程助手

5分钟快速部署Open Interpreter&#xff0c;零基础打造本地AI编程助手 1. 引言&#xff1a;为什么需要本地AI编程助手&#xff1f; 在当前大模型驱动的开发浪潮中&#xff0c;越来越多开发者希望借助AI提升编码效率。然而&#xff0c;使用云端API存在数据隐私泄露、运行时长限…

作者头像 李华