news 2026/6/10 13:53:08

【字符编码】字符串处理流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【字符编码】字符串处理流程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

      • 一、先搞懂两个核心编码概念(通俗版)
      • 二、完整流程拆解:从.cpp文件到输出“哈哈”(VS编译+运行)
        • 阶段1:翻译阶段(源代码解析,对应source-charset)
        • 阶段2:生产阶段(生成运行代码,对应execution-charset)
        • 阶段3:运行阶段(程序执行,变量赋值)
        • 阶段4:输出阶段(cout打印)
      • 三、解答你最关心的几个具体问题
        • 1. “把字符串常量打包成UTF-8格式放到最终程序里”是什么意思?
        • 2. `string s="哈哈"` 字符串存入变量是什么阶段?放入变量就是放在程序里吗?
        • 3. 翻译阶段和生产阶段的核心区别?
      • 总结

这里有几个问题我不清楚

源代码解析编码、运行时字符串编码是什么意思,这个我搞不清楚
只管 “生产阶段”:仅告诉编译器 “把代码里的字符串常量,打包成 UTF-8 格式放到最终程序里”。 这个放在程序中是什么意思
string s=“哈哈” 字符串常量存放进入变量里面是什么阶段,放入变量就是放在程序里面的意思吗
你说的生产阶段和翻译阶段我还是不等,一个某种编码cpp文件边vs编译读取到变量并输出这个过程你详细说一下

你想弄明白“源代码解析编码”“运行时字符串编码”的具体含义,还想清楚从UTF-8编码的.cpp文件被VS编译,到string s="哈哈"里的字符串存入变量、最终输出的完整过程,尤其是“翻译阶段”“生产阶段”对应的实际操作,以及“把字符串打包到程序里”到底是什么意思——我用“写纸条→翻译→打包→运行”的通俗比喻,一步步拆解整个流程,你就能彻底理解了。

一、先搞懂两个核心编码概念(通俗版)

把编译器和程序比作“翻译员+仓库管理员”,编码就是“沟通规则”:

编码类型通俗解释类比场景
源代码解析编码(source-charset)编译器“读懂”你写的.cpp文件的规则(相当于翻译员读你写的纸条的规则)你用“UTF-8字体”写了“哈哈”在纸条上,翻译员默认只会认“GBK字体”,得告诉他按UTF-8认
运行时字符串编码(execution-charset)编译器把“纸条上的关键内容”抄到“运行时手册”(.exe程序)里的书写规则翻译员把“哈哈”抄到手册里时,用UTF-8写还是GBK写,程序运行时就按这个规则读

二、完整流程拆解:从.cpp文件到输出“哈哈”(VS编译+运行)

我们以最常见的场景为例:

  • 你的.cpp文件是无BOM的UTF-8编码(新手最常遇到的格式);
  • 代码核心是:string s="哈哈"; cout << s;
  • 全程用VS2019/2022编译运行。

整个过程分4个阶段,每个阶段讲清楚“做什么、编码怎么作用、‘哈哈’发生了什么变化”:

阶段1:翻译阶段(源代码解析,对应source-charset)

核心动作:编译器(cl.exe)打开你的.cpp文件,逐字节“读”文件内容,把字符转换成自己能处理的内部格式(比如Unicode)。
编码的关键作用:解决“编译器能不能认对‘哈哈’”的问题。

  • 无设置(默认情况):
    编译器按GBK(编码页936)解析文件字节。“哈哈”的UTF-8字节是E5 93 88 E5 93 88(6个字节),但编译器按GBK规则拆,会把这6个字节当成3个GBK字符(比如乱码“铪铪”),甚至因为字节组合不合法,直接报「常量中有换行符」「语法错误」——这就是“解析失败”,编译都过不了。
  • 设了/source-charset:utf-8
    编译器按UTF-8规则解析这6个字节,正确识别出是“哈哈”两个字,转换成内部的Unicode格式(U+54C8 U+54C8)——这一步编译器才算“读懂”了你的代码。
阶段2:生产阶段(生成运行代码,对应execution-charset)

核心动作:编译器把“读懂”的代码转换成计算机能执行的机器指令,同时处理字符串常量。
编码的关键作用:解决“把‘哈哈’以什么格式存到.exe里”的问题。

  • 关键操作:
    编译器会把内部的“哈哈”(Unicode)再转换成execution-charset指定的编码(比如UTF-8),然后把这些字节(E5 93 88 E5 93 88打包到最终生成的.exe文件里——这就是“把字符串常量放到程序里”的具体含义!
  • 重要说明:
    .exe文件不只是“执行指令”,还有一块专门的“常量数据区”(硬盘上),“哈哈”的UTF-8字节就存在这里;此时还没有“变量s”,变量是运行时才有的。
阶段3:运行阶段(程序执行,变量赋值)

核心动作:你双击.exe文件,操作系统把.exe加载到内存,CPU执行机器指令。
“哈哈”存入变量的过程

  1. 程序运行到string s="哈哈"这一行时,先从.exe的“常量数据区”(硬盘加载到内存)读取“哈哈”的UTF-8字节(E5 93 88 E5 93 88);
  2. 操作系统在内存里开辟一块空间,创建string类型的变量s
  3. 把读取到的“哈哈”字节复制到s的内存空间里——这就是“字符串常量存入变量”,这个过程发生在运行阶段(不是编译阶段)。
阶段4:输出阶段(cout打印)

核心动作:程序执行cout << s,把变量s里的字节输出到Windows控制台。
编码的坑
Windows控制台默认用GBK(编码页936)显示内容,如果直接输出UTF-8字节,控制台会把E5 93 88 E5 93 88按GBK解析,显示成乱码(比如“鍝堝搱”)。

  • 解决办法:加SetConsoleOutputCP(65001),告诉控制台“按UTF-8规则解析显示字节”,这样就能正确输出“哈哈”。

三、解答你最关心的几个具体问题

1. “把字符串常量打包成UTF-8格式放到最终程序里”是什么意思?
  • 最终生成的.exe文件(在硬盘上)有两个核心部分:
    ① 机器指令(告诉CPU该做什么,比如“创建变量s”“输出s”);
    ② 常量数据区(存放固定不变的内容,比如"哈哈"的字节、数字100等)。
  • “打包到程序里”就是:编译器把"哈哈"转换成UTF-8字节,写入.exe的“常量数据区”——程序没运行时,这些字节就躺在硬盘的.exe文件里,运行时才被加载到内存。
2.string s="哈哈"字符串存入变量是什么阶段?放入变量就是放在程序里吗?
  • 存入变量:运行阶段(只有双击.exe,程序跑起来后才会执行这一步);
  • 不是一回事:
    • “放在程序里”:编译阶段,字节存在硬盘的.exe文件里(静态的,不运行也在);
    • “放入变量”:运行阶段,字节从.exe加载到内存的变量中(动态的,程序关了就没了)。
3. 翻译阶段和生产阶段的核心区别?
  • 翻译阶段:编译器“读文件、懂代码”(处理的是硬盘上的.cpp文件,核心是“解析”);
  • 生产阶段:编译器“写.exe、存常量”(处理的是要生成的.exe文件,核心是“生成”)。

总结

  1. 源代码解析编码(source-charset):管编译器“能不能读对”代码里的字符,解决编译报错问题;
  2. 运行时字符串编码(execution-charset):管编译器“把字符存成什么格式”到.exe里,解决运行时乱码问题;
  3. string s="哈哈":“哈哈”先在编译阶段以指定编码存到.exe里,运行阶段才加载到内存的变量s中,输出时还要匹配控制台编码才不会乱码。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 10:44:12

lora-scripts部署案例:企业级品牌Logo生成系统构建全记录

lora-scripts部署案例&#xff1a;企业级品牌Logo生成系统构建全记录 1. 引言&#xff1a;从需求到技术选型的闭环实践 在品牌数字化建设过程中&#xff0c;企业对视觉资产的一致性与可扩展性提出了更高要求。传统设计流程中&#xff0c;每款产品包装、宣传物料或数字广告都需…

作者头像 李华
网站建设 2026/6/10 10:46:21

YOLOv9模型导出ONNX?后续推理格式转换路径

YOLOv9模型导出ONNX&#xff1f;后续推理格式转换路径 1. 镜像环境说明 核心框架: pytorch1.10.0 CUDA版本: 12.1 Python版本: 3.8.5 主要依赖: torchvision0.11.0&#xff0c;torchaudio0.10.0&#xff0c;cudatoolkit11.3, numpy, opencv-python, pandas, matplotlib, tqdm…

作者头像 李华
网站建设 2026/6/10 10:46:15

通义千问3-Embedding-4B性能优化:批量处理提速技巧

通义千问3-Embedding-4B性能优化&#xff1a;批量处理提速技巧 1. 引言 随着大模型在检索增强生成&#xff08;RAG&#xff09;、跨语言语义匹配和长文档理解等场景中的广泛应用&#xff0c;高效、精准的文本向量化能力成为系统性能的关键瓶颈。Qwen3-Embedding-4B 作为阿里云…

作者头像 李华
网站建设 2026/6/10 10:45:23

S32DS使用一文说清:工程属性页关键参数解析

S32DS工程配置全解析&#xff1a;从编译到调试&#xff0c;一文掌握关键参数设置你有没有遇到过这样的情况&#xff1f;刚写完一段电机控制代码&#xff0c;信心满满点击“Debug”&#xff0c;结果烧录失败提示“Target not connected”&#xff1b;或者在单步调试时&#xff0…

作者头像 李华
网站建设 2026/6/10 10:42:49

麦橘超然定时任务设置:每日自动生成示例图

麦橘超然定时任务设置&#xff1a;每日自动生成示例图 1. 引言 1.1 业务场景描述 在AI图像生成服务的部署与推广过程中&#xff0c;持续提供高质量的示例图是提升用户体验和展示模型能力的重要手段。对于“麦橘超然”这类基于Flux.1架构的离线图像生成控制台而言&#xff0c…

作者头像 李华
网站建设 2026/6/10 10:39:11

Glyph推理卡顿?显存优化部署案例让效率翻倍

Glyph推理卡顿&#xff1f;显存优化部署案例让效率翻倍 1. 背景与问题提出 在当前大模型应用场景中&#xff0c;长文本上下文处理已成为智能问答、文档理解、法律分析等任务的核心需求。然而&#xff0c;传统基于Token的上下文扩展方式面临计算开销大、显存占用高、推理延迟显…

作者头像 李华