Fish-Speech-1.5效果评测:专业播音员对比测试
1. 这次盲测,我们想弄明白什么
语音合成技术发展到现在,已经不是“能不能说”的问题,而是“说得像不像真人”、“听感舒不舒服”、“情绪传不传得准”的问题。Fish-Speech-1.5作为近期备受关注的开源TTS模型,宣传中提到它在多语言支持、零样本克隆和情感表达上都有突破。但参数和指标再漂亮,最终还是要落到耳朵里。
所以这次我们没看文档、没查论文,直接做了场“闭眼听”的盲测——把Fish-Speech-1.5生成的语音和三位不同风格的专业播音员实录放在一起,邀请12位来自教育、媒体、有声书制作等领域的听众,在完全不知情的前提下打分。测试内容覆盖日常对话、新闻播报、故事讲述三类典型文本,重点考察自然度、清晰度、情感表达、语调连贯性四个维度。
整个过程不设预设答案,也不引导判断。比如当一段语音听起来略显平直时,我们不会说“这是AI合成的”,而是让听众单纯回答:“这段话让你觉得说话人是轻松、紧张、疲惫,还是别的状态?”这种从真实听感出发的方式,比任何技术报告都更接近用户实际体验。
测试用的Fish-Speech-1.5版本为官方发布的v1.5(非S1-mini),运行环境为RTX 4090显卡,使用WebUI默认参数,参考音频选用公开可用的干净人声样本(5-8秒),未做额外后处理。所有对比音频统一采样率、比特率和响度标准化,确保公平性。
2. 自然度:像不像一个“活人”在说话
2.1 停顿与呼吸感,藏着最真实的线索
自然度是语音合成最难攻克的一关。真人说话从来不是匀速输出,而是在意群之间有微小停顿,在长句末尾有气息回收,在强调词前有短暂蓄力。这些细节加起来,构成了我们常说的“呼吸感”。
在测试中,我们选了一段带转折的日常对话:“其实我昨天就看到了那条消息,只是……还没想好怎么回复。”专业播音员A的处理是:在“只是”后有一个约0.3秒的气口,声音略微下沉,随后“还没想好”语速稍缓,尾音轻收。这种处理让整句话有了思考的痕迹。
Fish-Speech-1.5的表现则呈现出另一种真实——它没有刻意模仿人类的犹豫,但通过语速的细微变化和音高的自然滑落,营造出相似的节奏感。尤其在“只是……”这个省略号处,模型自动延长了停顿时间,并降低了基频,让听感上确实产生了“欲言又止”的效果。12位听众中有9位认为这一处的停顿“不突兀”,甚至有2位误判为真人录音。
不过,在连续短句场景中,模型略显“利落”。比如“快点来!别迟到了!马上开始!”这组指令式短句,播音员B用了阶梯式加速+句末上扬的处理,制造紧迫感;而Fish-Speech-1.5虽然准确传达了急迫语气,但三句话之间的衔接过于紧密,缺少真人那种“说完一句、等对方反应”的留白。有听众反馈:“像一台高效执行命令的设备,而不是一个会观察现场的人。”
2.2 音色稳定性,越长越见真章
我们还设计了一个120秒的连续朗读片段,包含数字、专有名词、口语化表达和书面语转换。专业播音员C全程保持音色统一,仅在不同语境下调整共鸣位置(如念数据时偏口腔,讲故事时偏胸腔)。
Fish-Speech-1.5在前60秒表现稳健,音色饱满度和颗粒感接近真人。但从第75秒起,部分听众注意到轻微的“电子味”浮现——不是刺耳的失真,而是高频泛音略显单薄,导致某些辅音(如“s”“sh”)的质感不如真人丰润。这可能与VQ-GAN声码器在长序列重建时的累积误差有关。有趣的是,这种变化非常微妙,只有经过专业训练的耳朵或反复对比才能察觉,普通用户在单次收听中大概率不会意识到。
3. 清晰度:字字入耳,还是含混带过
3.1 复杂发音组合的硬核考验
清晰度测试我们选了两组“高难度选手”:一是中文绕口令“黑化肥发灰,灰化肥发黑”,二是英文科技文本中的专业术语组合(如“quantum entanglement decoherence”)。这两类内容对发音准确性、音节边界处理和连读规则理解都是极限挑战。
在中文测试中,Fish-Speech-1.5对“黑/灰”“发/肥”的声母韵母区分非常到位,每个字的时长和力度控制合理,没有出现常见的“糊成一团”现象。尤其值得肯定的是,它处理了中文特有的“轻声”变化——“化肥”的“肥”在语流中自然弱化,而非机械地按字典音读出。相比之下,某位播音员为追求艺术表现力,将“灰化肥”三字连读成近似“灰-化-肥”,反而让部分听众第一遍没听清。
英文测试则暴露了当前模型的局限。面对“quantum entanglement decoherence”,模型能准确发出每个音节,但在“entanglement”和“decoherence”的连读过渡上略显生硬,缺少母语者那种音节间自然的同化现象(如“t”在“entanglement”中常弱化为闪音)。不过,所有听众一致认为:可懂度毫无问题。即使发音不够地道,信息传递依然完整,这恰恰是实用场景中最关键的底线。
3.2 背景噪音下的鲁棒性
我们还模拟了真实使用场景:在咖啡馆环境音(约55dB)中播放同一段语音。结果出乎意料——Fish-Speech-1.5生成的语音在嘈杂背景下反而辨识度更高。原因在于其合成语音的频谱能量分布更集中,中频段(500Hz-2kHz)能量突出,恰好是人耳在噪音中最敏感的区域;而真人录音因追求自然感,高频细节更丰富,反而容易被环境音掩蔽。
一位从事无障碍产品设计的听众点评道:“如果做老年语音助手,这点很实用。老人听力下降主要在高频,模型这种‘中频强化’的特性,可能比完全拟真的录音更友好。”
4. 情感表达:不只是“读出来”,而是“说出来”
4.1 情感标记的魔法,让提示词变成指挥棒
Fish-Speech-1.5最让人惊喜的,是它对情感标记的响应能力。官方文档列出的几十种情感标签(如“(兴奋)”“(困惑)”“(轻声)”)不是摆设,而是真正可操作的“语音开关”。
我们输入同一句话:“这个方案可能需要再讨论一下。”
- 加上“(困惑)”标记后,模型自动降低语速,提高句尾音高,且在“讨论”二字上做了轻微的气声化处理,听感上就是一个人微微皱眉、带着疑问语气在说话;
- 改为“(疲惫)”后,基频整体下移,语句末尾明显拖长,甚至在“一下”处加入了极细微的叹气感;
- 用“(轻声)”则触发了完全不同的发声机制——音量降低的同时,共振峰向鼻腔偏移,产生类似耳语的亲密感。
这种精准控制远超传统TTS的“语速/音调”二维调节。它让使用者从“朗读者”变成了“导演”,只需在文本中插入简单符号,就能调度出丰富的表演层次。一位有声书主播试用后说:“以前要录10遍找感觉,现在写好标记,一次生成就接近理想状态。”
4.2 情感的真实感,藏在“不完美”里
但情感表达也有它的边界。当我们尝试“(歇斯底里)”这类高强度情绪时,模型生成的声音虽有音高剧烈起伏和语速加快,却缺少真人那种失控感带来的气息颤抖和音色撕裂。它更像一个“高度模仿情绪的优秀演员”,而非“被情绪支配的本人”。
有意思的是,这种“克制”反而在某些场景成了优势。测试中有一段客服对话:“很抱歉给您带来不便,我们会立即为您处理。”若用真人播音员的“真诚歉意”演绎,部分听众觉得略带表演痕迹;而Fish-Speech-1.5用“(诚恳)”标记生成的版本,语气平稳、语速适中、重音落在“立即”上,反而传递出更可信的行动力。这提醒我们:技术不必追求100%拟真,有时“恰到好处的克制”才是专业服务的真谛。
5. 综合体验:它适合什么样的你
这次盲测下来,Fish-Speech-1.5给我的整体印象是:它不追求成为某个播音员的复制品,而是努力成为一个可靠、灵活、有温度的语音伙伴。它的强项很清晰——在保证基础清晰度的前提下,用极简的操作(几秒音频+几个标记)解锁远超预期的情感表现力;它的短板也坦诚——长文本的绝对稳定性、超高阶情绪的原始冲击力,还有提升空间。
如果你是内容创作者,需要快速为短视频配不同情绪的旁白,它能省下90%的录音返工时间;如果你是教育工作者,想为课件生成带提问语气的讲解语音,它的标记系统会让你爱不释手;如果你是开发者,需要集成TTS到应用中,它的本地部署能力和多语言支持就是现成的生产力工具。
当然,它不会取代顶尖播音员在电影配音、高端广告等对艺术表现力极致追求的领域。但在这个人人都需要语音产出的时代,Fish-Speech-1.5证明了一件事:好的技术不是让我们仰望大师,而是让每个人都能拥有属于自己的声音表达力。我试用时最开心的时刻,是把一段自己写的文案,加上“(幽默)”标记,听到生成语音里那个恰到好处的停顿和上扬语调——那一刻,我听到的不是AI,而是我自己想法的延伸。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。