news 2026/4/18 7:00:15

MATE:多代理无障碍模式转换框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MATE:多代理无障碍模式转换框架

概述

本研究提出了一个开源支持框架–多代理翻译环境(MATE),它利用多代理系统(MAS)来解决残疾用户在数字环境中面临的无障碍问题。MATE 是一个利用多代理系统 (MAS) 的开源支持框架。

MATE 可根据用户需求在不同模式(文本、语音、图像、视频等)之间进行翻译,从而使有视觉或听觉障碍的人能够轻松获取信息。
其功能包括 ModCon-Task-Identifier 模型,该模型可分析用户输入并自动识别最合适的转换任务,从而实现文本到语音 (TTS)、语音识别 (STT)、图像标题生成 (ITT) 和图像到语音解释 (ITA) 等多种任务。

此外,还建立了用于模态转换任务分类的专用数据集 “ModConTT”,并对照现有的 LLM 和机器学习模型进行了评估。
结果表明,所提出的模型准确率高、成本低,有望应用于医疗、教育和交通等广泛领域。

建议的方法

MATE 由一个解释用户请求的 "解释器代理 "和七个执行特定转换任务的不同 "专业代理 "组成。

解释器代理从输入文本中识别任务类型,并将处理任务分配给相关的专业代理。

每个代理都利用现有的高性能模型(如 Whisper、Stable Diffusion、Tacotron 2、BLIP 等)来执行转换任务,如 TTS、STT、TTI(文本到图像)、ITT(图像到文本)、ITA(图像到音频)、ATI(音频到图像)和 VTT(视频到文本)以及其他转换任务。文本)和其他转换。

在任务确定方面,ModCon-Task-Identifier 是使用作者创建的 ModConTT 数据集对 BERT 进行微调的版本,与一般的 LLM 和经典的机器学习模型相比,ModCon-Task-Identifier 的准确性更高。

该系统设计为本地运行,提供隐私保护和灵活定制,适合医疗和教育领域的实时支持。

实验

在实验中,首先使用 ModConTT 数据集将几个 LLM(GPT-3.5-Turbo、Llama-3.1-70B 和 GLM-4-Flash)作为解释器进行比较。

在对 230 个样本进行任务分类时,GPT-3.5-Turbo 表现出很高的性能,准确率为 0.865,但采用微调 BERT 的 ModCon-Task-Identifier 的准确率最高,准确率为 0.917,F1 分数为 0.916。

此外,通过与其他经典模型(如使用 TF-IDF 和 BERT 嵌入的逻辑回归和随机森林)进行比较,也证实了所提出模型的优越性。

误分类分析表明,UNK(未知任务)类别的失败率最高,其次是 STT 和 ATV。

这些结果证明了 MAS+ 专业化模型在复杂的模式转换任务中的有效性,并支持其作为医疗保健和教育领域的支持工具发挥巨大作用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 19:03:20

翻斗雨量监测站:精准感知降水动态

降水作为影响生态、农业、城市运行的关键自然要素,其精准监测是防灾减灾、资源管理的重要基础。翻斗雨量监测站凭借高精度、高可靠性的机械结构与智能化数据传输能力,成为气象、水利、农业等领域降水数据采集的核心设备,为科学决策提供实时、…

作者头像 李华
网站建设 2026/4/17 5:12:02

基于SpringBoot和Vue的机票预定系统的设计与实现-计算机毕业设计源码+LW文档分享

摘 要 伴随着我国社会的发展,人民生活质量日益提高。于是对机票进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套机票预定系统,帮助用户进行航班信息…

作者头像 李华
网站建设 2026/4/12 9:00:54

46、Perl编程:高级特性与常用模块应用

Perl编程:高级特性与常用模块应用 1. 面向对象模块的使用 在Perl中,面向对象编程(OOP)的很多部分是可选的。你可以少量使用OOP,也可以将所见的一切都进行面向对象化。在脚本中使用Perl的OOP,一个简单的方法是采用面向对象的方式使用各种CPAN模块,而不一定要将自己的脚…

作者头像 李华
网站建设 2026/4/16 17:04:59

8 款 AI 工具:PPT 制作的 “场景化效率矩阵”,你选对组合了吗?

从学术答辩的严谨框架,到职场汇报的逻辑数据,再到活动宣讲的视觉吸引力,PPT 是不同场景下 “信息传递效率” 的核心载体。但多数人都困在 “模板找半天、排版耗几小时” 的低效循环里 ——paperxie 的 AI PPT 生成器是入门级解决方案&#xf…

作者头像 李华
网站建设 2026/4/18 0:21:18

Calculator Game:UI状态管理、表达式语法树解析与前端交互式校验

技术实践观察地址: Calculator Game 摘要: 数字计算游戏(如 24 点)的前端实现,是对UI状态管理和表达式语法树解析的一次深度考验。本文将探讨如何利用现代前端框架的响应式系统(Reactivity System&#xf…

作者头像 李华