news 2026/6/11 20:03:40

【文献分享】EXPLANA一种用户友好型的工作流程,适用于横断面和纵向微生物组研究中的探索性分析和特征选择。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】EXPLANA一种用户友好型的工作流程,适用于横断面和纵向微生物组研究中的探索性分析和特征选择。


文章目录

    • 介绍
    • 代码
    • 参考

介绍

纵向微生物组研究(LMS)正变得越来越常见,但其分析过程中存在一些挑战,比如数据并非相互独立,这就需要使用混合效应模型来处理。此外,大量的数据促使进行探索性分析,以确定与结果变量相关的因素。尽管变化分析(即计算不同时间点特征的变化)可能非常有效,但如何最好地进行这些分析往往并不明确。例如,观察性的 LMS 测量显示出自然波动,因此基线可能不是主要关注的参考点,而对于干预性的 LMS,基线通常是关键的参考点,通常表示治疗的开始。

为应对这些挑战,我们为 LMS 开发了一种名为 EXPLANA(探索性分析)的特征选择工作流程,该流程能够处理数值型和分类型数据,并且还能适用于横断面研究。我们将机器学习方法与不同类型的变动计算以及下游解释方法相结合,以识别具有统计学意义的变量,并解释它们与结果之间的关系。EXPLANA 会生成一个交互式的报告,该报告以文字和图形的形式总结了方法和结果。EXPLANA 在模拟的纵向数据上表现良好,平衡准确率得分达到 0.91(范围:0.79 - 1.00,标准差 = 0.05),优于现有的工具 QIIME 2 特征波动性(平衡准确率:0.95 对 0.56),并且发现了新的与结果相关的顺序依赖型分类特征变化(例如,A_B 与 B_A 的效果不同)。EXPLANA 具有广泛的适用性,并简化了用于识别与感兴趣结果相关的特征的分析工作。

科学研究通常会涉及一系列复杂的多组学数据(Santiago-Rodriguez 和 Hollister 2021),例如微生物组(乌尔塞尔等人 2012 年)、转录组(赫德利科娃等人 2017 年)和代谢组(赞博尼等人 2015 年),人们很感兴趣的是,是否可能存在任何新的特征或特征集合与某个结果变量有关。此外,研究人员还会从个体中收集可能影响结果的其他数据,例如人口统计学和健康数据,或者关于饮食或药物的调查。可用数据量的不断增加使关于变量纳入的统计决策变得复杂,这些决策通常基于最初研究设计所激发的假设。此外,研究可以包含分类变量和数值变量,并且常常包含非独立的纵向数据,这带来了更大的统计挑战。随着研究进展,不同研究实验室之间的合作使得每个研究产生的数据量增多,而在研究设计和分析过程中常常会引入人为偏差。这些挑战最终激发了对数据驱动方法日益浓厚的兴趣。
数据量过大对微生物组研究产生了尤为显著的影响。微生物组研究旨在对病毒、真菌和细菌的群落及其基因进行特征描述。微生物组的特征分析通常通过 16S 核糖体 RNA(rRNA)基因测序来完成,该方法能够识别环境中的细菌和古菌种类。由于细菌群落的代谢潜力及其与众多人类疾病(包括肥胖症(马鲁瓦达等人,2017 年)、抑郁症(瓦莱斯-科洛默等人,2019 年)、自闭症谱系障碍(ASD)(克拉耶姆尼克-布朗等人,2015 年)、癌症(庄等人,2019 年;雷贝塞克,2021 年)、艾滋病(威廉斯等人,2016 年)和心血管疾病(维托科夫斯基等人,2020 年))的关联,肠道微生物组是一个被广泛研究的微生物环境。肠道微生物组与人类疾病的关系表明,通过诸如饮食改变、益生菌或粪便微生物移植等干预措施来调整肠道微生物组,可能为疾病预防或治疗提供新的选择。
为了了解健康状况的变化以及解决个体差异的影响,需要进行纵向研究,这类研究会从多个个体中收集不同时间点的数据。除了这些研究通常包含多样化的研究对象数据(包含数值变量和分类变量)之外,它们还包括对个体的重复测量,这需要对非独立数据中的特征之间的关系进行特殊统计考量(皮尼罗和贝茨 2000 年)。基于随机森林(RF)(布雷曼 2001 年)的机器学习(ML)方法对于结合不同数据类型来预测结果和识别重要特征非常有效。随机森林在高维数据(特征多于样本/实例)中表现良好(迪亚斯-乌里亚特和阿尔瓦雷斯·德·安德烈斯 2006 年),能够发现线性和非线性关系,并能处理非正态数据分布。此外,随机森林比许多其他机器学习模型更易于解释,因为它们基于简单的决策树,这可以提高复杂工具的可访问性。此外,混合效应随机森林(MERF)(哈杰梅等 2014 年)模型可用于纵向研究设计。然而,诸多挑战可能会阻碍这些方法的有效应用。
MERFs 可以基于纵向研究的原始(原始)数据进行计算,也可以通过不同参考时间点之间的差值/变化(Δ)来进行计算,这在某些研究中能够揭示出独特的见解(博库利奇等人,2018 年;费罗西诺等人,2018 年;梅斯利尔等人,2020 年;弗雷等人,2022 年;罗德内斯-加维迪亚等人,2023 年)。然而,所关注的研究问题可能会对 Δs 的最优计算方式产生影响。在某些设计中,例如干预措施或一些预期会随时间呈现趋势的观察性研究(例如婴儿生命最初几年的肠道微生物组变化(博库利奇等人,2018 年)),预期的变化会与基线值进行比较,因此 Δs 可以使用基线作为参考进行计算(费罗西诺等人,2018 年;弗雷等人,2022 年)。然而,一些观察性研究没有有意义的基线值,可能需要将结果变量与相邻时间点或所有时间点之间的预测变量的变化联系起来(福奎尔等人,2021 年;张等人,2021 年)。例如,在我们开展的一项针对患有自闭症谱系障碍(ASD)儿童的观察性纵向研究中(福奎尔等人,2021 年),我们对这些儿童进行了长期评估,以确定 ASD 相关行为与饮食、胃肠道不适以及微生物组之间的关系。由于人际间的肠道微生物组存在很大差异,这项 LMS 揭示了肠道微生物组与 ASD 行为之间的关系,即微生物组变化的程度与不同时间点的 ASD 行为变化之间存在相关性。

代码

https://github.com/JTFouquier/explana

参考

  • EXPLANA: a user-friendly workflow for EXPLoratory ANAlysis and feature selection in cross-sectional and longitudinal microbiome studies
  • https://github.com/JTFouquier/explana
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:30:19

电商修图新姿势!Qwen-Image-Layered快速替换商品背景

电商修图新姿势!Qwen-Image-Layered快速替换商品背景 你是不是也经历过这些时刻: 一张刚拍好的新品图,背景杂乱、光线不均,抠图1小时还毛边;客服临时要5套不同场景的主图(白底/灰底/场景图/节日氛围图&am…

作者头像 李华
网站建设 2026/6/10 10:59:25

Vivado IP核集成千兆以太网通信:项目应用详解

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。整体风格已全面转向 真实工程师视角下的实战笔记体 :去除了所有AI腔调、模板化表达和空泛总结,强化了“我在项目里踩过的坑”“手册没写但必须知道的细节”“调试时真正起作用的那一…

作者头像 李华
网站建设 2026/6/10 11:54:03

3-10秒短语音处理神器!CAM++实用场景详解

3-10秒短语音处理神器!CAM实用场景详解 在日常办公、智能安防、远程教育甚至内容创作中,我们常常遇到一个看似简单却长期被忽视的问题:如何快速、准确地确认一段几秒钟的语音到底是谁说的? 不是转文字,不是听内容&…

作者头像 李华
网站建设 2026/6/9 19:51:49

麦橘超然真实测评:Flux模型+Gradio界面效果如何?

麦橘超然真实测评:Flux模型Gradio界面效果如何? “不是所有AI绘图工具都叫‘超然’——但当你在RTX 4060上跑出4K级赛博朋克街景,还剩3GB显存可用时,你会明白这个名字的分量。” 麦橘超然(MajicFLUX)离线图…

作者头像 李华
网站建设 2026/6/10 14:26:43

零基础玩转AI修图:Qwen-Image-Edit-2511入门全攻略

零基础玩转AI修图:Qwen-Image-Edit-2511入门全攻略 你是不是也遇到过这些情况:想给产品图换背景,但PS抠图总留白边;想修掉照片里路人,结果皮肤质感不一致;想把海报上的文字改成新活动信息,却找…

作者头像 李华
网站建设 2026/6/10 11:58:24

如何扩展GPT-OSS-20B功能?插件化思路探讨

如何扩展GPT-OSS-20B功能?插件化思路探讨 你刚在本地跑通了 gpt-oss-20b-WEBUI,输入“写一封辞职信”,它秒回一封措辞得体、语气克制、连公司名都留了占位符的模板——流畅、专业、零延迟。但当你试着拖入一张带水印的PDF截图,问…

作者头像 李华