原创丨对话清华“挑战杯”揭榜挂帅赛道擂主：科研就是要解决真问题-程序员充电站

在科技创新深度融入国家战略需求、关键核心技术亟待突破的时代浪潮中，第十九届 “挑战杯” 全国大学生课外学术科技作品竞赛 “揭榜挂帅” 擂台赛，正成为汇聚高校科研力量、直击行业痛点、催生创新成果的核心平台。作为国内大学生科创领域的顶级赛事，本届 “挑战杯” 规模再创新高，吸引了全国 2700 余所高校的 300 余万名青年学子踊跃参与，赛事覆盖之广、参与热情之高，彰显了当代大学生投身科研、服务国家的青春担当。

清华大学共选送6个主体赛项目和53个“揭榜挂帅”专项赛项目参加本届“挑战杯”竞赛终审决赛。其中，清华大学软件学院王建民老师的学生团队获得“揭榜挂帅”专项赛“新一代信息技术领域“《面向地球系统科学的海量网格类数据的分布式文件系统设计》榜题擂台赛擂主奖（全国第一名）。

王建民老师团队长期深耕时序数据管理领域，主导研发国产化时序数据库 IoTDB，积累了扎实的技术储备。此次他们精准对接地球系统科学研究中的实际痛点，创新性地将数据库技术与分布式文件系统相结合，打造出 IoTDB-FS 系统，为海量网格类数据存储与高效访问提供了全新解决方案。带着对青年一代如何扎根实际需求、攻克技术难关、践行科研使命的深层好奇，清华大学软件学院老师徐昊走进学院实验室，与本次 “揭榜挂帅” 擂台赛擂主团队核心成员 —— 在读博士生张洪胤、在读硕士生林欣涛展开深度对话，一同探寻他们从瞄准行业痛点到登顶全国赛事的科创之路，解锁青年科研者 “用积累破难题、用创新赴使命” 的成长密码。

一、团队故事与项目缘起

徐昊：本届 “挑战杯”“揭榜挂帅” 擂台赛汇集了多个行业的技术难题，咱们团队为何选中气象领域提出的 “海量网格类数据分布式文件系统设计” 这一课题？

张洪胤：选择这个赛题主要有两方面的考虑，其一是团队长期以来在相关领域有一定技术储备。无论是时序数据的管理与存储，还是气象数据应用场景，团队都有一定的认知基础。其二是团队也在探索运用数据库技术实现分布式文件系统，希望针对一个真实问题进行尝试，进一步拓展数据库技术的应用场景。

徐昊：能否为我们详细解读一下这个赛题的核心诉求和行业背景？

张洪胤：该赛题希望解决地球系统科学领域的海量网格类数据的管理难题。在地球系统科学领域，随着地面、雷达、卫星等观测技术快速发展，高性能计算能力持续增强，全球大气、海洋、陆地、冰冻、生物等多圈层的监测和预报的分辨率不断提升，网格类数据的空间分辨率达到公里级，时间分辨率达到小时级，单个文件达到10GB，单数据中心在线存储量已超100PB，且持续不断增长。而对于网格类数据，在数据存储上，其一般采用分布式文件系统，基于文件系统内的元数据，定位到文件物理位置。数据格式上一般采用国际通用的 GRIB 等自描述格式，将多要素、多层次的数十个到上百个网格场压缩到一个文件中。在数据访问上，用户一次只使用部分场，或是一个场的部分。此类数据格式配套提供相应的数据处理开发包，基于自描述信息，提供对局部数据块的网格场抽取、空间裁剪等方法，支持用户访问、解析和使用数据。随着文件数量以及单个文件体量的快速增长，对地球系统科学领域网格类数据的使用效率也逐步下降，这已成为地球系统科学研究和应用领域"卡脖子"的瓶颈问题，为此就有必要去设计并实现一套面向地球系统科学领域的海量网格类数据的分布式文件系统。

徐昊：听起来这个赛题的难度不小，其中有哪些难啃的 “硬骨头”？

张洪胤：有三个难点。

第一个难点在于，我本身是软件工程专业出身，需要先补上一整块“跨学科的功课”：一方面要系统学习并理解地球系统科学领域是如何使用网格类数据的，另一方面也要弄清楚这类数据本身有哪些特征和规律。只有在真正吃透数据的结构和特点之后，我们才能谈得上把这种数据格式“存好”“管好”。

第二个难点在于，我们在设计并实现一套定制化的分布式文件系统时，并不希望它“造出来就没人用”——如果和现有生态不兼容、使用门槛太高，大家上手就会很困难。所以，我们面临的核心问题就是：一方面要尽可能兼容主流文件系统的使用方式和操作习惯，让用户几乎“不用改用法”就能迁移；另一方面，还要在此基础上为用户提供更高效的数据访问能力。

第三个难点在于保障系统的性能和可靠性。我们需要让这套定制化的文件系统在高并发场景下，仍然能够稳定、高效地响应用户对网格类数据的存储和查询需求，同时还要具备较好的高可用性，真正做到数据不丢失、不损坏。

徐昊：从项目启动到最终夺冠，整个过程经历了哪些关键阶段？有没有让两位印象深刻的 “攻坚时刻”？

林欣涛：整个项目历程大致可以划分为五个阶段：赛题理解、技术选型、原型攻关、工程化打磨以及答辩冲刺。6 月份，在王建民老师、黄向东老师、龙明盛老师的带领下，我们系统梳理并深入理解了气象业务场景，基于对业务需求的全面把握，初步锁定了以国产化时序数据库 IoTDB 为技术底座、叠加定制化分布式文件系统的总体技术路线。

7 月初，我们围绕 GRIB 文件格式、FUSE 等文件系统相关技术开展了较为深入的调研和比选，最终确定采用与 IoTDB 深度融合的“基于数据库技术实现文件系统”方案。7 月底至 8 月中旬，代码开发进入高强度迭代阶段，我们先后完成了首版 GRIB 文件的读写能力和 FUSE 挂载功能，并在此基础上，逐步打通了从 GRIB 写入、索引构建到网格数据读取的全链路流程，使系统整体技术路径逐渐成形。

初赛前夕，我们完成了在国产麒麟操作系统环境下的系统部署与性能测试，验证了在国产软硬件平台上的可用性与稳定性。进入 10 月，我们重点扩展了在 macOS 平台上的展示方案，补充完成了与 FTP、MySQL 等系统的对比实验，并于 10 月 27 日顺利完成终审答辩，最终成功夺得擂主，实现了从方案构想到系统落地再到赛场验证的完整闭环。

张洪胤：最难忘的一次攻坚，是在适配国产软硬件平台的时候。我们希望文件系统能稳定运行在国产操作系统上，但在麒麟环境下，各类驱动和内核版本的适配问题接连出现。那段时间我们一边查资料、一边向老师和社区请教，反复调试，最终在初赛前完成了麒麟系统上的稳定编译和运行，让这套分布式文件系统真正跑在了国产操作系统平台上。

二、技术创新：破解行业痛点的核心密码

徐昊：这个项目的技术专业性很强，对于没有相关背景的人来说可能难以理解。能否用通俗的语言解释一下 “基于数据库技术实现分布式文件系统” 的核心原理？

张洪胤：如果说传统文件系统是“存文件的仓库”，数据库比较像是“存结构化数据信息的档案室”，那么我们的 IoTDB-FS 就像是把仓库和档案室打通，让系统既能理解文件的组织结构，同时也能理解文件内的每一个网格场。我们把网格数据与其本身内部结构的索引存入数据库，通过多级索引实现按需访问。用户想取部分数据时，不再需要读取整个数据块，而是可以根据我们构建的索引去直接定义到文件内的某一个网格场数据，从而返回精准的切片。

徐昊：本次能够拿下擂主，项目的核心技术突破点有哪些？

张洪胤：主要有三方面：其一是设计并实现树表双模型的元数据，让一个数据项能够同时具备文件语义和数据库语义；其二是为时序数据库IoTDB增加 Object 数据类型，实现大文件的快速高可用存储；其三是设计并实现两级索引结构，实现文件快速定位，文件内高效寻址。

徐昊：我看我们这一次的获奖方案名叫 “IoTDB-FS”，IoTDB 是前缀，是不是说明方案是在 IoTDB 基础上扩展的？为什么选择 IoTDB 而不是其他数据库作为技术底座？

张洪胤：IoTDB 是我们认为非常符合该应用场景的数据库。作为一个开源、高性能的时序数据库管理系统，它专门面向物联网、大数据等场景设计，支持海量时序数据的高效写入、存储和查询。Apache IoTDB 采用Apache 2.0 许可证开源，拥有活跃的开源社区和不断发展的生态体系。Apache IoTDB 在架构设计上支持分布式部署，通过多节点协同工作实现数据的横向扩展和高可用设计，支持多种共识协议确保多副本环境下的数据的一致性和可靠性。更重要的是，我们熟悉 IoTDB 的底层机制，能够在其生态上实现高度工程化、可落地的创新。

徐昊：对比传统分布式文件系统、通用数据库这些同类技术，IoTDB-FS 的核心竞争力体现在哪里？有没有具体测试数据支撑？

张洪胤：其一，IoTDB-FS 不仅仅提供文件系统的访问方式，还支持地球系统科学领域常见的时空穿透查询，用户可以通过API访问的方式跨文件提取目标数据。其二，IoTDB-FS具有非常好的可扩展性，得益于核心组件 FUSE 以及 IoTDB 的生态，其可以与其他大数据生态软件高效适配。其三，IoTDB-FS 相较于 FTP 方式以及其他基于关系型数据库的实现方式具有数量级级别的性能提升。

徐昊：如果面对更大规模的网格数据，目前的技术架构能支撑吗？需要做哪些调整？

张洪胤：主要是需要扩展底层的 IoTDB 集群的节点数量以及实际使用的机器数量。由于 IoTDB 支持原生分布式，因此当前技术架构具有较好的可扩展性。

三、科创感悟：从 “揭榜” 到 “夺冠” 的成长与沉淀

徐昊：回顾整个项目历程，有哪些成功经验和避坑教训想分享？

林欣涛：我认为本次项目的成功经验主要体现在两个方面。

第一，我们始终从真实的产业问题出发开展实践。团队紧紧围绕海量 GRIB 文件管理过程中的核心痛点，例如局部访问速度较慢、元数据不可见等问题，反向推导技术路线和系统架构设计。从数据的组织方式、索引机制设计到底层存储布局优化，各个环节都围绕“提升用户使用体验、支撑大规模业务应用”这一目标进行取舍与权衡，确保系统从一开始就面向真实生产场景，具备较强的工程可落地性，并能够在实际业务环境中经受住检验。

第二，我们选择在成熟基础之上做创新，站在“巨人的肩膀上”向前走。我们选用了已经经过十余年打磨，并在空、天、地、海等多个领域获得广泛应用的时序数据库 IoTDB 作为技术基座，在继承其高可用、高吞吐写入、高压缩存储以及复杂查询优化等成熟能力的基础上，结合气象网格数据的特性，进行了有针对性的二次结构设计和功能创新，使 IoTDB 从一款通用时序数据库，自然演进为能够支撑网格类数据高效存储管理与访问的专业数据文件系统技术底座。

至于教训，我觉得我们在前期确实低估了系统工程实现的复杂度。项目初期，团队几乎将主要精力全部投入到核心功能代码的实现上，留给不同环境下的适配、系统性能调优以及文档撰写的时间相对不足，导致中后期在面对多平台支持和材料准备时节奏偏紧。这也提醒我们，在后续类似项目中需要更加前置地规划工程实现、环境适配和文档工作的时间分配，把整个系统工程作为一个整体去统筹安排。

张洪胤：我补充一点教训。即团队对于系统级工程的复杂度以及工作量有所低估，前期时间几乎都在核心代码编写上，留给环境适配、性能调优以及文档优化的时间偏少。

徐昊：对于想参加科创竞赛，尤其是 “揭榜挂帅” 类赛道的学弟学妹，你们有什么具体建议？

张洪胤：第一，选问题要选真问题，一方面自己要对问题本身有足够的了解，另一方面这个问题要具有一定的现实意义；第二，团队组建要注意互补，包括产品设计、技术实现、文档撰写以及PPT制作，能够彼此支撑；第三，要及时和指导老师沟通和交流，老师们能够为我们的方案以及实现提供非常专业的指导，有助于提升我们的作品；第四，一定要提前安排好各项工作的时间线，避免截止日期临近特别紧张。最后，不要怕遇到困难，正所谓“宝剑锋自砥砺出，梅花香自苦寒来”，要敢于直面和解决真问题。

徐昊：用一个词或一句话形容这次 “挑战杯” 参赛经历，会是什么？

张洪胤：“破圈成长”。一方面，之前没有想到博士的阶段还会去参加揭榜挂帅这样的工作，参与地球系统科学领域相关的软件开发，把论文写到祖国大地上；另一方面，首次尝试运用数据库技术构建分布式文件系统，对我而言是一个全新的尝试。

林欣涛：我认为，这次参赛经历是一段真刀真枪去解决真实的产业难题的经历。我们完整走通从问题洞察到方案落地全流程的实践过程，让我们切身体会到，科研工作的价值就在于直面真问题、解决真问题。我觉得这次经历是非常宝贵的。

徐昊：从实验室的反复打磨到赛场的脱颖而出，IoTDB-FS 不仅破解了真实场景的网格数据存储难题，更展现了当代大学生的科研担当与创新精神。感谢张洪胤、林欣涛同学的分享，也期待这个项目能在更多行业落地生根，创造更大价值！

赛事背景

“挑战杯” 全国大学生课外学术科技作品竞赛创办于 1989 年，是由共青团中央、中国科协、教育部、中国社会科学院、全国学联和地方政府共同主办的全国性大学生科技创新赛事，被誉为当代大学生科技创新的 “奥林匹克” 盛会，也是衡量高校人才培养质量和科技创新实力的重要标志之一。赛事始终以 “崇尚科学、追求真知、勤奋学习、锐意创新、迎接挑战” 为宗旨，聚焦国家战略和社会需求，为青年学子搭建了展示科创才华、实现成果转化、服务国家发展的重要平台。

第十九届 “挑战杯” 全国大学生课外学术科技作品竞赛在竞赛架构上分为主体赛和 “揭榜挂帅” 专项赛两大板块。主体赛涵盖机械与控制、信息技术、数理、生命科学、能源化工、经济、政治、文化、社会、生态文明建设等十个学科门类，鼓励学生围绕各领域基础研究和应用研究开展创新实践；“揭榜挂帅” 专项赛则创新性地采用 “企业出题、高校揭榜、现场擂台” 的模式，聚焦新一代信息技术、高端装备制造、新材料、新能源等关键核心技术领域的实际痛点，由行业龙头企业、科研院所等发布真实技术需求，高校团队针对性开展攻关，旨在打通产学研用协同创新链条，推动青年创新成果与产业需求精准对接。

本届赛事规模再创新高，共有来自全国 2700 多所高校的超过 300 万名大学生报名参赛，提交作品数量突破百万件，参赛覆盖面和参与热情均创历史纪录。清华大学在本届赛事中表现尤为突出，共斩获主体赛特等奖 5 项、一等奖 1 项；在 “揭榜挂帅” 专项赛中，更是一举拿下擂主（全国第一名）4 项、特等奖 7 项，最终以全国第一的成绩第八次捧起 “挑战杯”，继续保持该赛事创办以来夺冠次数最多的纪录，彰显了清华在培养拔尖创新人才、服务国家科技创新战略方面的深厚底蕴和卓越实力。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

原创丨对话清华“挑战杯”揭榜挂帅赛道擂主：科研就是要解决真问题

Kotaemon vLLM集成实验：提升吞吐量的关键一步

客服人员必备软件！推荐两款客服快速回复工具！方便我们快速回复

18、后台处理与 Expect 脚本的高级应用

白血病抑制因子（LIF）：细胞命运的“多效性调节器“

Kotaemon支持OpenTelemetry链路追踪吗？

KotaemonOKR目标设定建议：战略拆解工具