news 2026/4/18 16:29:53

快速上手的生物医学NLP框架KAZU

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
快速上手的生物医学NLP框架KAZU

KAZU - 生物医学NLP框架

注意:最近的2.0版本在自定义模型包和标注的使用上存在较大的向后不兼容性。
欢迎使用KAZU,这是一个与韩国大学合作构建的Python生物医学NLP框架,专为处理生产级工作负载而设计。
该库旨在简化在生产系统中使用最先进的NLP研究的过程。其中包含的部分研究是我们自己的成果,但大部分来自社区,我们对此表示无比感激。
如果您想使用KAZU,请引用我们在EMNLP 2022上发表的论文!

快速开始

安装

需要Python 3.9或更高版本(已在Python 3.11上测试)。
可以:
pip install kazu
或者从发布页面下载wheel文件并在本地安装。
如果您打算在自己的代码库中使用Mypy,请考虑通过以下方式安装KAZU:
pip install kazu[typed]
这将引入kazu依赖项的类型存根,以便mypy在类型检查您的代码库时能够访问尽可能多的相关类型信息。

获取模型包

对于大多数功能,您还需要KAZU模型包。它与每个版本相关联,可以在发布页面上找到。下载后,解压存档并设置:
export KAZU_MODEL_PACK=<解压后存档的路径>
KAZU高度可配置,不过它预装了适用于大多数文献处理用例的默认配置。
要使用这些配置并处理一个简单文档,请参考以下示例代码:

importhydrafromhydra.utilsimportinstantiatefromkazu.dataimportDocumentfromkazu.pipelineimportPipelinefromkazu.utils.constantsimportHYDRA_VERSION_BASEfrompathlibimportPathimportos# Hydra配置保存在模型包中cdir=Path(os.environ["KAZU_MODEL_PACK"]).joinpath("conf")@hydra.main(version_base=HYDRA_VERSION_BASE,config_path=str(cdir),config_name="config")defkazu_test(cfg):pipeline:Pipeline=instantiate(cfg.Pipeline)text="EGFR mutations are often implicated in lung cancer"doc=Document.create_simple_document(text)pipeline([doc])print(f"{doc.get_entities()}")if__name__=="__main__":kazu_test()

许可证

基于Apache 2.0许可证授权。
KAZU包含了基于兼容许可证的组件。

数据集许可证

  • Chembl, CLO, UBERON: 基于知识共享署名-相同方式共享 3.0 未移植许可证。
  • MONDO, CELLOSAURUS, Gene Ontology: 基于知识共享署名 4.0 未移植许可证。

其他许可的数据集和模型

  • HPO: 自由许可。
  • OPEN TARGETS: 开源目标数据集由某机构提供,可免费用于商业用例。
  • STANZA: 使用了某机构的框架和生物医学NLP模型。
  • SCISPACY: 使用了某机构的生物医学模型。
  • SAPBERT: KAZU使用了SAPBERT的蒸馏版本。
  • GLINER: 使用了某机构的通用命名实体识别模型。
  • SETH: KAZU的SethStep使用Py4j调用SETH突变查找器。
  • Opsin: KAZU的OpsinStep使用Py4j调用OPSIN。
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:58:37

零GPU资源如何跑大模型?M2FP CPU优化版满足中小团队需求

零GPU资源如何跑大模型&#xff1f;M2FP CPU优化版满足中小团队需求 在AI视觉应用日益普及的今天&#xff0c;语义分割作为高阶感知能力的核心技术之一&#xff0c;正被广泛应用于虚拟试衣、智能安防、人机交互和数字人生成等场景。然而&#xff0c;大多数高性能人体解析模型依…

作者头像 李华
网站建设 2026/4/18 14:23:48

为什么M2FP选择PyTorch 1.13.1?底层兼容性问题全解析

为什么M2FP选择PyTorch 1.13.1&#xff1f;底层兼容性问题全解析 &#x1f4cc; 背景与挑战&#xff1a;多人人体解析的工程落地困境 在计算机视觉领域&#xff0c;多人人体解析&#xff08;Multi-person Human Parsing&#xff09; 是一项极具挑战性的任务。它不仅要求模型能够…

作者头像 李华
网站建设 2026/4/18 8:27:22

企业级部署建议:M2FP配合Docker实现服务容器化

企业级部署建议&#xff1a;M2FP配合Docker实现服务容器化 &#x1f4cc; 引言&#xff1a;为何选择M2FP Docker进行服务化部署&#xff1f; 在当前AI模型快速迭代的背景下&#xff0c;如何将高性能语义分割模型稳定、高效地部署到生产环境&#xff0c;是企业面临的核心挑战之…

作者头像 李华
网站建设 2026/4/18 9:45:12

混沌工程职业指南:软件测试从业者的技能跃迁路径

一、破壁&#xff1a;测试工程师为何需要混沌工程思维1.1 传统测试的局限性已知缺陷验证 vs 未知风险探测&#xff1a;功能/性能测试聚焦预设场景&#xff0c;混沌工程探索复杂系统连锁故障被动防御机制&#xff1a;基于历史故障的补丁式修复&#xff0c;缺乏主动失效验证能力案…

作者头像 李华
网站建设 2026/4/18 9:45:51

混沌工程案例研究:电商系统韧性构建与测试启示

一、引言&#xff1a;电商系统的脆弱性图谱 电商系统作为典型分布式架构&#xff08;如图1&#xff09;&#xff0c;存在多级脆弱点&#xff1a; [用户层] → [CDN] → [网关集群]↓ [微服务层]&#xff1a;订单/支付/库存/推荐↓ [数据层]&#xff1a;Redis集群 → MySQL分库…

作者头像 李华
网站建设 2026/4/18 6:33:46

如何选择人体解析技术?M2FP的ResNet-101骨干网络有何优势

如何选择人体解析技术&#xff1f;M2FP的ResNet-101骨干网络有何优势 在计算机视觉领域&#xff0c;人体解析&#xff08;Human Parsing&#xff09; 是一项关键的细粒度语义分割任务&#xff0c;旨在将人体图像中的每个像素精确分类到特定的身体部位类别中&#xff0c;如头发…

作者头像 李华