跳转至

MultiMolecule

使用机器学习加速分子生物学研究

Codacy - 代码质量 Codacy - 测试覆盖 CodeCov - 测试覆盖

PyPI - 版本 PyPI - Python版本 下载统计

授权:AGPL v3

介绍

欢迎来到 MultiMolecule (浦原),这是一款基础库,旨在通过机器学习加速分子生物学的科研进展。 MultiMolecule 提供了一套全面且灵活的工具,帮助研究人员轻松利用 AI,主要聚焦于生物分子数据(RNA、DNA 和蛋白质)。

概览

MultiMolecule 以灵活性和易用性为设计核心。 其模块化设计允许您根据需要仅使用所需的组件,并能无缝集成到现有的工作流程中,而不会增加不必要的复杂性。

  • data:智能的 Dataset,能够自动推断任务,包括任务的层级(序列、令牌、接触)和类型(分类、回归)。还提供多任务数据集和采样器,简化多任务学习,无需额外配置。
  • datasets:广泛使用的生物分子数据集集合。
  • module:模块化神经网络构建块,包括嵌入层预测头和损失函数,用于构建自定义模型。
  • models:分子生物学领域的最先进预训练模型实现。
  • tokenisers:用于将 DNA、RNA、蛋白质及其他序列转换为独热编码的分词器。

安装

从 PyPI 安装最新的稳定版本:

Bash
pip install multimolecule

从源代码安装最新版本:

Bash
pip install git+https://github.com/DLS5-Omics/MultiMolecule

引用

如果您在研究中使用 MultiMolecule,请按照以下方式引用我们:

BibTeX
@software{chen_2024_12638419,
  author    = {Chen, Zhiyuan and Zhu, Sophia Y.},
  title     = {MultiMolecule},
  doi       = {10.5281/zenodo.12638419},
  publisher = {Zenodo},
  url       = {https://doi.org/10.5281/zenodo.12638419},
  year      = 2024,
  month     = may,
  day       = 4
}

许可证

我们相信开放是研究的基础。

MultiMolecule 在 GNU Affero 通用公共许可证下授权。

请加入我们,共同建立一个开放的研究社区。

SPDX-License-Identifier: AGPL-3.0-or-later