MultiMolecule¶

Tip

机器学习加速分子生物学研究

介绍¶

欢迎来到 MultiMolecule (浦原)，这是一款基础库，旨在通过机器学习加速分子生物学的科研进展。 MultiMolecule 提供了一套全面且灵活的工具，帮助研究人员轻松利用 AI，主要聚焦于生物分子数据（RNA、DNA 和蛋白质）。

概览¶

MultiMolecule 以灵活性和易用性为设计核心。其模块化设计允许您根据需要仅使用所需的组件，并能无缝集成到现有的工作流程中，而不会增加不必要的复杂性。

data：智能的 Dataset，能够自动推断任务，包括任务的层级（序列、令牌、接触）和类型（分类、回归）。还提供多任务数据集和采样器，简化多任务学习，无需额外配置。
datasets：广泛使用的生物分子数据集集合。
modules：模块化神经网络构建块，包括嵌入层、预测头和损失函数，用于构建自定义模型。
models：分子生物学领域的最先进预训练模型实现。
tokenisers：用于将 DNA、RNA、蛋白质及其他序列转换为独热编码的分词器。

安装¶

从 PyPI 安装最新的稳定版本：

Bash
1	`pip install multimolecule`

从源代码安装最新版本：

Bash
1	`pip install git+https://github.com/DLS5-Omics/MultiMolecule`

引用¶

Note

本仓库提供的内容是 MultiMolecule 项目的一部分。如果你在你的研究中使用 MultiMolecule，你必须以如下方式引用 MultiMolecule。

BibTeX
@software{chen_2024_12638419,
  author    = {Chen, Zhiyuan and Zhu, Sophia Y.},
  title     = {MultiMolecule},
  doi       = {10.5281/zenodo.12638419},
  publisher = {Zenodo},
  url       = {https://doi.org/10.5281/zenodo.12638419},
  year      = 2024,
  month     = may,
  day       = 4
}

许可证¶

我们相信开放是研究的基础。

MultiMolecule 在 GNU Affero 通用公共许可证下授权。

对于额外条款和澄清，请参阅我们的许可协议常见问题解答。

请加入我们，共同建立一个开放的研究社区。

SPDX-License-Identifier: AGPL-3.0-or-later