跳转至

MultiMolecule

data

data¶

data 提供了一系列用于处理数据的实用工具。

尽管 datasets 是一个强大的管理数据集的库，但它是一个通用工具，可能无法涵盖科学应用程序的所有特定功能。

data 包旨在通过提供在科学任务中常用的数据处理实用程序来补充 datasets。

使用¶

从本地数据文件加载¶

Python
from multimolecule.data import Dataset

dataset = Dataset("data/rna/5utr.csv")

从 `datasets`加载¶

Python
from multimolecule.data import Dataset

# `split` must be specified if there are more than one split in the dataset
dataset = Dataset("multimolecule/bprna-spot", split="train")

从本地数据构建¶

Python
from multimolecule.data import Dataset

data = {
    "sequence": ["GCGCAAGCGACGGCGCUA", "AUUCCGAGUAGCUCGGAAU"],
    "labels": ["((((....)))).....", ".....((((.....))))."],
}

dataset = Dataset(data, split="train", pretrained="multimolecule/rna")