data
data
提供了一系列用于处理数据的实用工具。
尽管
datasets
是一个强大的管理数据集的库,但它是一个通用工具,可能无法涵盖科学应用程序的所有特定功能。
data
包旨在通过提供在科学任务中常用的数据处理实用程序来补充 datasets
。
使用
从本地数据文件加载
Python |
---|
| from multimolecule.data import Dataset
dataset = Dataset("data/rna/5utr.csv")
|
Python |
---|
| from multimolecule.data import Dataset
# `split` must be specified if there are more than one split in the dataset
dataset = Dataset("multimolecule/bprna-spot", split="train")
|
从本地数据构建
Python |
---|
| from multimolecule.data import Dataset
data = {
"sequence": ["GCGCAAGCGACGGCGCUA", "AUUCCGAGUAGCUCGGAAU"],
"labels": ["((((....)))).....", ".....((((.....))))."],
}
dataset = Dataset(data, split="train", pretrained="multimolecule/rna")
|