【文件属性】:
文件名称:bio_embeddings:从蛋白质序列中获取蛋白质嵌入
文件大小:16.35MB
文件格式:ZIP
更新时间:2021-04-27 14:52:50
machine-learning pipeline protein-structure protein-sequences language-model
生物嵌入
了解bio_embeddings的资源:
通过嵌入,从序列快速预测蛋白质的结构和功能: 。
阅读当前文档: 。
与我们聊天: 。
我们在ISMB 2020和LMRL 2020上作为演讲介绍了bio_embeddings管道。您可以,。
查看管道配置a和的 。
项目目标:
通过提供单一,一致的界面和接近零的摩擦,促进将基于语言模型的生物序列表示法用于转移学习
可重现的工作流程
表示深度(来自不同实验室的不同模型,针对不同的目的在不同的数据集上进行了训练)
大量的示例为用户处理复杂性(例如CUDA OOM抽象),并提供有据可查的警告和错误消息。
该项目包括:
基于在生物学序列表示(SeqVec,ProtTrans,UniRep等)上训练的开放模型的通用python嵌入器
一条管道:
将序列嵌入矩阵表示(每个氨基酸)或矢量表示(每个序列)中,可用于训练学习模