
【deepmind遇上对手?】英国人工智能(ai)公司deepmind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了dna数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。
美国meta公司(前身为facebook)的研究人员使用人工智能预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。相关研究 11月1日发表于预印本网站biorxiv。
“这些是非常神秘的蛋白质,为深入了解生物学提供了可能性。”meta人工智能蛋白质团队研究负责人alexander rives说。
该团队使用“大型语言模型”生成了这些预测。“大型语言模型”是一种人工智能,可作为通过几个字母或单词预测文本的工具的基础。
通常语言模型是在大量文本的基础上进行训练的。为了将其应用于蛋白质,rives团队将已知蛋白质序列“喂”给它们,这些蛋白质由20个不同的氨基酸链表示,每个氨基酸链由一个字母表示。然后,该模型学会了在氨基酸比例模糊的情况下“自动补全”蛋白质。
rives说,这种训练使模型对蛋白质序列有了直观的理解,蛋白质序列包含了蛋白质形状的信息。
第二步,受deepmind开创性蛋白质结构人工智能算法alphafold的启发,模型将这种洞察力与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。
今年夏天早些时候,rives团队报告称,其模型算法名为esmfold,虽准确性不如alphafold,但在预测结构方面要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库中。”rives说。
作为一个测试案例,研究团队决定将模型应用于大规模测序的“宏基因组”dna数据库,这些dna来自环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的dna条目来自从未被培养过的生物,也不为科学家所知。
meta团队总共预测了超过6.17亿个蛋白质的结构,这项工作只花了两周时间。rives表示,预测是免费的,任何人都可以使用,就像模型的底层代码一样。
在这6.17亿个蛋白质结构中,该模型认为超过1/3的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,模型可以识别更精细的原子级细节。值得一提的是,其中数以百万计的结构都是全新的,与实验确定的蛋白质结构数据库,或从已知生物体预测的alphafold数据库中的结构都不同。
alphafold数据库的很大一部分是由几乎相同的结构组成,而宏基因组数据库则涵盖了以前从未见过的蛋白质宇宙的很大一部分。
哈佛大学进化生物学家sergey ovchinnikov对esmfold做出的数亿个预测表示怀疑。他认为,有些蛋白质可能缺乏确定的结构,而另一些可能是非编码dna,被误认为是蛋白质编码材料。
德国慕尼黑工业大学计算生物学家burkhard rost对meta公司模型的速度和准确性的结合印象深刻。但他质疑,宏基因组数据库预测蛋白质是否真的比alphafold的精确度更高。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是alphafold无法做到的。
据deepmind的一位代表说,该公司目前没有在其数据库中进行宏基因组结构预测的计划,但不排除在未来这样做的可能性。
韩国首尔国立大学计算生物学家martin steinegger认为,利用这类工具的下一步,显然是研究生物学中的暗物质。“这些宏基因组结构的分析很快就会出现爆炸式增长。”
更多科学动态
【短暂的剧烈运动,可以让人更长寿】 在忙碌的社会中,不是每个人都能拿出整块的时间进行体育锻炼,而在空闲时间...
环球科学杂志社
2022/11/04 17:09
【世界气象组织发布最新一期公报:温室气体浓度再创新高,甲烷浓度增幅最大】近日,世界气象组织(wmo)发布的最新...
中国科学报
2022/11/04 16:28
#科研招聘# 【东北财经大学现代供应链管理研究院招聘全职教授/副教授/助理教授】东北财经大学现代供应链管理研究院...
科学网
2022/11/04 16:03
#辽西发现白垩纪最早花蕾# 近日,《生物学》期刊刊登了中科院南京地质古生物研究所研究员王鑫和深圳市兰科植物保护...
中国科学报
2022/11/04 14:24
【#北斗系统明年计划发射3至5颗卫星#】今天上午,国新办发布《新时代的中国北斗》白皮书,并举行新闻发布会。据介...
科学探索
2022/11/04 13:39
【抗抑郁药物研究取得突破!6年研究终登science】“孙楠摔断腿了!”当南京医科大学生殖医学国家重点实验室和药学...
科学网
2022/11/04 13:09
转发@老爸讲科学:发布了头条文章:《除了连花清瘟,还有哪些中成药申请过fda?》 http://t.cn/a6ohgyjn
科学公园
2022/11/04 12:13
【深入认识大脑微环境有了新技术】中科院大连化学物理研究所研究员陆瑶团队利用单细胞多种类分泌因子检测技术,实...
中国科学报
2022/11/04 12:03
#科研招聘# 【西北农林科技大学未来农业研究院诚聘全球英才(长期)】西北农林科技大学地处中华农耕文明发祥地、国...
科学网
2022/11/04 11:31
动物园中最大的室内沙漠 荷兰阿纳姆市的皇家伯格斯动物园有一片占地7500平方米的沙漠展区,其干旱景观效仿美墨边境...
吉尼斯世界纪录
2022/11/04 11:30
相关视频最多人关注
2022/11/04 10:35
2022/11/04 14:07
中国科学报其他动态
全站最新消息
#旧爱浪# 2004年《对不起,我爱你》,苏志燮饰演车武赫,命运坎坷,孤独不羁,“你是要吃饭,还是和我bobo?你是要...
新浪娱乐
2022/11/04 18:00
娱乐八叫兽
2022/11/04 18:00
娱乐八叫兽
2022/11/04 18:00
明晨1点45分,#2022年体操世锦赛# 即将迎来男子个人全能决赛,你认为谁将获得本届世锦赛的首个男子个人项目金牌呢...
2022/11/04 18:00
一个朴实又不失华丽的切杆 #你的高尔夫# http://t.cn/a6oq4kll
2022/11/04 18:00
看电影
2022/11/04 18:00
【来自新西兰的纯天然新鲜海胆】 如果你也是一个热衷于海鲜的赏味老饕,那么…… 看着这鲜嫩可口的地道新西兰海胆...
新西兰旅游局
2022/11/04 18:00
【#研究表明听力损失或导致阿尔茨海默病#,老年性聋越重,认知障碍越重】 据央视网报道,日前,北京卫健委买球app排行网站官网一则...
36氪
2022/11/04 18:00
当之无愧的全场最佳 [加油] 首秀仅仅是个开始,期待你未来更加优秀的表现 #切尔西足球俱乐部# 🔵
切尔西足球俱乐部
2022/11/04 18:00
(……当幽灵失灵)这首歌从一开始写曲时,就大概有一半的歌词跟着诞生,但也是没有写下来,让这些词在梦中自行悬...
吴青峰
2022/11/04 18:00
娱乐八叫兽
2022/11/04 17:59
娱乐八叫兽
2022/11/04 17:59
【#武大靖说更喜欢自己赛场上的一面# 】有人称他“武百米”,也有人喊他“武大混”。他一年三破世界纪录,他张口就...
新浪体育视频
2022/11/04 17:59
#披荆斩棘成团名单#: 苏有朋 陈小春 张智霖 李承铉 张云龙 潘玮柏 任贤齐 杜德伟 张震岳 苏见信 郑钧 林峯 吴建...
娱乐八叫兽
2022/11/04 17:59