西部热线 | 助力西部开发,关注西部民生! |
adtop
adtop01
当前位置: 西部热线 > 财经

千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完

作者:牧晓    栏目:财经    来源:IT之家    发布时间:2022-05-10 19:45   阅读量:15771   

感谢本站网友三库的线索传递!

拥有数千亿参数的大型AI模型居然能拿到代码。!

一觉醒来,AI圈发生了一件轰动的事情:Meta AI开放了一个大语言模型OPT—175B,它称重了1750亿个参数不仅参数小于GPT—3的3750亿,而且效果一点也不输给GPT—3

这意味着人工智能科学家终于可以撬开像GPT—3这样的大模型,看看里面有什么秘密之前GPT—3很厉害但是不够开放,源代码独家授权给微软就连马斯克也批评OpenAI不够开放

虽然论文在那里,但是如果你想对它做进一步的研究,你得先复制它这一次,Meta从完整的模型开放到训练代码和部署代码甚至有人在官方公布之前就动了还没上传的GitHub仓库

其他Aite OpenAI试图领导战争:

那么,元模型有什么特点,如何实现绿色低能耗,为什么要对外开放让我们看一看

可以用16 V100跑。

OPT open预训练transformer语言模型的全称是开放式预训练Transformer语言模型和GPT相比,名字直接把生财改成开放,可以说是很有内涵了

Meta AI解释说OPT是为了开放代码而运行的为了让更多的人学习大模型,环境配置一定要尽量经济不会,运行时产生的碳足迹不到GPT—3的1/7,节能高效为了方便研究人员,Meta AI开发了各种规模的OPT模型,从125M参数到1750亿参数不等

那么,最大的OPT—175B机型效率如何,又是如何做到的呢。

在性能方面,Meta AI用OPT—175B和GPT—3的14个NLP任务进行了测试结果表明,无论是零样本学习还是多镜头学习,OPT在这些任务中的平均准确率与GPT—3相似

左为零样本学习,右为多样本学习。

看具体任务。在对话任务中,OPT—175B采用无监督学习进行训练,效果类似于监督学习训练的几种模型:

仇恨言论检测任务的效果完全优于达芬奇版本的GPT—3模型:

在训练硬件方面,Meta AI使用992个NVIDIA A100 GPU训练OPT,每个GPU的平均计算效率可以达到147 TFLOP/s。

这个效率甚至比英伟达自己的研究人员用的还要高,大概在17%以上Meta AI透露,一方面,它采用了自己的GPU内存节省工具,名为FSDP,使得大规模训练的速度比传统方法快了5倍左右,另一方面,他们还借鉴了英伟达威震天—LM模型的张量并行方法,将一个操作分配给多个处理器同时执行甚至Meta AI表示,训练和部署OPT—175B模型只需要16个NVIDIA V100 GPU

有网友迫不及待的想要一试:

当然,Meta AI并不避讳谈论OPT—175B大模型面临的一些问题,比如更容易产生有毒语言:

研究人员表示,希望开放后,有更多的人参与研究,真正解决这些问题。

教你如何复制GPT—3。

如上所述,这个300亿参数及以下的OPT模型系列可以直接下载,660亿版本还在路上只有完整的1750亿版需要额外填写一份申请表,包括工作单位,目的,相关出版工作等问题

Metaseq是一个用于培训和部署的代码工具包,发布在GitHub上,附带教程和文档作为著名的fairseq工具包的一个分支,metaseq专注于1750亿个大规模模型,去除了不必要的部分用于训练和使用大模型

也有很多开发者特别关注一个与模型和代码同时发布的藏宝——开发日志详细记录了Meta团队在开发大型模型的过程中遇到的问题,解决方案以及决策的依据

为Pytorch诞生之前就存在的机器学习研究中的一系列痛点和困惑提供了大昌解决方案的第一手数据。

这样的开放程度可以说是史无前例,自然也获得了不少好评例如,也在从事开源大模型项目的HuggingFace首席科学家Thomas Wolf

但还是有人怀疑1750亿参数版是否需要应用。

我不是学者或从业者,他们会接受我的申请吗。

一些开发者还建议Meta提供一些类似OpenAI的演示如果看到效果,会更愿意参与研究和改进否则,仅仅构建一个开发环境将会非常令人沮丧

斯坦福大学基础模型研究中心主任,副教授珀西·梁对此发表了自己的看法,并将大模型的开放性归纳为四个层次更高水平的开放性可以使研究人员专注于更深层次的问题

第一层论文是开放的,证明一些想法的可行性,为建设提供思路。

第二层API是开放的,允许研究人员探索和评估现有模型的能力和局限性。

第三层模型的权重是开放的,训练数据是开放的允许研究人员逐步改进现有模型,开发更深层次的可解释技术和更有效的微调方法,使研究人员更好地理解训练数据在模型行为中的作用

第四层计算能力是开放的,允许研究人员尝试新的架构,培训目标和流程,数据融合,并在不同领域开发全新的模型。

Percy Liang认为,更高水平的开放也会带来更多的风险也许是时候制定相关的社区规范了

还有一点

这篇Meta论文有三位合著者,其中Susan Zhang在加入Meta之前来自OpenAI。

可是,在OpenAI期间,她并不负责GPT—3的开发而是参加了Dota的OpenAI Five强化学习项目和多模态大模型的研究

项目地址:

论文地址:

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

adl03
adr1
adr2