对话IDEA研究院张家兴:预训练模型将成AI未来「底层设施」
作者:如思 栏目:财经 来源:证券之星 发布时间:2022-12-06 09:52 阅读量:15197
光明公司出品
今天看来,人类和AI还处于磨合期但是AIGC的一些新发展让这变得有趣起来
在国内,被视为中国版稳扩散的泰一稳扩散迅速跟进,于今年11月1日成功推出纯中文版和中英双语版。
据IDEA研究院认知计算和自然语言研究中心负责人,研发方,首席科学家张家星介绍,该模型是由封神团队开发的日前,其技术解读在机器之心直播,观看人数突破1万,20天内下载量突破10万,并在快速增加
AIGC的应用场景已经开始变得广泛,未来有非常强的渗透前景最近,张家星与光明公司就AIGC和预培训模式进行了深入对话,以展示该领域的新进展和商业化前景
不久前,AIGC初创公司Jasper宣布获得1.25亿美元A轮融资,估值15亿美元早在2019年,获得微软10亿美元投资的前人工智能公司Open AI的当前估值飙升至200亿美元
可以肯定的是,伴随着AI绘画工具的进步,插画,海报,数字人制作,游戏,视频原画设计等领域都开始有节奏地使用AIGC相关的前期训练模型,以缓解创作过程中大量枯燥的基础工作带来的低效率未来更多与生活相关的产品设计,如服装,鞋帽等,很可能会出现AIGC及其背后的预训模式
我们相信在未来,AI会成为一个完全模型驱动的行业,有什么样的模型就会有什么样的产品预训练模式作为‘底层设施’,将在AIGC未来应用之前,以底层架构的角色进行铺设,分享由此产生的所有商业化机会
他认为,以团队为单位形成算法集群,产生一个或多个模型,将是未来的主要发展路径一方面,新模式可以直接催生一些相应的产业另一方面,对于现有的成熟行业来说,这些模型也可以催生相应的产品,反过来又需要大量的模型进行迭代
在进入IDEA之前,张家星曾任微软亚洲研究院研究员,蚂蚁集团资深算法专家,360数字分公司首席科学家从零到一,创办阿里巴巴,蚂蚁集团深度学习团队,在智能客服等多个自然语言技术方向落地他在360数字分公司任职期间,成立了AI数据融合中台
据光明公司了解,目前已有88个职前培养模型被开源授予荣誉,成为中国最大的职前培养模型体系张家星团队受邀联系阿里,华为生态落户,目前正在迁移过程中
在张家星和他的团队眼中,人工智能绘画是一种能够激发人类创造力的东西它可以作为工具,具有情感价值,而不是取代或颠覆人类的智慧
以下是光明公司和张家星的对话。
问:光明公司
答:张家星IDEA研究院认知计算与自然语言研究中心主任,首席科学家。
问:11月初,我们刚刚完成了太一稳定扩散中文版和双语版的开源这对IDEA研究院和开发者意味着什么
人在作画的时候,也是一个从模糊到清晰的渐进过程,而扩散模型就是模仿人脑的动线——先有一个想法,再加入一些新的灵感,生成一个大概的图像,再加入更多的灵感,最后让作品变得更加精致复杂。
人类的能力有两个优点一是每一个灵感之间都有很强的关联性,即可以通过前一个启发下一个想法,第二,对细节充满想象力
问:之前经历过很多次迭代吗。
在这些工作的基础上,10月份,我们全身心地投入到稳定扩散模型中,很快就把泰一稳定扩散做出来了,用了不到一个月的时间。
如果回到更早的时间,我们从去年11月宣布荣誉榜大模型开源计划开始,就一直在持续生产模型,已经成功推出了很多自然语言领域的预训练模型,基本覆盖了该领域所有的主流模型结构截至目前,短短一年多时间,已经有88款开源而且很多都是目标领域的先进,多次获得FewCLUE和ZeroCLUE权威榜单的称号
问:《铁马冰川梦》的太乙版和稳定版我都看过AI翻译差距很大我们如何将中文的意义形象化
答:就这首诗来说,当它作为文本输入模型时,是作为一个整句来识别的,而不是只对应一个词或者一个词因此,我们的太乙版本的翻译结果将与其他非中文版本的翻译结果有显著差异,可以更好地达到理解的目的
在中国的文化中,词语的组合会表现出不同的意境举个例子,如果把《我床脚那么亮一线》这首诗拆开,模型会识别出中文语境中床和明月,明月和光的组合所表达的意义在训练的过程中,模型还从这些组合所处的上下文中学习这些组合的含义只有在大量的中国期待中训练,才能让模特正确理解这些中国意境而这就是太乙模式的优势
问:模型识别可以产生多少种结果。
问:目前该领域的职称评审团队水平如何。
答:沈峰帮是目前国内唯一一个以开源模式为目标的团队我们希望把这个做到极致我们也在积极与各种开源模型社区合作,比如阿里巴巴的ModelScope,华为的瑞星生态,将我们的中文预训练模型加入到他们的生态中通过加入更广泛的开源生态圈,我们希望封神的模式可以被更多人使用,这也是所有开源人的理想
据Huggingface网站统计,目前全球约有8万个预训模特,其中中国预训模特不到1000个,仅占1%这与中国人工智能的规模和整体经济体量不成比例我们也希望国内更多的人工智能团队能够加入开源模型的队伍
问:Q:AI画图除了文胜画图还需要实现哪些功能。
问:你能举例说明这项技术在未来的应用领域吗。
还有个性化的培训模式你可以训练出一个只属于你的模型比如用几张你各个角度的照片来训练模型,然后把这些照片命名为小张,再键入小张站在沙滩上模型会生成一张你站在沙滩上的照片,还可能生成你的任何角度,任何图像,与环境完美融合这种个性化的训练不贵,10分钟左右就能完成
我们正在把这种个性化训练的能力变成一个引擎用户可以在个人电脑上训练他们的个性化模型,在不知道算法的情况下生成个性化的照片这个引擎也会开源,欢迎企业基于这个引擎进行各种产品创新
问:我们有想法亲自参与这一部分吗。
答:作为一种有益的尝试,当然我们也会做C端产品,积极创新尝试产品但是AIGC基础预训练模型的制作仍然是我们的主要工作
我们会坚持基础设施的角色,它的商业逻辑是等风来——我们提供基础模型只要生态中下游的一个行业成为机会,那么我们也是机会,因为大家都在用我的基础设施从这个角度来说,我们首先要做一个像Intel,AMD这样的公司,它会被铺设在所有的机会面前,成为下游生态的必要前提
问:目前,我们的模式是否主要针对中国市场你打算将来扩展到其他市场吗
答:我们从中国AIGC市场开始,但我们也面向全球市场因为AIGC在文化和语言上与众不同,所以每个国家和文化都应该有自己的AIGC模式如果看现在的开源稳定扩散模型,只有英语,汉语,日语,韩语四种语言版本所以这里还有很大的市场发展空间
问:你统计过有多少人在使用我们的模型吗。
答:11月1日发布后,20天的下载量超过10万在所有开源稳定扩散模型中,下载量排名全球第三,仅次于原创稳定扩散,这也显示了中国对AIGC模型的强烈需求而且下载量每天都在增加,速度非常快大家都很关注太一稳定扩散模型11月9日在机器之心直播仅30分钟,在线观看人数已过万
比如一个算法,当别人准确率只有50%而你能做到90%的时候,确实有巨大的优势但是别人能做到90%,你能做到95%,所以应用上差别不明显而最后5%的涨幅就要花很多钱
问:你能告诉我们这些新功能和未来的应用场景吗。
答:比如3D和视频生成,以及我们已经拥有领先优势的文本生成技术目前可以透露的是,我们在因果推理的文本生成上投入了大量的精力,可以直接生成多步因果推理链接一方面是真的想在传统领域推广,比如应用到金融领域进行事件推理,另一方面,我们更喜欢它作为数字人/虚拟人的底层驱动,因为我认为人的思维其实是一个永无止境的因果推理环节
Q:未来Q:AI绘画会走什么样的轨迹。
答:我认为有两大市场前景一个是成为专业人士的生产力工具,同时通过技术让更多人实现专业成果,首先,它对非专业人士的日常生活影响很大,可以为个人产生大量个性化和多模态的沉浸式体验
例如,在预训练模型与视频3D结合之后想象一下,你带上VR眼镜,说我想体验亚马逊丛林,系统就能为你生成逼真的沉浸式场景这个实现目前还是比较难的,因为3D场景的制作成本比较高我们将AIGC扩展到3D生成,这可以大大提高行业的效率
问:用AI生产AI会是未来AI发展的终点吗。
答:技术就是娃娃大家都在用旧技术生产新技术,用以前的模式生产第二个模式,再用第二个模式生产第三个模式所以技术没有终点,是一个不断进化的过程
其实AI产生AI也是值得讨论的现在所有的AI模型都是在算法工程师里产生的,用模型产生模型值得期待我们刚刚开发了GTS干坤鼎发动机,这是一个自动化模型生产发动机在中国权威的FewCLUE榜单上,这个引擎自动产生的模型已经打败了国内顶尖算法专家训练的模型,获得冠军
Q:Q:AI绘画再次进化后,如何才能与人类和平相处。
答:首先,AI应该成为人类的一种职业或者生产力工具其次,就艺术而言,其实是受技术影响最大的一个领域回顾艺术发展史,湿壁画最早出现在文艺复兴时期,诞生了文艺复兴三大杰出人物油画技术很快跟上,整个欧洲开始进入一个新时代后来因为颜料可以随身携带,艺术家可以走出画室,走进乡村,印象派就出现了
我觉得对艺术影响最大的应该是相机的诞生但实际上,照片虽然极大地冲击了人像绘画的范畴,但也直接催生了另一个新的艺术范畴——摄影这个世界背后有无数的逻辑推动着一件事的发生,所以这件事必须发生,不能被阻止,也不必坚持
技术的发展是人类不断被‘异化’的过程互联网普及后,很多东西都被‘异化’了但同时,我们也会拥有一些新的能力,世界也会因此变得更加丰富人类有很强的调试能力,并在其中发现新的优势
问:我们对未来的愿景是什么。
答:我们希望世界上的每一个人都能用AI创造属于自己的美好生活我们希望AIGC技术全面普及后,每个人都可以通过它为自己创造各种美好的体验
某种程度上,我们希望技术也能有情感价值,它也应该为人类提供这样的价值。
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。