掣肘中国版ChatGPT的三大难题

2023-02-21 11:02:40 0 121

ChatGPT需要通过不断获取大量数据进行自主学习并完成迭代的AI支持,对于AI技术的长期发展与积累储备有着很高的要求,因此这并不如其它APP一般,能从软件方向上进行简单的借鉴与复制转而本土化。

尽管国内目前已经有类似于ChatGPT的对话机器人运用在智能客服的场景中,但相较之ChatGPT自然语言处理的能力与接近99.9%的理解力,差距还是很大的。

在NLP已成全球化大势所趋时,国内要想诞生一款ChatGPT,难度在哪些方面?

01 硬件与成本

OpenAI开发ChatGPT是基于GPT-3.5的预训练语言模型和人类反馈强化学习技术,核心是谷歌推出的自然语言处理transformer的算法和架构。

ChatGPT在对语言进行分析和理解时,需要有参数支持,类似于神经网络,初代ChatGPT就有超过40亿个参数,而上一代GPT-3已经有1750亿个参数。

国内实验室目前做过最大的模型是有10亿个参数,ChatGPT是国内模型的175倍。根据微软的数据,OpenAI可提供给ChatGPT的算力包括28.5万个CPU和1万个英伟达A100GPU,按照GPT-3的1750亿个参数来算,训练一次需要耗费1200万美元,每日电费在5万美元,初始投入就达到8亿美元。

微软宣布下一步将ChatGPT嵌入搜索引擎Bing中,完成单次搜索需要超过50万台服务器和410万个GPU,而这些成本总和将超过1000亿美元。

虽然国内已经有很多可以支持计算的处理器,比如寒武纪、飞腾、海光等,但最大的问题是做不了高制成,仅仅能做到28nm,这会导致芯片密度降低,能耗更高,因此在芯片数量上就要比英伟达多出2到3倍。

而由于美国的限制,英伟达的A100对我国禁运,即就是在CPU和GPU的连接之间无法用到NVLink,这就导致数据传输时间将变长,效率变低,这对于训练自然语言模型时的影响非常大。

无论从算力支持还是训练成本上看,目前国内要实现ChatGPT都是比较困难的。

此次ChatGPT能迅速在全球范围内爆火,离不开微软在云计算基础设施方面的发展和积累,国内互联网大厂腾讯阿里等也都有自己的云计算平台,但追赶微软还需很长一段时间。

02 数据与语料

ChatGPT能在自然语言处理、文本生成和人机对话上有惊人的表现,除去硬件支持外,大量数据获取下的语料库建立也是很关键的。

训练语言模型一定需要不断给予其更新的文本内容,帮助模型学习语言和获取知识,以此来构建语料库,能理解自然语言并生成高质量准确的答案文本。

获得不断更新的文本内容,就需要通过网站和自有平台进行信息爬取,Common Crawl是美国的非营利性组织,负责抓取网络并免费向公众提供其档案和数据集,这个组织就是ChatGPT语料库建立的主要来源之一。

英文语料库的建立对于ChatGPT而言并不难,除去上述组织,还有全球各地的网站、Bing搜索引擎、维基百科等等,但是对于中文来说就并不像英文那么容易。

一方面是在英文网站和搜索引擎内中文信息与资料并不全面,在ChatGPT国内热度起来后,就有网友表示自己在ChatGPT里所问的中英文问题回答的质量并不一致。另一方面,国内互联网如百度、微信、360、科大讯飞等在简体中文之外获取的信息有限,而像知乎、微博、网文网站等同样缺乏非简体中文的内容全面性。

因此无论是国内自然语言模型的训练还是对于ChatGPT,中文语料库都是亟待解决的问题。

03 应用场景

既然开发ChatGPT的硬件成本如此高,即使未来国内有科技公司完成了中国版ChatGPT的开发,如何应用在生活中体现其商业价值也是需要考虑的。

正如上文所述,国内目前已经有企业尝试在智能客服环节运用类ChatGPT的人机对话AI机器人,但仅仅是将传统对话模式简单移植到AI平台,并没有改变用户与产品之间的交互方式,也没能提高产品服务的效率,无法体现AI的实际价值。

这就与传统燃油车转型新能源只是简单的油改电一样,很多可预见的实际应用场景,目前的发展方向还都只是用AI取代真人来完成,比如文案工作、新闻工作、设计师、人力资源、音乐创作等,但从学习的方式、工作的模式、沟通的便捷性等多个方面没有变革性的改变。

并且由于中文语料库的匮乏,即便自然语言模型能胜任以上场景,但结果与效率上也并不能令人满意。

因此,国内ChatGPT的商用暂时也就无法实现。

ChatGPT的出现,让AI产业的发展与AI开发模式明确了未来的方向,在自然语言模型能更加全面,AI产业链更加完善的未来,中国版ChatGPT也许会很快到来。

本文来自微信公众号“青投创新”(ID:scilabs)。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

免责声明:内容来自用户上传发布或新闻客户端自媒体,本站仅提供信息存储空间服务,如违规请联系删除。

玩技资源 国内新闻 掣肘中国版ChatGPT的三大难题 https://www.52diyhome.com/2023/02/193122.html

常见问题
  • 答:资源大部分来源于网络和本站作者若有侵权请您联系管理员删除2523030730
查看详情
  • 玩技平台的主要负责内容是提供给作者售卖资源的平台,买家有对作者投诉的权利,投诉成功后会获取相应的补偿机制。官方唯一投诉通道客服QQ:2523030730转接人工服务,投诉专属客服工号【2】
查看详情
  • 本站已开启了作者实名认证,在购买商品时请尽量选择已认证的作者,不用担心跑路和无人售后的问题。如果出现问题,本站将采取报警的方式来指正作者进行诈骗行为,并将其身份资料提供给警方处理。
查看详情
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 工作日在线 专业服务

  • 0 +

    访问总数

  • 0 +

    会员总数

  • 0 +

    资源总数

  • 0 +

    今日发布

  • 0 +

    本周发布

  • 0 +

    运行天数

资源在于分享,创作来源想象