董秘您好!请介绍一下公司子公司的Yan模型1.1在训练效率、推理、记忆能力、算力
静心修性
2024-02-23 16:35:19
来自四川
  • 25
  • 8
  •   ♥  收藏
  • A
    分享到:
【问】董秘您好!请介绍一下公司子公司的Yan模型1.1在训练效率、推理、记忆能力、算力消耗、显存占用及成本方面的情况如何?
正在研究的Yan1.2具体有哪些枝术特点?目前研究的进度如何?预计何时能发布?
谢谢啦! 【答】岩山科技:您好,感谢对公司的关注。
岩芯数智于2024年1月发布了Yan 1.0模型,计算复杂度从标准Attention机制的O(n^2?d)(其中n表示序列长度、d表示特征维度,^2指平方)降低为O(n?d)(线性复杂度),从而提高模型的训练效率和收敛速度,因此Yan 1.0模型产生的资源消耗更低,更加经济、更加低碳。
我们对相同参数量级的Yan 1.0模型和Transformer(对照实验中采用的Transformer是基于HuggingFace LLaMA 2的标准结构,同时开启了flash-attn的支持)架构模型分别用1,000万条中英平行语料,基于同样软硬件环境的NVIDIA A800服务器训练以及同样的迭代次数下进行了对照试验:
(1)训练效率方面,在上述对照实验环境下Yan 1.0模型的损失值要低于Transformer架构的LLaMA 2模型。在训练集上,训练数据收敛到相同的loss(loss=3.0)时,Yan 1.0模型仅需要1.5小时,而LLaMA 2模型却花费10.5小时,因此Yan 1.0模型的训练效率更高。
(2)推理准确率方面,在上述对照实验环境下Yan 1.0模型比LLaMA 2模型在训练集上的预测准确率高出17%、在验证集上的预测准确率高出13%。
(3)记忆能力方面,古诗是通过简短的字和词语表达丰富语境的一种体裁,token之间的困惑度也高于现代文,这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练,与LLaMA 2模型相比,Yan 1.0能够更快的达到更好的收敛,以及更高的准确率。
(4)显存占用方面,基于同样的参数量级在单张NVIDIA RTX 4090 24G显卡上,当输出token的长度超出2,600时,LLaMA 2模型会出现显存不足,进而无法完成推理;Yan 1.0模型的显存使用始终稳定在14G左右,可以进行正常推理。Yan 1.0模型的显存占用及成本比LLaMA 2模型更低。
岩芯数智团队目前正在研发Yan 2.0模型,Yan 2.0模型将会融合文字、音频、视频等多模态,以应用于更广泛的业务。Yan 2.0模型预计将于2024年下半年推出,具体推出时间请以后续岩芯数智的发布为准。公司提醒投资者警惕市场热点炒作,理性投资并注意投资风险。
谢谢。¶¶2024-03-10 13:37:57 §
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500