请问非attention机制大模型通俗的说是啥意思?
岩山科技股友
2024-02-22 00:12:53
来自广东
  • 11
  • 7
  •   ♥  收藏
  • A
    分享到:
【问】请问非attention机制大模型通俗的说是啥意思? 【答】岩山科技:您好,感谢对公司的关注。
Attention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术,也就是把注意力集中放在重要的点上,而忽略其他不重要的因素。ChatGPT等都利用了Transformer架构,其核心技术之一就是Attention机制。标准的Attention机制的计算复杂度为O(n^2?d)(其中n表示序列长度、d表示特征维度,^2指平方)。标准Attention机制的复杂度随序列长度呈2次方增长。通常来说Transformer架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷,在实际应用中需要的高算力和高成本让不少中小型企业望而却步。
针对Transformer架构的上述缺陷、以及不同行业对于高效能、低能耗AI大模型需求的不断增长,公司旗下岩芯数智研发团队意识到从零开始设计大模型的必要性,并推出了国内首个非Attention机制大模型—Yan 1.0模型。Yan架构没有基于Attention机制,也没有基于RNN(指Recurrent Neural Network,循环神经网络)等序列模型,而是通过完全自研的记忆算子及特征关联函数,将计算复杂度从标准Attention机制的O(n^2?d)降低为O(n?d)(线性复杂度),从而提高了Yan架构模型的训练效率和收敛速度。
谢谢。¶¶2024-03-10 13:35:05 §
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500