发布时间:2023-10-02 15:07:40
来源:股票啦
股票啦网 www.gupiaola.com 2023年10月02日报道:大盘近期走势分析在指令微调MMLU 5shot等测试集上
明敏 丰色 发自 凹非寺量子位 | 公众号 QbitAI
悄无声息大盘近期走势分析,羊驼家族“最强版”来了!
与GPT-4持平,上下文长度达3.2万token的LLaMA 2 Long,正式登场。
在性能上全方位超越LLaMA 2。
和竞争对手相比大盘近期走势分析,在指令微调MMLU (5-shot)等测试集上,表现超过ChatGPT。
在人类评估(human evaluation)上乃至优于10万token的Claude 2,这个话题还在Reddit上引发了商量。
要了解大盘近期走势分析,这些对比版本中,LLaMA 2 Long使用的最大版本也只有70B,远小于其他大模型。
这让人不禁感慨:Meta实在還是有两下子的。
也有人觉得大盘近期走势分析,这才是最近Meta公布会的最大新闻啊,比Meta版ChatGPT要更令人高兴。
论文介绍,LLaMA 2 Long使用了4000亿token语料加持下,并进行位置编码修改。
所以LLaMA 2 Long究竟是如何诞生的?
只对位置编码进行了一个比较小的改动
与LLaMA 2相比大盘近期走势分析,LLaMA 2 Long的变化并不多。
一是训练参数上,运用了高达4000亿token的数据源。
——相反,原始LLaMA 2包含多个变体,但最多的版本也只有700亿。
二是架构上大盘近期走势分析,与LLaMA 2维持不变,但对位置编码进行了一个比较小的必要修改,以此完成高达3.2亿token的上下文窗口支持。
在LLaMA 2中,它的位置编码运用的是旋转编码RoPE方法。
它是目前大模型中应用最广的一种相对位置编码,通过旋转矩阵来实现位置编码的外推。
本质上来说大盘近期走势分析,RoPE就是将表达单词、数字等信息的token embeddings映射到3D图表上,给出它们相针对其他token的位置——即便在旋转时也如此。
这就能够使模型产生精确且有效的响应,而且比其他方法需要的信息更少,因此占用的计算储备也更小。
在此,Meta的钻研人员通过对70亿规模的LLaMA 2进行实验,确定了LLaMA 2中的RoPE方法的一个关键限制:
即大盘近期走势分析,阻挡注意力模块聚拢远处token的信息。
为此,Meta想出了一个比较容易的破解方法:
减少每个维度的旋转角度。
具体而言就是将超参数“基频(base frequency) b”从10000增加到500000。
这一改动马上奏效大盘近期走势分析,缩小了RoPE对远端token的衰减效应,而且在扩展LLAMA的上下文长度上优于一项类似的名为“位置插值”的方法(如下图所示,RoPE PI,衰减效果较为“隐含”)。
Ps. 图中RoPE表达基线方法,RoPE ABF为Meta此次创造的新方法,xPos是另一种应用了该方法的旋转编码变体。
一个问题是大盘近期走势分析,通过上面这个可视化结局,Meta观看到RoPE在长程区域隐藏了较大的“振荡”,这针对语言建模来说可能非个好消息。
不过,通过报告几种方法在长序列困惑度和FIRST-SENTENCE-RETRIEVAL两个任务上的表现看来,问题不大。
而且大盘近期走势分析,特别在后者任务上,他们提出的RoPE ABF是唯独一个可以始终维持性能的变体。
在附录中,Meta还通过可视化为螺旋图这一比较有趣的方式,将RoPE ABF与RoPE PI的差异进行了理论预测。
结局是大盘近期走势分析,与RoPE PI相比,RoPE ABF的优势关键体现在它能以更大的粒度分配嵌入向量(the embedded vectors),从而使模型更简单区分位置。
此外,他们还观看到,嵌入向量之间的相对距离既对RoPE PI的关键参数有线性依靠性,也对RoPE ABF的关键参数也有对数依靠性。
这也就是为什么人们可以很简单地对基频这一超参数“下手”。
最终大盘近期走势分析,LLaMA 2 Long凭借着这一改动,达成了3.2万的上下文token,并通过长下文连续预训练的共同作用,获得了开头所示的好成果:
除了全方位超越LLaMA 2、在特定任务上超越Claude 2和ChatGPT,Meta也给出了它和一些开源长下文模型的对比。
结局也相当不赖。
One More Thing
值得一提的是大盘近期走势分析,这个最新的版本,是用LLaMA2生成的文本内容来进行训练的。
官方会不会正式公布这一版本,现在还没有更明确的消息,模型的网址也还没有找到。
不过已经有人提前高兴起来了:
这对可商用微调大模型来说太有用了!
而在此之前大盘近期走势分析,已经有非官方版本实现了3.2万token上下文,还是开源可商用。
“长颈鹿(Giraffe)”基于13B版本的LLaMA2打造。
钻研团队提出了一种称为“截断(truncation)”的方法,对原始RoPE编码进行变换。
llama-2-7b-32k-instruct也可以支持3.2万上下文大盘近期走势分析,模型规模是7B。
论文:https://arxiv.org/pdf/2309.16039.pdf
参考链接:[1]https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/[2]https://twitter.com/_akhaliq/status/1707569241191285207[3]https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/[4]https://news.ycombinator.com/item?id=37698604
福兮祸之所伏辽宁丹东好,你干了我随意。
宫商角微羽山西高平[加油]
万花谷从来不下雪湖北荆门利好东方财富
基民InZZbG吉林和龙重大利好,美股熔断!
SS1966浙江江山明天创业板继续大涨!!
小诺曼底登陆四川雅安[围观]
咆哮飞鹰山东乐陵大湿。。代码多少[为什么]
SS1966河北黄骅明天创业板继续大涨!!
基民InZZbG湖北天门重大利好,美股熔断!
石佛队长安徽芜湖利好创投!洪涛股份!
美棠投资浙江瑞安一个中节带货卖不出去了,再找多一个共赢基金一起卖[大笑]行啊
我是撞大运辽宁铁岭深深房马上问世了
小亿时代四川内江在次提醒大家 能走赶紧走该股后面跌幅空间巨大 历史大顶已见
新手之一菜鸟黑龙江北安忽悠本能常存,报应曙光己现
上一篇:股市行情今日大盘点评_国内外金融周期迥然 下一篇:如何预测大盘涨跌:唯独矗立不倒的只有美元
今日股市行情 | 美股行情 | 明日股市预测 | 最新股市消息 | 今日股票推荐 | 今日股市新闻 | 股票入门基础知识