大模型畛域的开展突飞猛进,每天都有许多幽默的论文值得深化品读。上方是本期感觉比拟无心思的论文:
1、LoRA或者隐藏玄机
近期,一项重磅钻研提醒了AI训练中广受欢迎的LoRA方法或者存在隐患。只管LoRA能让模型训练季节俭90%以上的显存,在指标义务上体现堪比完整微调,但钻研人员发现这种"看似完美"的方法面前,或者并不如外表那么美妙。
钻研团队经过对模型权重矩阵的深化剖析发现,LoRA训练出的模型中存在一些不凡的"入侵维度"(intruder dimensions)。这些维度就像是模型中的"异质成分",只管不影响模型在指标义务上的体现,但会造成模型"遗记"更多预训练时学到的常识,并且在继续学习多个义务时体现不够稳固。
幽默的是,钻研人员发现,当参与LoRA的秩(rank)时,这个疑问会获取清楚改善。特意是当秩到达64时,模型的行为会更凑近传统的完整微调方法。这就像是在"节俭"和"片面"之间找到了一个更好的平衡点。
这项钻研给AI从业者带来了关键启发:在选用经常使用LoRA时,不能只关注显存占用和指标义务的体现,还须要思索模型的泛化性能。同时,适当参与LoRA的秩或者是一个值得思索的优化方向。这为如何更好地运行LoRA提供了新的思绪。
2、数字也会骗人?GPT-4都会说9.11>9.9,人工自动的"数学残障"没救了吗?
大言语模型(LLM)近来可以解答奥数题、高考数学,甚至能做钻研生难度的数学题。但你或者想不到,这些"数学天赋"却在最基础的数字了解上栽了跟头——它们居然会以为9.11比9.9大!这就好比一个解题思绪齐全正确的学霸,却在最后的计算环节总是大意大意地出错。
为了系统钻研这个疑问,来自北京大学等机构的钻研人员开发了一个片面的测试基准。他们从小学到高中的数学课程中提取了4种数字示意方法(整数、小数、分数、迷信计数法)和17种基础运算义务,创立了41组测试。这些看似便捷的义务,即使是最新的GPT-4和Llama-3.1这样的顶尖模型也频频失手,尤其是在稍微复杂一点的计算(如乘法、取模)或处置整数之外的数字示意时。
钻研团队尝试了三种改良打算:优化预训练阶段的数字处置才干、对现有模型启动微调、经常使用链式思索(CoT)技术。幽默的是,便捷的微调确实能清楚优化模型的数字了解才干,但那些专门设计用来增强数字处置的技巧反而会大失所望。这就像给一个曾经构成思想定式的在校生从新传授基础常识,反而会打乱他原有的认知体系。
这项钻研提醒了一个关键但经常被漠视的疑问:在人工自动谋求处置浅近数学识题的同时,最基础的数字运算才干反而成了"短板"。这就好比一个会解微积分的学霸,却在1+1等基础题上犯错。不过好信息是,钻研人员曾经开局仔细看待这个疑问,置信在不久的未来,AI的"数学残障"会获取基本色的改善。
论文题目:Number Cookbook: Number Understanding of Language Models and How to Improve It
论文链接:
本文转载自,作者: