九游会体育-九游会欧洲杯-九玩游戏中心官网

j9九游会但到了各式第三方基准测试中-九游会体育-九游会欧洲杯-九玩游戏中心官网

发布日期:2025-08-22 08:58    点击次数:112

j9九游会但到了各式第三方基准测试中-九游会体育-九游会欧洲杯-九玩游戏中心官网

Meta 最新基础模子 Llama 4 发布 36 小时后,驳斥区简直是这个画风:

失望,相等失望

不知说念他们后覆按奈何搞的,总之不太行

在 [ 各式测试 ] 2 中失败

……

还被作念成样子包簸弄,回归起来便是一个"差评如潮"。

具体来看,民众的衔恨主要集结在代码身手。

最直不雅的要数经典"氛围编程"小球反弹测试,小球平直穿过墙壁掉下去了。

反应在榜单上,收获也相等割裂。

发布时的官方测评(LiveCodeBench)分数和在大模子竞技场弘扬明明皆很可以。

但到了各式第三方基准测试中,情况大多平直逆转,名次末尾。

让东说念主不由得怀疑,这个竞技场名次到底是数据过拟合,也曾刷票了。

就在 Llama 4 行将发布前几天,Meta AI 筹划支配 Joelle Pineau 在职责 8 年之后转眼告示下野,总之便是不太妙。

大模子讲理者们火热实测吐槽之际,一则干系 Llama 4 的匿名爆料,转眼引起山地风云:

有网友称我方已向 Meta GenAI 部门提交提交辞职,并条件不要签字在 Llama 4 的本领敷陈上。

原贴发布在国外留学求职换取平台一亩三分地,在国内也引起好多商讨。

此爆料尚未取得阐述,但有东说念主搬出 Meta GenAI 精致东说念主 Ahmad Al-Dahle 的帖子,至少能看出在 Llama 4 大模子竞技场里运行的是额外版块模子。

还有 Meta 前职工借此话题贴出 2024 年 11 月的一项筹划,指出从 Llama 1 初始数据知道的问题就存在了。

也不单是编程身手一个方面有问题,在 EQBench 测评基准的的长著述写稿榜中,Llama 4 系列也平直垫底。

榜单齰舌者 _sqrkl 讲明了具体情况。

测试相等浅薄,模子需要先完成一个短篇演义的头脑风暴、反念念并修改写稿筹画,最终每轮写 1000 字,重叠 8 轮以上。

由 Claude-Sonnet 3.7 来当裁判,先对每个章节单独打分,再对整个作品打分。

Llama 4 的低分阐扬时写到背面初始大段的履行重叠,以及写稿相等公式化。

对此成果,有一个揣度是之前的版权诉讼让 Meta 删除了荟萃和册本数据,使用了更多的合成数据。

在这场诉讼中,许多作者发现我方的作品可能被用于 AI 覆按,还到伦敦的 Meta 办公室隔邻发起抗议。

Llama 4 发布后的各种,让东说念主逸预见岁首的匿名职工爆,有网友示意当初只是嘱咐望望,现时却初始信服了:

在这条爆料中,Deepseek v3 出来之后,覆按中的 Llama4 就显得过期了,中层科罚的薪水皆比 DeepSeek V3 的覆按老本皆高,Meta 里面堕入焦炙方式。

让东说念主不由得叹惜,DeepSeel-R1 横空出世只是两个月时间,却像过了几辈子。

参考聚合:

[ 1 ] https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/

[ 2 ] https://www.1point3acres.com/bbs/thread-1122600-1-1.html

[ 3 ] https://x.com/suchenzang/status/1909070231517143509

https://x.com/TheAhmadOsman/status/1908833792111906894j9九游会