
鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
卡帕西又来发布兴味编程状貌了~
此次径直整了一个“大模子议会”(LLM Council)web app。
界面看起来和ChatGPT的聊天形势别无二致,但施行受骗用户输入问题后,系统融会过OpenRouter调起多个大模子开会相关。
特兴味的是,它们不仅会一齐答题,并且还会相互评分、排序,最终将由主席模子给出一个斡旋谜底。

卡帕西刚把这个期骗的装配部署教程共享出来,就立马被不少网友码住:

更有甚者默示,好像以后模子我方评价模子本人就能变成一种新的“自动benchmark”:
畅销书《Python机器学习》作家也很看好这个想路:
LLM议会怎样玩
具体来说,卡帕西的这个LLM议会系统,主要可分为三步进程:
Step 1:让多个模子同期回答一个问题。
率先使用中间层OpenRouter同期调用多个大模子,包括:
GPT-5.1Gemini 3 Pro PreviewClaude Sonnet 4.5Grok-4然后在吞并问题下逐一蚁合它们的复兴,并以标签视图的形势展示,以便用户进行查验。
Step 2:通盘模子进行匿名互评。
这时,每个LLM齐会收到其他LLM的复兴。
为幸免偏私,对它们的身份齐作念了匿名化处置。
然后条件模子字据准确性和瞻念察力对其他模子的回答质料进行评估,需要给出评分和珍摄原理。
Step 3:主席模子汇总最终回答。
LLM委员会将指定又名主席,将通盘模子的复兴汇总,并酿成一个最终的谜底,再转交给用户。
于是通过这个过程,就能径直对比不同模子,在处置吞并个问题时的作风互异,并且能够直不雅地看到模子之间相互评价的过程。
这套系统,其实是不时了卡帕西最近共享的用LLM分阶段深度阅读的状貌。
PS:在GitHub上也得益了1.8k Stars。
该状貌将传统的阅读进程重塑为与LLM相投的进程,相通阅读一篇著述内容也分为三个阶段:
1、先东谈主工我方通读一次,取得全体感知和直观剖析。
2、然后将内容交给大模子处置,让它剖析重难点、索要结构、讲究内容等。3、对著述细节进行深度追问,举例“为什么作家这里会这么写?”最终等于将写稿对象从东谈主类读者滚动为LLM读者,让LLM手脚中介剖析内容,再个性化翻译给不同的读者听。
当将大模子议会融入其中后,大模子们的相关恶果也很特兴味。
卡帕西发现,大模子一致觉得最强、最有洞见的谜底来自GPT-5.1,而Claude被公觉得最弱,Gemini 3和Grok-4则排行位于中间。
但显然他对这个谜底并不认可,在卡帕西的个东谈主主不雅评价中,GPT-5.1内容丰富可是结构不够紧凑;Gemini 3谜底更简陋凝练、信息处置得更好;而Claude谜底过于轻便。
此外,令东谈主出乎预见的是,模子真实很少出现彰着的偏见,它们相通会称心承认我方的谜底不如另一个模子好。
总的来说,卡帕西觉得天然模子里面自评不一定与东谈主类主不雅一致,但肖似的多模子集成好像将成为一个雄伟的可探索空间,甚而可能成为将来LLM居品的一个冲破点。
参考结合:
[1]https://x.com/karpathy/status/1992381094667411768?s=20[2]https://github.com/karpathy/llm-council[3]https://x.com/karpathy/status/1990577951671509438— 完 —
量子位 QbitAI
心绪咱们j9九游会真人,第一技艺获知前沿科技动态
