Aesthetic Arena · Methodology

评分方法论:从一票,到一份可信的排名

这页把美学竞技场背后的整套算法摊开讲清楚——每一张图的分数、每一种做法的高下、每一位评审的眼光,是怎么从一次次「二选一」里算出来的。诚实是底线:能测的才说,测不了的明说。

一场对决 → 记录胜负 → Bradley-Terry 聚合 → 图榜 / 做法榜 / 眼光榜 → 你的评审报告

核心一句:我们不让人给单张图打绝对分(那很不稳),而是让人反复做「两张里挑更好的一张」。成对比较的一致性远高于绝对打分——这是 LMSYS Chatbot Arena、图像 arena 共同的选择。所有排名都是这些成对投票的统计聚合。

系统全貌:一份信号,四个产出同一批人类成对偏好,我们同时榨出四样东西,并把"评估"反过来变成"照见自己":
① 图榜(哪张好)· ② 做法榜(哪种 workflow/模型更出片——回流生产)· ③ 评审眼光榜(谁的判断更准,并据此给票加权)· ④ 个人审美档案(你的口味/门派,喂回推荐)。
这套设计里真正不一样的不是"又一个图像 arena",而是:把评估抬到「做法」层、给评审本身评级并回灌权重、再把同一份评估劳动转成个体画像与参与动机。

①谁能上场资格口径

参赛图来自我们生成区(artist 平台 + 造物云团队的油画),只取成品输出、未被判废的图。SQL 口径(与速评取图完全一致):

role = 'output' AND q_status ≠ 'rejected' AND ( source IS NULL OR (source='zaowuyun_team' AND category LIKE 'art/%') )

当前合格池约 2.7 万 张。明显的废图不进场,避免浪费宝贵的人类对决。

②怎么配对信息量最大化

每次给你两张图,挑选规则:
• 低曝光优先——先服务对决次数最少的图(统计 gen_battle 里作为左/右出现的次数,升序),让覆盖快速铺开;
• 同题材优先(约 7 成)——尽量配同一题材的两张(江南↔江南、肖像↔肖像),这样比的是画得好不好,而不是“你更喜欢哪个题材”;剩下约 3 成跨题材,保持全局排名连通。题材取自 category(造物云艺术图有,缺失则自由配)。
• 避免重复——跳过你已经比过的同一对;
• 同分附近优先(有了 Elo 之后)——势均力敌的两张信息量最大。

③一场对决记什么gen_battle

每点一次,写一行:谁(rater=登录 uid 或匿名 id)、左图、右图、结果、本轮 session、时间。结果有四态:

左胜 left 右胜 right 难分高下 tie 都不行 both_bad

tie 记成「双方各得半场」;both_bad 不进 Bradley-Terry(没有胜者),只用于统计淘汰。

④Bradley-Terry:从胜负到分数核心

给每个对象一个隐含实力 p_i > 0。模型假设:i 战胜 j 的概率只取决于两者实力之比——

P( i 胜 j ) = pᵢ / ( pᵢ + pⱼ )

已知每个对象的胜场 W_i(含 tie 的 0.5)和两两对局次数 n_ij,用极大似然估计 p。我们用经典的 MM(minorization-maximization)不动点迭代,不依赖任何外部库:

重复直到收敛: pᵢ ← Wᵢ / Σⱼ [ nᵢⱼ / ( pᵢ + pⱼ ) ] 每轮把所有 p 的几何均值归一到 1,防止整体漂移。

为了好读,把实力换算成象棋式 Elo 分(均值 1000,相差 400 分 ≈ 10:1 的胜率):

scoreᵢ = 1000 + 400 · log₁₀( pᵢ )

为什么用 Bradley-Terry 而不是在线 Elo?在线 Elo 受对局顺序影响;BT 把所有对决一次性拟合,顺序无关、更稳。LMSYS 也在 2023 年底从 Elo 换成了它。

数据少时会怎样 · 三道护栏一张图只比过一两场时,裸 BT 分会很极端(胜→很高、负→很低)。我们用三件事驯服它:
① 收缩(shrinkage)——每张图先天带一场「1 胜 1 负对均值」的虚拟战绩,没比够的图分数自动往 1000 收,不再出 −2600 这种吓人值;
② bootstrap 置信区间——把对决重采样上百次各算一遍,得到每张图的分数区间(榜上那条横条),越窄越可信;
③ 按置信下界排序——“稳稳地好”才靠前,“只赢一场的幸运儿”待定。这样图榜不会再出假冠军。

⑤图榜 · ⑥做法榜同一批票,两种聚合

图榜:直接对每张图(cos_key)跑 BT,按分数排。
做法榜:把每场对决的胜负归并到图背后的做法(workflow / 模型)——A 图所属 workflow 战胜 B 图所属 workflow(同 workflow 的对决跳过,无区分意义),再对 workflow 跑一遍 BT。于是同一批投票,既告诉你哪张图好,也告诉你哪种做法更出片。后者正是「筛选出好的做法」的直接答案。

两个筛选维度榜单可按评判镜头(综合 / 去AI感 / 创意——对决时选哪个镜头,这一票就只计入那个镜头的榜)和题材(江南/肖像…)双重切换。镜头让你分开问“哪张更真实”和“哪张更有创意”;题材让同类相比更公平。各维度数据独立,稀疏处照实显空。

⑦评审眼光给评审也排个序

arena 不只给图打分,也能给评审打分。对你的每一场决断,看你选的那一边在全局 BT 榜上是不是真的更高——一致的比例就是你的眼光分:

眼光 = (你选中的一方 BT 分更高的场次) / (你的有效决断场次)

为什么不是每个人都 100% 眼光只在“双方都已比够(各 ≥3 场)”的对决上计。否则:你赢的那张天然分高、对手只比过这一场,几乎必然“你选的=分更高的”,眼光会虚高到 100%——那是 BT 稀疏退化,不是你眼力好。够格样本太少时,报告显示“攒分中”而不是假分。

眼光加权(已启用):眼光准的评审,票更重——权重 = clamp(2 × 眼光, 0.5, 2.0)(眼光 0.5 中性 1×、1.0 满分 2×、低则封底 0.5×)。图榜/做法榜用加权 BT,自动抗噪、压制乱投。注意:眼光本身仍按无权共识来测(先无权算一遍定眼光,再加权重排榜),避免“自己抬自己”的反馈环。

⑧人评 vs AIAI 能替人吗

我们有一套 VLM 给每张图打的质量分。把人评聚合出的 BT 分与 VLM 质量分做皮尔逊相关(只取比过 ≥2 场的图),就能回答「AI 自动打分,在多大程度上能代替人」。相关越高,越能放心让 AI 先粗筛。

榜单页「人评 vs AI · 洞察」把这画成散点图:横=人类 BT 分、纵=AI 质量分。越接近正斜线,AI 越能替人;散开的点就是“人眼看到了 AI 没看到的东西”——最值得研究的样本。

⑨结论卡的口味倾向照见你自己

一轮结束,我们对你选为胜者的那些图做轻量聚合,反推你的偏好:
• 色调——你的胜者里最常见的主色(hue);
• 做法——你最常挑中的 workflow;
• 四轴——这些图的 VLM 分在美感 / 技法 / 构图 / 连贯上谁最高,即你最看重的维度。
加上眼光分、你 vs AI、独特一票(你偏爱、但全局排名最低的那张),凑成你的审美评审报告。

⑩即时反馈 · 战绩 · 贡献对决之外的三件小事

• 即时反馈——你投完一票,我们当场比较你选的那张和对手的历史胜率(双方各 ≥2 场才算):你选的更受欢迎就提示「和大多数人一致」,反之「你的眼光很独特」。让对决有手感,也是眼光的即时小镜子。
• 战绩可解释——点图榜任意一张,看它赢过谁、输给谁(对战缩略图)。排名不是黑箱,凭什么靠前看得见。
• 贡献榜——按累计对决场数列出每位评审,对每一票表示感谢。你的每一场都在帮我们筛出好图与好做法。

⑪诚实边界不夸大

本期明确不做生成图目前只有质量标注,没有 aha 真迹那套 12 维审美坐标(世界观 / 绘画语言 / 情绪),所以结论卡不输出完整「门派 / 本命画家」——那需要先给生成图补 12 维 VLM 标注。现在给的口味倾向是能可靠算出的轻量版,稀疏处宁可留空,绝不编一个门派给你。

登录后,你的对决与眼光会计入你的账号(跨设备同步、榜上显示昵称);未登录则以本机匿名身份累积,随时登录即可认领。

去对决 · 试试你的眼光