Aesthetic Arena · Research Concept

从「评估」到「照见自己」:一份偏好信号的四种产出

把美学竞技场写成一篇研究论文的构想:定位、贡献、结构、评估计划与投稿目标。面向 HCI 顶会(CHI)主线。这是工作中文档,非已投稿件。

摘要 · Abstract(中)

众包成对「竞技场」评估已成为给生成模型排名的标准范式,但它把人类评审仅当作打标工具,除了聚合排名之外丢弃了一切。我们提出美学竞技场(Aesthetic Arena):一个已部署的系统,把对 AI 生成艺术的同一股成对审美判断同时用于——(1) 给单张图排名,并(这是本工作的新意)给图背后的生成"做法"(workflow/模型)排名,从而把评估闭环回流到生产;(2) 估计每位评审的眼光并据此给票加权;(3) 反推出个人审美画像并作为「审美报告」回馈给评审本人,把评估劳动变成一次自我发现,反过来维持参与。聚合采用带收缩先验的 Bradley-Terry,以 bootstrap 置信区间与下界排序呈现;沿可解释的多轴(综合 / 去 AI 感 / 创意)分解偏好,并按题材分层配对把"质量判断"和"题材偏好"分开。我们描述系统设计与"集体评估→个体个性化"之桥,并报告一项部署研究,考察参与度、眼光加权对抗噪声的有效性,以及"自我发现"框架是否提升持续参与。[实证结果待采集]

Abstract(EN)

Crowdsourced pairwise "arena" evaluation has become the standard for ranking generative models, yet it treats the human evaluator as a mere labeling instrument and discards everything but the aggregate ranking. We present Aesthetic Arena, a deployed system in which a single stream of pairwise aesthetic judgments over AI-generated art is used simultaneously to (1) rank individual images and—novel to our setting—the generation methods (workflows/models) behind them, closing the loop back to production; (2) estimate each evaluator's discernment and weight their votes accordingly; and (3) infer a personal aesthetic profile that we reflect back to the evaluator as a "taste report," turning evaluation labor into an act of self-discovery that sustains participation. We aggregate votes with a shrinkage-regularized Bradley-Terry model reported with bootstrap confidence intervals and lower-bound ranking, decompose preference along interpretable axes (overall / "de-AI-ness" / creativity), and stratify pairings by subject to separate quality from subject preference. We detail the system and the bridge from collective evaluation to individual personalization, and report a deployment study on participation, the noise-robustness of discernment-weighting, and whether the self-discovery framing increases sustained engagement.

核心贡献为什么不是"又一个图像 arena"

既有 arena(Chatbot Arena / GenAI Arena / 3D Arena / MEF)已确立"成对投票 + Bradley-Terry + 置信区间"范式——所以这不是卖点。本工作的新意在四点叠加:

C1做法层排名:把图级胜负归并到背后的生成 workflow/模型,排"哪种做法更出片",评估直接回流生产决策。
C2评审元评估 + 加权聚合:用"你选的那侧是否真在共识里更高"度量眼光(仅在双方都比够时算,避免稀疏退化),再把眼光映成票权回灌进 BT——给评估者评级并抗噪。
C3评估即个性化(双用):同一份成对偏好既产出集体公榜,又反推个体审美画像/门派并回馈本人;后者是维持参与的动机引擎。
C4多轴分解 + 公平配对 + 人–AI 校准:沿"综合 / 去 AI 感 / 创意"分解偏好;按题材分层配对;用人类共识校准 VLM 自动质量先验。

论文结构 · Outline

节	内容
1 Intro	问题:arena 浪费了"评审"本身;论点:一份信号、四个产出 + 自我发现。贡献 C1–C4。
2 Related	arena 评估(Chatbot/GenAI/3D Arena、MEF);美学质量评估;标注者质量/反作弊建模;审美推荐;游戏化众包。
3 System	对决 UI(键盘/多轴镜头/收藏/放大)、结论卡、三榜、贡献榜;低唤醒设计语言。
4 Aggregation	BT(MM 迭代)+ 收缩先验 + bootstrap CI + 下界排序;做法层聚合(C1);两遍眼光加权 BT(C2);题材分层配对;多轴。
5 Bridge	评估→个性化(C3):生成图 12 维审美 VLM 标注 → 口味向量/门派 → 推荐(多峰 kNN + 学维度权重)。
6 Human–AI	人类 BT 共识 vs VLM 质量分(相关/散点),何时可让 AI 替人粗筛;用共识校准先验(C4)。
7 Study	部署 + 用户研究:参与/留存、眼光加权抗噪验证、自我发现框架是否提升持续参与、做法榜是否改善生产选择。
8 Discuss	局限与伦理:冷启动、参数手调、数据规模;偏差;"给评审评级"的伦理与透明。

评估计划论文的实证骨架

• 参与/留存:回合制 + 结论卡(自我发现)对场均场次、回访率的影响(A/B:有/无结论卡)。
• 眼光加权抗噪:注入金标准对与随机乱投账号,验证加权 BT 比无权 BT 更稳(排名与已知真值的相关)。
• 做法榜效用:做法榜 top 做法产出的图,在独立人评里是否真的更优(回流生产的验证)。
• 人–AI 一致性:BT 共识与 VLM quality 的相关、分歧样本分析。
• 桥的有效性:用对决反推的口味向量,预测该用户后续 like 的命中率(离线 + 在线 lift)。

诚实边界(论文必写) 生成图 12 维标注尚未全量;眼光加权/收缩参数部分手调;真实大规模投票数据尚需采集(冷启动用 AI 质量基线兜底)。学术化第一步=上线采集 + 跑完标注桥。

投稿目标 · 近期截稿截至 2026-06

venue	框架	近期截稿
ACM CHI 2027	HCI 系统(首推)	2026-09-10 全文
ACM CSCW (PACM HCI)	众包/集体智慧	滚动投稿
IEEE TMM / ACM TOMM / TiiS / IJHCS	全系统(期刊)	滚动
NeurIPS Eval&Datasets / ACM MM	数据集+基准	2026 轮已过 → 2027
RecSys / ICCC	推荐 / 计算创造力	2026 已过 → 2027

最优路径:以 CHI 2027(9/10) 为目标,这 3 个月用来上线采集投票 + 用户研究 + 跑完 12 维标注桥;赶不上转 CSCW 滚动 或 TiiS/IJHCS 期刊。

看完整方法论 →