方法论 · 正式说明
如何看
一幅画
不是从流派、年代或名气出发,
而是从一个更根本的问题开始——一幅画,到底是什么?
第一性原理 · First Principles · 出品 浙江大学国际设计研究院
我们的第一性原理
一幅画,是一个人面对世界的一次立场表态。
画什么、怎么画、让你感到什么、意味着什么——
都从这个立场长出来。
看画的第一步,是找回那个立场。 并且永远分清:哪些是测出来的,哪些是猜的。
壹公理 · 画是什么
我们不从既有的艺术史词汇出发,而从一个能被反复检验的定义出发:
画 = 一组被刻意安排、供人观看、且对某个世界有所主张的二维痕迹。
这个定义里,藏着四个不可再分的参与方。任何一幅画,无论东方西方、古代当代,都必然在它们之间发生关系。后面整套结构,都从这四方关系里推出来,而不是被外部强加的:
贰推导 · 任何画都要回答的问题
从四方关系里,逼出一组互不重复、缺一不可的问题。它们天然分成四档——而第一档「立场」在因果上先于其余,因为它决定了后面所有选择。这就是「世界观先立」。
Q1痕迹与世界什么关系?——忠于眼睛所见,还是忠于内心所感?世界观·根
再现 ↔ 表现
Q2世界被如何把握?——作为底层的结构与秩序,还是即时的感官经验?世界观·根
结构 ↔ 感知
Q3画什么?——对世界的对象选择。题材·实现
题材层(开集,关键节点)
Q4怎么落笔?——构图 / 空间 / 造型 / 光影 / 色彩 / 笔触 / 边缘的设定。语言·实现
七大构成(可观测,各带连续参数)
Q5它让你感到什么?——唤起的情绪与感官效应。感知·效应
VAD 情绪(可由像素+VLM 测)
Q6作者为何这样画?——被推断出的动机与意义。画外音·意义
画外音层(涌现,需考据与推理)
叁根 · 世界观:两条经检验的真轴
立场(Q1、Q2)就是世界观。我们没有凭直觉拍三五条轴,而是用数据筛:只保留经检验为正交(r≈0.10)、且最能区分风格的两条 stance 轴,张成一个所有传统共享的连续平面。像「秩序-张力」「节制-强度」这类不是世界观——它们是下游的语言参数或感知效应,被请回它们该在的层。
把 202 个已考究风格落到这两条轴上,让算法自己聚类——浮现的不是人为对称的东西镜像,而是 6 个数据发现的区。最关键的一点:
东方与西方,不是对称的两半,而是同一空间里的两种密度。
有的区东西对半(古典再现),有的几乎纯西(感知光色),有的偏东(写意寄情)。这才是经得起推敲的样子——文化是平面上的分布,不是被钉死的两套坐标。
肆关键 · 风格不是一层,是涌现的签名
注意:上面六个问题里,没有「风格」。因为风格不是画要回答的问题,而是我们给「一组反复出现的回答」起的名字。
印象派 = (再现偏表现 × 感知极 × 某一组光色与笔触)这块区域反复出现、被历史命名。所以风格是投影、是坐标上的一片云,不是一个原子节点。
风格 = 世界观坐标 × 题材倾向 × 语言参数,这条链上反复出现、被历史命名的一个区域。
把风格当作"层"或"标签"来堆,体系永远长不出来;把它还原成"投影",一切才能既被理解、又被生成。
伍结构 · 一条生成因果链
于是,层与层不是并列的兄弟,而是一条有方向的因果链:世界观(根)生出实现(题材+语言),实现被感知为效应,效应被推断为意义。
但链的尾巴,经真画验证后,不是一条顺流的管子。「效应」其实是两条正交的轴,而且可观测的技法解释不了大部分——这道缺口,正是「人」留在画里的地方:
感知 · 什么感受可测
效价 / 唤起 / 支配三维。可由像素与 VLM 测量。
VLM 读出的唤起 ~ 人工 r≈0.33,高于纯像素 r≈0.20——机器读到的是语义,不只是颜色。
动机 · 为什么画不可测
记录 / 颂扬 / 抒情 / 质询 / 观念 五型,需考据与推理。
与感知正交——同一种情绪,可以出自完全不同的动机。
解释鸿沟:可观测的技法,对情绪的解释力只有约 20%;剩下约 80% 的残差,落在语义与动机上。这不是模型没调好——是画的意义本就不在像素里。机器能把可观测的那 20% 做到极致,而那 80%,永远要人来给。
陆元原则 · 测量,还是断言?
「如何看一幅画」还有一层更根本的追问:我凭什么这么说? 一张图谱里的每个数值,要么是从真画里测出来的,要么是从风格散文里断言出来的。把两者混着用,体系看着很满、其实空心。我们给整套体系装上一本诚实账本。
断言 / 派生
从风格的文字描述派生出的数值。看着精确,背后 0 幅真画支撑。多数现成图谱的量化,都属此类。
测量 / 实测
用 VLM 逐张看真迹、或用像素直接量出来的数值。每一个都能追到具体是哪些画,并能被新数据修正。
新数据像一道涟漪,穿过整条投影链,把断言校准成测量。校准既会纠偏,也会证伪:
纠偏印象派的「边缘」派生值是 0.05(断言它锐利),真画实测却是 0.65(其实柔融)——被纠正。
证伪「饱和度越高、唤起越强 r≈0.78」曾被当作发现,像素复核后撤回:那是"用颜色派生情绪、再用颜色去验证"的循环论证,不是因果。
账本的规矩很简单:实测可以叠在 断言 之上对照,但不许偷偷替换,也不许假装测过。说不知道,比假装知道更专业。
柒验证 · 这条链,哪几环已被真画检验
把方法论摆上台面后,我们逐环用真迹检验。能验的标定为成立,验出问题的诚实标注待核,测不到的就说测不到——不硬凑通过。
| 环节 | 检验方式 | 结论 |
| L0 再现-表现轴 | 像素特征可分 | 成立 · 6 区在平面上可分,是真信号 |
| L2 造型/光影/色彩/笔触/构图 | 艺术家侧实测相关 | 5/7 维验证(r≈0.33–0.60) |
| L2 空间 / 边缘 | 同上 | 待核 · 数据不自洽,不假装通过 |
| L3 感知 VAD | VLM vs 人工 vs 像素 | VLM 唤起 r≈0.33 > 像素 0.20 · 读到的是语义 |
| 旧结论「饱和→唤起」 | 像素实测复核 | 已撤回 · 循环论证 |
| L4 画外音 · 动机 | 不可像素测 | 已 LLM 考据全覆盖;承认其不可测,只考据不量化 |
捌闭环 · 既能读,也能生成
一套方法论是否站得住,终极的检验是:能不能反过来用它造画。
浙大 IDI 的 Artist 1.0,用的正是同一套六层(类型 / 题材 / 流派 / 画面 / 语言 / 画外音),在「人工智能美术馆」里,和创作者一起画出《印象江南》。
读 ⇄ 生成,互为印证:能把一幅画拆成这六层、又能从这六层拼回一幅画,才说明这套结构是真的「懂画」,而不是事后贴标签。这也是 AIAC 的底层逻辑——
AI 把可观测那一截做到极致,意义与立场,永远交还给人。
"看懂一幅画,是逆着作者的立场,把它一层层回溯到底。"