方法论 · 正式说明

如何看
一幅画

不是从流派、年代或名气出发,
而是从一个更根本的问题开始——一幅画,到底是什么?

第一性原理 · First Principles　·　出品浙江大学国际设计研究院

我们的第一性原理

一幅画,是一个人面对世界的一次立场表态。
画什么、怎么画、让你感到什么、意味着什么——
都从这个立场长出来。

看画的第一步,是找回那个立场。　并且永远分清:哪些是测出来的,哪些是猜的。

壹公理 · 画是什么

我们不从既有的艺术史词汇出发,而从一个能被反复检验的定义出发:

画 = 一组被刻意安排、供人观看、且对某个世界有所主张的二维痕迹。

这个定义里,藏着四个不可再分的参与方。任何一幅画,无论东方西方、古代当代,都必然在它们之间发生关系。后面整套结构,都从这四方关系里推出来,而不是被外部强加的:

世界

被指涉的对象
(真实或想象)

作者

持有一种面对世界的立场

痕迹

落在平面上可观测的笔与色

观者

感知痕迹、并推断其意义

贰推导 · 任何画都要回答的问题

从四方关系里,逼出一组互不重复、缺一不可的问题。它们天然分成四档——而第一档「立场」在因果上先于其余,因为它决定了后面所有选择。这就是「世界观先立」。

Q1痕迹与世界什么关系?——忠于眼睛所见,还是忠于内心所感?世界观·根
再现 ↔ 表现
Q2世界被如何把握?——作为底层的结构与秩序,还是即时的感官经验?世界观·根
结构 ↔ 感知
Q3画什么?——对世界的对象选择。题材·实现
题材层(开集,关键节点)
Q4怎么落笔?——构图 / 空间 / 造型 / 光影 / 色彩 / 笔触 / 边缘的设定。语言·实现
七大构成(可观测,各带连续参数)
Q5它让你感到什么?——唤起的情绪与感官效应。感知·效应
VAD 情绪(可由像素+VLM 测)
Q6作者为何这样画?——被推断出的动机与意义。画外音·意义
画外音层(涌现,需考据与推理)

叁根 · 世界观:两条经检验的真轴

立场(Q1、Q2)就是世界观。我们没有凭直觉拍三五条轴,而是用数据筛:只保留经检验为正交(r≈0.10)、且最能区分风格的两条 stance 轴,张成一个所有传统共享的连续平面。像「秩序-张力」「节制-强度」这类不是世界观——它们是下游的语言参数或感知效应,被请回它们该在的层。

把 202 个已考究风格落到这两条轴上,让算法自己聚类——浮现的不是人为对称的东西镜像,而是 6 个数据发现的区。最关键的一点:

东方与西方,不是对称的两半,而是同一空间里的两种密度。

有的区东西对半(古典再现),有的几乎纯西(感知光色),有的偏东(写意寄情)。这才是经得起推敲的样子——文化是平面上的分布,不是被钉死的两套坐标。

肆关键 · 风格不是一层,是涌现的签名

注意:上面六个问题里,没有「风格」。因为风格不是画要回答的问题,而是我们给「一组反复出现的回答」起的名字。

印象派 = (再现偏表现 × 感知极 × 某一组光色与笔触)这块区域反复出现、被历史命名。所以风格是投影、是坐标上的一片云,不是一个原子节点。

风格 = 世界观坐标 × 题材倾向 × 语言参数,这条链上反复出现、被历史命名的一个区域。
把风格当作"层"或"标签"来堆,体系永远长不出来;把它还原成"投影",一切才能既被理解、又被生成。

伍结构 · 一条生成因果链

于是,层与层不是并列的兄弟,而是一条有方向的因果链:世界观(根)生出实现(题材+语言),实现被感知为效应,效应被推断为意义。

世界观

立场 · 根

→

题材 + 七大构成

实现 · 可观测

→

感知效应

VAD · 可测

→

画外音

意义 · 涌现

但链的尾巴,经真画验证后,不是一条顺流的管子。「效应」其实是两条正交的轴,而且可观测的技法解释不了大部分——这道缺口,正是「人」留在画里的地方:

感知 · 什么感受可测

效价 / 唤起 / 支配三维。可由像素与 VLM 测量。

VLM 读出的唤起 ~ 人工 r≈0.33,高于纯像素 r≈0.20——机器读到的是语义,不只是颜色。

动机 · 为什么画不可测

记录 / 颂扬 / 抒情 / 质询 / 观念五型,需考据与推理。

与感知正交——同一种情绪,可以出自完全不同的动机。

解释鸿沟:可观测的技法,对情绪的解释力只有约 20%;剩下约 80% 的残差,落在语义与动机上。这不是模型没调好——是画的意义本就不在像素里。机器能把可观测的那 20% 做到极致,而那 80%,永远要人来给。

风格 = 世界模型 × 感知策略 × 造型方法 × 语言参数 × 意义指向

从左到右读一遍,正好走完整条生成链——从根,到意义。
它不是五个并列因子相乘,而是一条因果路径的展开。这也是它能既"理解"又"生成"的原因。

陆元原则 · 测量,还是断言?

「如何看一幅画」还有一层更根本的追问:我凭什么这么说? 一张图谱里的每个数值,要么是从真画里测出来的,要么是从风格散文里断言出来的。把两者混着用,体系看着很满、其实空心。我们给整套体系装上一本诚实账本。

断言 / 派生

从风格的文字描述派生出的数值。看着精确,背后 0 幅真画支撑。多数现成图谱的量化,都属此类。

测量 / 实测

用 VLM 逐张看真迹、或用像素直接量出来的数值。每一个都能追到具体是哪些画,并能被新数据修正。

新数据像一道涟漪,穿过整条投影链,把断言校准成测量。校准既会纠偏,也会证伪:

纠偏

印象派的「边缘」派生值是 0.05(断言它锐利),真画实测却是 0.65(其实柔融)——被纠正。

证伪

「饱和度越高、唤起越强 r≈0.78」曾被当作发现,像素复核后撤回:那是"用颜色派生情绪、再用颜色去验证"的循环论证,不是因果。

账本的规矩很简单:实测可以叠在断言之上对照,但不许偷偷替换,也不许假装测过。说不知道,比假装知道更专业。

柒验证 · 这条链,哪几环已被真画检验

把方法论摆上台面后,我们逐环用真迹检验。能验的标定为成立,验出问题的诚实标注待核,测不到的就说测不到——不硬凑通过。

环节	检验方式	结论
L0 再现-表现轴	像素特征可分	成立 · 6 区在平面上可分,是真信号
L2 造型/光影/色彩/笔触/构图	艺术家侧实测相关	5/7 维验证(r≈0.33–0.60)
L2 空间 / 边缘	同上	待核 · 数据不自洽,不假装通过
L3 感知 VAD	VLM vs 人工 vs 像素	VLM 唤起 r≈0.33 > 像素 0.20 · 读到的是语义
旧结论「饱和→唤起」	像素实测复核	已撤回 · 循环论证
L4 画外音 · 动机	不可像素测	已 LLM 考据全覆盖;承认其不可测,只考据不量化

捌闭环 · 既能读,也能生成

一套方法论是否站得住,终极的检验是:能不能反过来用它造画。

读

VLM 把一幅画
拆成这六层

⇄

生成

Artist 1.0 从这六层
拼回一幅画

浙大 IDI 的 Artist 1.0,用的正是同一套六层(类型 / 题材 / 流派 / 画面 / 语言 / 画外音),在「人工智能美术馆」里,和创作者一起画出《印象江南》。

读 ⇄ 生成,互为印证:能把一幅画拆成这六层、又能从这六层拼回一幅画,才说明这套结构是真的「懂画」,而不是事后贴标签。这也是 AIAC 的底层逻辑——AI 把可观测那一截做到极致,意义与立场,永远交还给人。

"看懂一幅画,是逆着作者的立场,把它一层层回溯到底。"

aha · 人类名画知识图谱　·　方法论第一性原理 v0.5
出品浙江大学国际设计研究院

看方法论如何生成 · 人工智能美术馆 → 进人类名画美术馆技术推导版