线性代数教材上有一个乍看之下很难理解的现象。
按数学中常见的习惯,n 维复空间 Cn 上的标准内积 ⟨⋅,⋅⟩ 定义为:
⟨u,v⟩=k=1∑nukvk
而同时有 Hermite 二次型的定义:
f(u)=j=1∑nk=1∑naj,kujuk
这两个本该密切相关的定义,却在不同的元素上取了共轭 —— 对于内积,是后面的 vk;对于二次型,是前面的 uj。
当然也可以采用另一组定义,在此定义下 ⟨u,v⟩ 和 f(u) 中取共轭的元素都变成了另一个,上面看到的“不一致性”仍然存在。
于是在这个奇怪的问题上纠结了很久,有了一些奇妙的想法,详细记录在此。
未加说明的情况下,约定:
- uk,vk 分别表示 Cn 中向量 u,v 的第 k 维分量;
- aj,k 表示正定 Hermite 矩阵 A 的第 j 行第 k 列元素。
简单的解释
事实上,⟨u,v⟩=vHu,而 f(u)=uHAu,所以它们同为广义的二次型 QA(u,v)=vHAu 的特例。
至于取共轭的“位置”不同,不过是写法造成的假象而已。改成下面的形式便一目了然。
⟨u,v⟩=vHIuf(u)=uHAu=j=1∑nk=1∑nvjδj,kuk=j=1∑nk=1∑nujaj,kuk
(其中 Kronecker 函数 δj,k 等于单位阵 I 的第 j 行第 k 列元素。)
复杂的解释
vHAu 这个形式当然不是拍脑袋乱写的,数学家偏爱这个形式,其背后还有更本质的原因。[物理学上的习惯似乎是相反的,不过那样的原因(量子力学的 Dirac 符号)就与本文无关啦。]
为什么有共轭和共轭对称?
首先,标准内积里为什么有共轭?
回头看实空间上的点积,它实质上是 Euclid 范数 ∥u∥2=∑kuk2 推广到两个向量的情形。
而在复空间上也需要有一个类似物,它需要满足正定性 ∥u∥2≥0。在一维情形下,复数的模 ∣z∣2=z⋅z 当然是首选的定义。将其推广至 n 维,即可定义 ∥u∥2=∑k∣uk∣2=uk⋅uk。共轭就是从这里产生的。
换一个角度,内积为什么满足的是共轭对称性 ⟨u,v⟩=⟨v,u⟩,而非对称性 ⟨u,v⟩=⟨v,u⟩?
不妨回到标准内积,试着把表达式中的实部与虚部分开。
Re⟨u,v⟩=k=1∑nReukRevk+ImukImvkIm⟨u,v⟩=k=1∑nImukRevk−ReukImvk
可以发现,实部 Re⟨u,v⟩ 相当于 n 个 R2 上的点积之和;而虚部 Im⟨u,v⟩ 则等于 n 个 R2 上的叉积之和,刻画了由 v 到 u 在“n 维复空间中的旋转角度”—— 例如当两个向量每一维分量的幅角均相等时,Im⟨u,v⟩=0;当 u 每一维分量的幅角均为 v 对应分量逆时针旋转 90 度时,Im⟨u,v⟩ 取到最大值 ∥u∥⋅∥v∥。
而在更一般的内积定义中,自然也希望结果的实部和虚部分别有对应的性质。共轭对称性正是来源于叉积的反交换律,或者更广义的“复空间中的旋转角度”之反交换律。
这么看,“共轭”的性质确实很优秀呢。
为什么共轭取在第二个向量上?
要解决这个问题,不得不探寻内积的另一层本质,而从最简单的点积开始总是不会错的。点积的本质是什么?
当然可以说,它表示“u 在 v 上的投影乘上 v 的原长”,但这并不够深入。
3Blue1Brown 在视频🪐里详细论述了一个观点:点积是将由 v 定义的一个 Rn→R 的线性变换作用在了 u 上。这个变换将任一向量 u 变换为一个标量 vTu。
在这个视角下,一个内积函数与一个向量也能共同确定一个线性变换。也就是说,“内积”是一个将向量映射到一个线性变换的算子。从更加抽象的角度看,这相当于一次函数部分求值(Curry 化):二元函数 Cn→Cn→C 可以视作将某一参数映射到一个一元函数的算子 Cn→(Cn→C)。
一个正定 Hermite 矩阵 A 便定义了这样一个线性算子,它将一个向量 v 映射为 vHA 在自然基下所对应的线性变换。将这个变换作用于 u,即是之前所见的 vHAu 这一形式。它实际上也是 Cn 上内积的一般形式(Hermite 形式)。
从而共轭之所以取在 v 上,是因为我们希望 u 作为被变换的元素保留其原始状态,而将所有的运算放进 Cn→C 这个线性变换中去。至于 u 放在 v 前面的原因,大概也是觉得“先写被变换的元素,再指出变换”在这个二元运算当中比较符合直觉吧。