《线性代数应该这样学》笔记
本人在大一下就跟着卢老师学过 LinearAlgebraDoneRight 部分内容,现在快大四了基本都忘完了。不过该书优雅的架构和精巧的内容还是令我印象深刻,加上线性代数后面的内容我个人认为还是比较重要的,所以这个暑假我准备再看一遍并做些记录。本文可以看作我的拾遗,也可以当作本书我认为的重点内容和思路的回顾与整理。
本文力图逻辑自洽、内容自洽,使读者走进线性代数,感觉到一个概念的引入和定义是自然的而不是突兀的,并能理解更深刻的内容,引导和理解的内容主要由我对原书作者的理解加工而成。
阅读本文(原书)可能的收获
- 在线性映射框架下对特征值、特征向量的不同理解——第5章
- 谱定理、奇异值分解的理论基础——第7章
- 若当标准型——第8章
预备知识
本文会直接从第五章,即特征值开始谈起,所以本章会先介绍常用记号和一些基础的概念,保持全文的完整性,便于阅读。当然,本章必然会不够完全,我会预设大家有一些线性代数、向量空间的知识比如向量空间定义,向量长成,向量空间的基与维数等,从而避免冗长的概念介绍。
向量空间(vector space):
我认为这里的向量空间与经典线性代数教材的线性空间完全相同。
子空间:含于原向量空间且运算封闭包含0元
张成(span):给定一组向量
线性映射(linear map):
核空间(null space):
像空间(range space):
商空间(quotient space):
核空间、像空间和商空间的概念在数学中使用是如此广泛以至于研究各种对象(向量空间、群)的映射时都会使用且放在一个重要地位。
线性变换(linear transformation): 向量空间到自己的线性映射
线性变换
直和(direct sum):设
对本文有兴趣却又对这些概念不熟悉的读者可以参看原书1-4章,相信上过线性代数课程的同学是不会感到陌生的。
5 特征值,特征向量与不变子空间
本章主要介绍有限维向量空间的线性变换,在不变子空间的基础上给出对于特征值、特征向量的理解和相关定理证明,我认为其思路不同于很多线性代数课本,是十分漂亮且有价值的。
5.A 不变子空间
研究任何问题的方法都是先研究简单的情形,再考虑复杂的情况。那么想要理解线性变换,一个自然的思路就是考虑对向量空间进行降维,即分解成多个低维的空间,分而治之。假如我们有
那么这一目标就自然的完成了。然而事情没有那么简单,一个线性变换映射
定义5.A.1:不变子空间(invariant subspace)
给定
显然
相信读者可以自行写出一维不变子空间的情形,即
定义5.A.2:特征值(eigenvalue),对应上文的
定义5.A.3:特征向量(eigenvector),对应上文的
这是大家十分熟悉的概念了,不再详述定义。
定理5.A.1:对应不同特征值的特征向量是线性无关的
不难证明,对应不同特征值的特征向量是线性无关的(反证法+作用线性变化+使用不同特征值条件),也就告诉了我们有限维空间特征值的个数至多是空间维数多个。
那么接下来一个自然的问题是,性质如此之好的一维不变子空间是不是总存在呢?这就引出了下一节的内容。
5.B 特征向量与上三角矩阵
为了回答上文的问题,我们需要一些多项式技术。
定义5.B.1: 线性变换的多项式
利用代数基本定理和刚才定义的线性变换的多项式我们就可以证明复向量空间的一个重要结论:
定理5.B.1:有限维非0的复向量空间上的线性变换一定有一个特征值
证明概要:考虑
必然线性相关,由代数基本定理可得
推得
代数基本定理的证明有许多方法,本人比较熟悉的是利用复变函数中的最大模原理。限于本文目的,不再多言。
至此我们回答了特征值是否存在的问题,这是一件很重要的事情,为我们下面研究整个线性变化提供了强大的工具。在给出下一个结论前,我们需要回到线性变换的矩阵表示:
定义5.B.1:线性变换的矩阵
若
其中
这实际上和线性映射的矩阵定义完全一致,第
列元素的取值实际上考虑如何将 在新的基下线性表示。这十分自然的告诉我们究竟该如何定义、理解矩阵乘法,感兴趣或者有困惑的读者可参阅原书第三章。
研究一个线性变换可以一定程度上变成研究给定一组基下的矩阵。那么如何研究矩阵呢?我们的想法还是前文再三提到的由简至繁,一个自然的想法是矩阵越简单越好,即0元素越多越好。
相信读者已经隐约有所感觉,我们在本章发展的工具一定程度上能回答这个问题了。一个特征向量
定理5.B.2:有限维复向量空间线性变换
原书给了两个证明,后一个证明是我在写本节时才看的,感觉更加优雅且与本文上文更加契合,简述如下:
对维数归纳。定理5.B.1告诉我们至少有一个特征向量和对应的不变子空间,记为
进而得到
此时聪明的读者可能会有新的想法,如果
5.C 特征空间与对角矩阵
在介绍对角矩阵之前我们要先引入特征空间的概念(这个概念在后几章的内容中会启着至关重要的作用):
定义5.C.1:特征空间
线性变换
即该空间包含了对应该特征值的所有特征向量。由定理5.A.1可知所有的特征空间构成了原空间的直和。下一个定理告诉了我们这与对角矩阵(上文提到的更优美的矩阵)的关系:
定理5.C.1:对角化矩阵的等价条件
给定空间
-
可对角化(即存在一组基下表示为对角矩阵) -
存在由 的特征向量组成的基 -
存在
个一维子空间使得 为它们的直和 -
为所有特征空间的直和 -
该定理的一个直接推论就是我们想要的结果,同时作为本章内容的收尾。
定理5.C.2:如果
6 内积空间
由于我预设读者具有线性代数的基础知识,本章的许多定义定理和方法如内积、规范正交基、Gram-Schmidt正交化等内容都将略去不表,只讲我觉得大家可能不知道的、我认为有趣的、与之后章节密切相关的内容。
定理6.1 Cauchy-Schwarz 不等式:
许多经典不等式都是该不等式的特例(如高中时代喜闻乐见的柯西不等式),见原书6.17.
定义6.1:线性函数 (linear functional)
一个
介绍这个定义的目的是引出我认为本章最有趣的结论:
定理6.2:里斯表示定理 (Riesz Representation Theorem)
有限维向量空间
将
定义6.2 正交补 (orthogonal complement)
一个
联想到立体几何中的线面垂直和面面垂直,不难理解该概念。
可以证明,子空间和它的补空间自然的构成了原空间的一个直和分解,由这个分解可以自然的定义出下面一个概念:
定义6.3 正交投影 (orthogonal projection)
关于正交补和正交投影的相关性质请有兴趣的读者参阅原书,书中列举的基本性质都是平凡的。
正交投影其实和我们平常所感觉的投影的概念基本相同,即点在平面上的垂线段。我们都知道垂线段举例最短,这可以推广为如下定理:
定理6.3:垂线段最短定理 (来自本人的命名…)
假设
将
定理6.4:舒尔定理 (Schur’s Theorem)
有限维复向量空间
由定理5.B.2和我们熟知的Gram-Schmidt正交化过程可直接导出该结论。
匆匆掠过本章,我们已经有了足够的工具开始下一章,也是我认为最有趣的一章内容的学习。
7 内积空间中的算子※
这一章我们将详细研究内积空间中的算子,我们会看到大家平时经常听到的谱定理、奇异值分解在线性代数理论里的位置。
从本章开始的内容应该是大部分读者没有接触过的了,难度和陌生度显著提升,我会适当增加摘要内容帮助我自己和读者的理解。如果你觉得对略去的证明和内容感兴趣或者觉得我讲的太跳,请参阅原书第7章,或者在评论中告知。
算子基本上就是线性变换,从本章开始我大概率会使用算子(operator) 这个词,原因不明。
7.A 伴随与正规算子
这里的伴随和大家上课学到的伴随矩阵大概率没有关系。
定义7.A.1:伴随,
伴随的存在性由里斯表示定理保证。
例7.A.1
固定
不难证明
伴随这个概念十分重要,是整章内容的基础。本文在此列出部分书中给出的有关伴随性质:
-
伴随本身构成了线性映射
-
-
既然伴随本身就是线性映射,那么一个自然的问题是它的矩阵表示跟原线性映射的矩阵表示有什么关系,而在内积空间中使用正交基显然更有可能使问题简化,于是我们有如下结论:
是原矩阵表示的共轭转置(conjugate transpose).
读者将两个矩阵每一项写出来即可证明该结论。
考虑到我们的目的是研究算子,即线性变换而不是一般性的线性映射,所以我们考虑一种特殊的伴随,即该算子本身就是自己的伴随:
定义7.A.2 自伴算子 (self-adjoint)
若
有些书中自伴算子/矩阵表示又称为厄米算符/厄密矩阵(Hermitian matrix) ,这个词读者可能会更熟悉。
在给出一个新的概念后我们自然要关注它的基本性质:
定理7.A.1 自伴算子的性质
- 自伴算子的特征值是实的
- 若自伴算子满足
,那么 注意复内积空间下任何算子都满足该性质 - 复内积空间下
是自伴的等价于
自伴算子看起来就是一个很强的性质,它要求
定义7.A.3 正规算子 (normal)
若算子
显然,自伴算子一定是正规的。
定理7.A.2 正规算子的性质
-
是正规的当且仅当 -
如果
是正规的,那么 与 有相同的特征向量和共轭的特征值 注意到 也是正规的,由(1)可直接推得结论 -
正规算子下对应不同特征值的特征向量是正交的
,则由(1)知 该性质十分重要,它实际上呼应了上下文特征向量同时正交的要求
如果读者对自伴算子和正规算子的概念和性质感到困惑和诧异,这是十分正常的,因为这两个概念与谱定理密不可分。所以请往下读。
7.B 谱定理 (The Spectral Theorem) ※
从第五章的研究过程我们已经发现了,简化矩阵表示是十分重要的。第五章中的对角矩阵来自于由特征向量组成的基,那么在内积空间中我们自然会想使用正交基,那要是这些特征向量同时是正交向量的话,这个矩阵的性质就再好不过了。谱定理告诉我们这是可以做到的!
当然,显然不是所有算子都有这么好的性质,而对算子性质的要求其实就是上一节我们讨论的正规算子(复数域)和自伴算子(实数域)。我们在上一章讨论的性质在以下两个定理的证明中会派上用场。
定理7.B.1 复谱定理
若
-
是正规的 -
中存在一组正交基构成 的特征向量 -
存在相对于某组正交基的对角矩阵
证明概要:(2)与(3)显然等价。假设(3)成立,那么
我们证明这个矩阵实际上是对角矩阵。由于
而
直觉来说线性代数中实数的性质不如复数,所以实谱定理要求的算子的性质也要更好,即要求自伴算子而不仅仅是正规算子。
实谱定理的证明较为麻烦,需要一些引理且篇幅较长,其目的可以看作是给出实空间下自伴算子特征值和对于不变子空间(注意到复谱定理的简洁来自于舒尔定理,根属于代数基本定理保证了特征值存在)。 本文略过证明,仅述结论:
定理7.B.2 实谱定理
若
-
是自伴的 -
中存在一组正交基构成 的特征向量 -
存在相对于某组正交基的对角矩阵
谱定理给出了有限维实/复内积空间算子可在正交基下对角化的充要条件,读者从原书部分习题中可以感受到谱定理的强大。
读者在感叹谱定理的奇妙同时,可能也会想能不能有一种情况不需要什么算子条件也能得到对角矩阵。当然由谱定理的充要性我们知道这是不现实的。所以为了达成这个目的,我们要放弃一些东西——矩阵表示使用同一组基。
注意到至此我们考虑的都是映射两端用相同的基,那么如果允许使用不同的基呢,我们能得到对角矩阵吗,用的基是我们所期待的内积空间的正交基吗?这也就是奇异值分解要告诉我们的。为此,我们同样需要一些基础的算子,即下一节:
7.C 正算子与等距同构
7.C, 7.D的架构看起来与7.A, 7.B十分相似,即定义特殊的算子,然后在这样满足一定性质的算子基础上叙述某一重要的定理。
定义7.C.1:正算子 (positive operator)
若
一些书中的半正定算子(positive semidefinite operator) 和正算子是一回事。
例7.C.1:投影算子是正算子
定义7.C.2:平方根 (square root)
若算子
类似的,我们也需要一些关于正算子和平方根的性质来帮助我们更好的理解这些概念:
定理7.C.1 正算子的性质
下列条件是等价的:
-
是正的 -
是自伴且所有特征值非负 这告诉了我们正算子和自伴算子的联系 -
有正平方根 -
有自伴平方根 -
存在算子
满足
本节我可能会给出比较多的证明概要/内容,因为我自己忘得差不多了,再加上这些证明本身也较为自然和有用,读者可自行证明,也可看看本文概要,当然也可不管。
证明概要: (1)推(2)是显然的。 (2)推(3):由于
另一方面,保持范数的算子十分重要,它值得一个单独的名字:
定义7.C.3:等距同构 (isometry)
若算子
定理7.C.2 等距同构的性质
下列条件是等价的:
-
是等距同构 -
-
的一组正交基在等距同构作用下依旧正交 -
是等距同构
证明概要: (1)推(2):
(2)推(3)是显然的。 (3)推(4):若有
不难证明
由该定理我们很容易可以证明下定理:
定理7.C.3 复内积空间下等距同构的描述
若
实内积空间下的情况要等到第9章我们才会回答。
有了这些准备,我们最终可以开始本章最后一节内容:
7.D 极分解(Polar Decomposition)与奇异值分解 (Singular Value Decomposition) ※
经过漫长的旅程,我们终于快来到著名的奇异值分解。在此之前,我们先看看极分解是怎么一回事,它实际上告诉我们一个算子总是可以分解为等距同构和一个正算子的乘积:
原书中的类比:复数
满足 .
定理7.D.1 极分解
若
证明概要:
-
-
定义
为 ,这是良定义的(利用(1)),是线性映射,是单射 - 考虑
,将 拓展至我们需要的 .
因此我们可以将
上面这段话和下面一些话完全从原书翻译而来,因为我觉得写的真的很好!
定义7.D.1 奇异值
算子
奇异值一定是非负的。注意每一个有限维空间上的算子都有维数多个奇异值(考虑重数),这可以看作谱定理作用到正算子的结果。
最后,我们要证明奇异值定理——每一个
定理7.D.2 奇异值分解
若
证明:对
等式两边作用
由极分解定理我们知道存在等距同构满足
Q.E.D.
当我们在谈论算子时,我们总是习惯使用同一组基。而奇异值分解让我们可以很好的使用两个基来研究算子。接上文定义,因为
综上所述,奇异值分解回答了我们在7.B谱定理一节中提出的问题,即允许使用两组基从而使矩阵对角。而奇异值分解本身在各个领域也有着极大的应用,相信读者在今后碰到时不会陌生,能理解其理论基础。
8 复向量空间中的算子
本章我们回到复向量空间,考虑其上的算子结构。虽然我们没有了内积这一个强大的工具,但同样可以通过别的技术发展出一套强大的方法——若当标准型来描述算子的结构。
简单来说,我们最终可以证明任意一个复线性空间的算子在某组基下都可以表示成对角块的形式,即
每一个块
可以发现这个矩阵和我们理想的对角矩阵即为相近,为此我们有一段更漫长的路要走。首先,让我们回到并扩展第5章的核心概念——特征值/向量:
8.A 广义特征向量与幂零算子
从第5章我们可以知道,许多算子没有足够多的特征向量支撑成一组基,无法完成对任意给定算子
每一个
谱定理告诉我们内积空间下这样的分解在复数域下对正规算子存在,实数域下对自伴算子存在。然而这样的分解一般情况下不一定存在,考虑一个简单的例子:
这几段话还是翻译原文的。
我们知道特征向量是
定义8.A.1:广义特征向量 (generalized eigenvector)
若
我们称
在继续之前,我们需要简单讨论一下核空间在幂次下的性质,总结如下:
定理8.A.1:幂次算子下的核空间性质
-
-
为空间维数,那么 -
这告诉我们
我们知道对应不同特征值的特征向量之间线性无关,这是一切的基础,因为只有这样才有可能组成一组基。那么广义特征向量自然也要满足:
定理8.A.2:对应于不同特征值的广义特征向量线性无关
证明略
幂次最终为0的算子也很重要,它值得一个名字:
定义8.A.2:幂零算子 (nilpotent)
若一个算子的某个幂次为0,我们称该算子为幂零算子
不知道读者是否发现,我们在给出一个算子后经常要讨论它的矩阵表示,幂零算子也是如此。
定理:8.A.3:幂零算子的矩阵表示
若
证明概要:首先选择
8.B 算子的分解
正如上一节所言,本节我们会看到每一个有限维复向量空间上的算子都有足够的广义特征向量能构成直和分解。
定理8.B.1
若
-
-
每一个
在 下是不变的 - 每一个
是幂零的
证明:(2)与(3)由
定理8.B.1(1)告诉我们了存在足够的广义特征向量来张成整个空间。
定义8.B.1:重数
特征值的重数为对应广义特征空间的维数
我们常用的代数重数即为这里的重数,为广义特征空间的维数
而几何重数则是特征空间的维数
那么一个自然的问题是,这个结论之下的矩阵表示是怎么样的呢? 其实已经可以看出来了。
可以发现和本章引言的约当型还是有些区别的,不过这个结论也足够强大,而且是后面简化的基础。
8.C 特征多项式和极小多项式
本节仅述一小部分
定义8.C.1:特征多项式
若
定理8.C.1:凯莱-哈密顿定理 (Cayley-Hamilton Theorem)
设
证明留给读者,可将其作为上节定理8.B.1的应用。
8.D 约当型 (Jordan Form)
8.B告诉我们每一个复向量空间的算子都有一组基使其构成一个不错的矩阵。这节,即本章的最后一节我们将会证明我们可以做得更好。
8.B节我们证明了每一个对角块块
定理8.D.1
若
-
是一组基 -
证明:我们对
因为
是
而
是线性无关的。将上述向量张成一组基
即构成了一组基,又能满足我们的要求。Q.E.D.
这个证明感觉有点玄妙,对于幂零算子性质利用的很好
那么,这组基的矩阵是怎样的呢,对于每一个子块,算子
联系到前面8.A.1我们就证明的结论,到这我们就给出了目前可达的复向量空间任一算子的最简矩阵表示——约当型,具体型式可见本章开头。
9 实向量空间中的算子
终于,我们来到本文的最后一章。本章我们会使用我们在复向量空间的结果来分析实向量空间。注意到不变子空间在线性代数中起着至关重要的作用,非0有限维复向量空间的每一个算子都有一个特征值从而有一维不变子空间,而实向量空间则有可能不存在特征值因此不存在一维不变子空间,所以下一节我们会介绍如何让实向量空间也有一个较简单的不变子空间。
本章会较为简略。
9.A 复化
既然复空间有这么多好处,那么我们有什么办法让实空间也有这些好处呢?本节将会介绍一个自然的将实空间嵌入复空间的方法:复化。
定义9.A.1:向量空间的复化
若
的复化记作 ,等价于 ,我们一般写作-
-
联系到
定义9.A.2:算子的复化
若
定理9.A.1:每一个算子都有1维或2维不变子空间
复向量空间的情况是显然的。
若
9.B 实内积空间上的算子
现在让我们把注意力放回到内积空间。复谱定理完全给出了复内积空间上正规算子的结构,本节我们将会描述清楚实内积空间的正规算子的结构,让我们从2维实向量空间开始:
定理9.B.1
若
-
是正规的但不是自伴的 -
相对于所有正交基的矩阵表示是如下形式: -
相对于某族正交基的矩阵表示是如下形式: 证明留给读者。
下一个定理告诉我们限制在不变子空间上的正规算子还是正规的,这给我们最后的定理的归纳法埋下了伏笔:
定理9.B.2
若
是 下不变子空间 是 下不变子空间-
和 是正规算子
证明概要:
-
利用
,证明与复谱定理类似 -
由(1)可立即得到
- 令
, ,而 ,也就说明了结论 - 由(1-3)可立即得到
来到了我们的最后一个目标:
定理9.B.3
若
是正规的- 存在一组正交基使得
是块对角矩阵,且每个块是 或者
证明:假设(2)成立,通过矩阵乘法可以立即验证
假设(1)成立,我们使用数学归纳法证明结论。
注意
读者可自行根据该定理推导实内积空间上等距同构的结构,由等距不难猜出
总结
线性代数的核心在于研究线性映射和算子的结构。本书围绕这一核心展开,对多种情况进行了讨论,发现总是可以在某些限制条件下找到某组基分解简化算子结构,使其矩阵表示有更多的0。最后让我们通过下表回顾一下我们走过的定理,言尽于此…
空间 | 数域 | 条件 | 定理 | 结论 |
---|---|---|---|---|
向量空间 | / | 足够特征向量 | 5.C.1 | 对角矩阵 |
内积空间 | 正规算子 | 复谱定理 | 对角矩阵 | |
内积空间 | 自伴算子 | 实谱定理 | 对角矩阵 | |
内积空间 | / | 两组基 | 奇异值分解 | 对角矩阵 |
向量空间 | / | 8.B.1, 8.D.1 | 约当型 | |
内积空间 | 正规算子 | 9.B.3 | 1, 2块对角矩阵 |