知乎用戶,以誠為本,以樸修身,以勇求進,以毅立功
進修數學范疇的一門科目標根本常識,無外乎兩個目標,一個是在測驗中取得好成就,一個是在理解這些常識中,能在本身的研究頂用到它。前一個目標良多回覆已經歸納綜合的很好,這里不再贅述,所以呢,就連系本身從上課到學做研究的一些體味來辦事于第二個目標讀者。
一門學科入門,有兩種方式,一種是從抽象到具體,一種是從具體到抽象。一起頭就是一個很嚴密的抽象的界說,以及隨之而來的一系列公式,對新手其實并不是很友愛,并且也并不克不及幫忙初學者細心的思慮這些公式和界說所蘊含的人類聰明。所以,我們就先從一些具體的案例出發,看看為啥線性代數里有那么多如“線性相關”似乎很無聊的概念以及環繞這些概念而來的理論吧。我們考慮三個比力根本的案例:線性方程組的求解;線段扭轉與線性變換;以及高維數據降維與聚類。前兩個是很經典的問題,最后一個是跟著統計學出格是大數據時代到來變得在分歧學科遍及呈現的問題。讓我們起頭吧。
1.案例 1:線性方程組的求解
從小學起頭,我們就起頭進修若何求解下面的方程組(這個方程組里,
是未知數,其他為已知數,m 紛歧心猿意馬等于 n):
方程組(1)簡練而又主要,因為很多理論以及簡單的模子最后都可以歸結為方程組(1)的求解。小學和初中進修的是加減消元法,高中后,算立體幾何題,求法標的目的量的時辰,會用到行列式來求解這個方程組。上大學前,我們對于線性代數最根基的問題,線性方程組的求解,并不是很目生。
不外,在讀者眉飛色舞的吭哧吭哧的求解方程組(1)的時辰,或許想過,以及在具體的算例中碰著過如下問題:
這三個問題,恰是一本尺度的線性代數教材里的前幾章的常識所致力于回覆的問題。解決思緒就是引入標的目的量空間,以及矩陣,那么(1)式可以形式上的寫作:
我們只要研究系數矩陣
以及增廣矩陣
就好了。怎么研究呢,那些絮絮不休的線性相關的理論就是為此辦事的。
若是我們考慮我們熟悉的實數域的環境,當系數矩陣是方陣時,我們將行列式視作空間
到數域
的映射,即:
若是我們按照一階行列式,二階行列式的公式,遞歸的界說行列式
可以證實(3)是獨一知足如下前提的映射:
1)將單元矩陣
映射為 1
2)
此中省略號的行標的目的量都是一樣的;
3) 若是矩陣
相鄰的行標的目的量不異,那么
用行列式,線性相關,基,秩這些概念,我們便可以成立起關于方程
的有解的判別前提,以及解的布局的心猿意馬理 ,這些尺度的教材里都有,就不再贅述了。值得注重的是,若是我們將這套理論,移植到可微函數構成的線性微分方程組,我們也可以機關近似的命題,這申明我們可以將 矩陣和標的目的量做更為一般的推廣。
2. 案例 2,線段扭轉與線性變換
若是讀者用過 PS 或者 PPT 的時辰,會發現里面的那些外形其實都是用坐標描述的,于是我們便可以將其視作
的一個子空間。考慮一個簡單的問題,我們需要對 PS 里位于坐標原點的一段線段逆時針扭轉必然的角度,PS 是若何實現這個功能的呢?很簡單,我們只需要對這段線段對應的標的目的量進行坐標變換就好了。若是進行變換呢?若是我們將方程(2)視作將標的目的量 x 變換為標的目的量 b,那么我們可以把矩陣 A“視作”一個變換。那么我們只要用一個二階矩陣來暗示扭轉變換就好了,這個二階矩陣,可所以
扭轉變換是更為稱為線性變換的具體案例,并且不改變線段的長度(連結距離)。此外,我們可以想象,若是一個標的目的量的偏向與扭轉的偏向一致,那么扭轉變換是不會改變其偏向的(這個標的目的量就是所謂特征標的目的量)。
尺度的線性代數教材的后半部門,很大水平上是對這個線段扭轉問題的擴展。矩陣的特征值,對角化,以及二次型的理論就是上面這個線段扭轉問題的進一步研究。此外,二次型的相關理論還可以幫忙我們回覆二次曲線和曲面分類的問題。具體可見任何一本尺度的線性代數教材,例如丘維聲的書,這里不再贅述。
3. 案例 3:高維數據降維與聚類
這個案例和筆者的專業很是相關了。素質上來說是數理統計與線性代數的交叉。
當前生物研究中有一個很是前沿的手藝,叫做單細胞轉錄組測序。例如我們可以從人身上抽外周血,進行單細胞測序,這些測序數據在顛末一系列的處置之后,最終會獲得一個稱之為表達矩陣的對象,此中每一行對應一個基因,每一列對應一個細胞,所以這個數據真的是一個矩陣。若是讀者看過《工作細胞》的話,或許知道外周血里有很多分歧類型的細胞,好比 T 細胞,B 細胞,這些細胞之所所以分歧的,真的是因為他們形態和功能特異。那么我們會問,可否從這么多細胞的表達譜將分歧的細胞類型找出來呢。當然是可以的。
假如我們測了 2700 個單細胞,人的參考基因組注釋出了 30000 個基因的話,那么我們的表達矩陣應該是
的十分稀少的矩陣。我們但愿能在二維的坐標圖中,盡可能的展示出細胞類型的信息,而且能區分出分歧的細胞類型。轉化為兩個子問題,那就是,高維矩陣降維,以及高維數據聚類的問題 。這中心有很多巧妙的算法。在實踐中,高維矩陣降維我們常用的是 PCA,t-SNE,UMAP 等算法,而聚類的話,我們會用條理聚類以及 Louvain Algorithm 之類的圖聚類算法,對每個細胞對應的高維標的目的量進行聚類;
我們可以看看具體的步調,這是 PCA 的成果,我們看到,細胞似乎能分為 4 個分歧的大類 ;
我們用非線性的降維方式 t-SNE,將這些細胞在二維的投影上分的更開,而且用 Louvain Algorithm,進行聚類 ,將聚類標簽,用分歧顏色展示出來;
若是連系先驗常識,查看每個類別對應細胞的差別表達基因,我們可以對每個類別進行注釋,最終我們可以獲得下面的這個成果:
此外 ,還可以將 PCA 以及 t-SNE 納入到流形進修的框架里,有學者提出了 UMAP 算法 ,可以或許更好的可視化,降維與聚類成果。
PCA,t-SNE,以及 UMAP 這些統計進修里的高級算法背后離不開矩陣闡發和泛函闡發(可以將其視為函數版本的線性代數)的相關理論,其策略就是界說懷抱空間以及范數,這里就不再做深切介紹了。只列出參考文獻:
PCA 的介紹可見李航的《統計進修方式》;
t-SNE 道理以及代碼實現見
UMAP 論文以及代碼實現見
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!