• <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>

    微生物群落多樣性測序與功能分析

    微生物群落測序是指對微生物群體進行高通量測序,經由過程闡發測序序列的組成闡發特心猿意馬情況中微生物群體的組成環境或基因的構成以及功能。借助分歧情況下微生物群落的組成差別闡發我們可以闡發微生物與情況身分或宿本家兒之間的關系,尋找標記性菌群或特心猿意馬功能的基因。對微生物群落進行測序包羅兩類,一類是經由過程16s rDNA,18s rDNA,ITS區域進行擴增測序闡發微生物的群體組成和多樣性;還有一類是宏基因組測序,是不顛末分手培育微生物,而對所有微生物DNA進行測序,從而闡發微生物群落組成,基因組成,挖掘有應用價值的基因資本。

    以16s rDNA擴增進行測序闡發本家兒要用于微生物群落多樣性和組成的闡發,今朝的生物信息學闡發也可以基于16s rDNA的測序對微生物群落的基因組成和代謝路子進行展望闡發,大大拓展了我們對于情況微生物的微生態認知。

    今朝我們按照16s的測序數據可以將微生物群落分類到種(species)(一般只能對部門菌進行種的判定),甚至對亞種級別進行闡發,

    幾個概念:

    16S rDNA(或16S rRNA):16S rRNA 基因是編碼原核生物核糖體小亞基的基因,長度約為1542bp,其分子巨細適中,突變率小,是細菌系統分類學研究中最常用和最有效的標記。16S rRNA基因序列包羅9個可變區和10個保守區,保守區序列反映了物種間的親緣關系,而可變區序列則能表現物種間的差別。16S rRNA基因測序以細菌16S rRNA基因測序為本家兒,焦點是研究樣品中的物種分類、物種品貌以及系統進化。

    OTU:operational taxonomic units (OTUs)在微生物的免培育闡發中經常用到,經由過程提取樣品的總基因組DNA,操縱16S rRNA或ITS的通用引物進行PCR擴增,經由過程測序今后就可以闡發樣品中的微生物多樣性,那怎么區分這些分歧的序列呢,這個時辰就需要引入operational taxonomic units,一般環境下,若是序列之間,好比分歧的 16S rRNA序列的相似性高于97%就可以把它界說為一個OTU,每個OTU對應于一個分歧的16S rRNA序列,也就是每個OTU對應于一個分歧的細菌(微生物)種。經由過程OTU闡發,就可以知道樣品中的微生物多樣性和分歧微生物的品貌。

    測序區段:因為16s rDNA較長(1.5kb),我們只能對此中經常轉變的區域也就是可變區進行測序。16s rDNA包含有9個可變區,別離是v1-v9。一般我們對v3-v4雙可變區域進行擴增和測序,也有對v1-v3區進行擴增測序。

    東西/原料

    • 16s rDNA測序起首需要提取情況樣品的DNA,這些DNA可以來自泥土、糞便、空氣或水體等任何來歷。
    • 提取DNA后需要顛末質檢和純化,一般16s rDNA測序擴增對DNA的總量要求并不高,總量大于100ng,濃度大于10ng/ul一般都可以知足要求。若是是來自和寄本家兒共生的情況如蟲豸的腸道微生物,提取時可能包羅了寄本家兒自己的大量DNA,對DNA的總量要求會提高。微生物菌群多樣性測序受DNA提取和擴增影響很大,分歧的擴增區段和擴增引物甚至PCR輪回數的差別城市對成果有所影響。因而建議統一項目分歧樣品的都采用不異的前提和測序方式,這樣彼此之間才存在可比性。
    • 完當作PCR之后的產品一般可以直接上測序儀測序,在上機測序前我們需要對所有樣本進行心猿意馬量和均一化,凡是要進行熒光心猿意馬量PCR。完當作心猿意馬量的樣品夾雜后就可以上機測序。
    • 16s rDNA測序今朝可以采用多種分歧的測序儀進行測序,包羅羅氏的454,Illumina的Novoseq, MiSeq,Hiseq,Life的 PGM 或 Pacbio 以及 nanopore 的三代測序儀。分歧的儀器各有優錯誤謬誤,今朝最本家兒流的是Illumina公司的MiSeq,因為其在通量、長度和價錢三者之間最為均衡。MiSeq 測序儀可以發生 2x300 bp 的測序讀長, Hiseq 和 Novoseq 可以生當作 2x250bp 或者 2x150bp 的測序讀長,且通量較大。

    方式/步調

    1. 1

      16s rDNA闡發根基流程:

    2. 2

      原始數據處置:

      原始測序數據需要去除接頭序列,按照 overlap 并將雙端測序序列進行拼接當作單條序列,同時對序列質量進行質控和過濾。供給已知數據庫 GreenGenes 作為參考,去除嵌合體序列獲得最終可用的序列。

      提掏出的數據以 fastq 格局保留,每個樣本有 fq1 和 fq2兩個文件,里面為測序兩頭的 reads,序列按挨次一一對應。

      原始fastq格局是一個文本格局用于存儲生物序列(凡是是核酸序列)和其測序對應的質量值。這些序列以及質量信息用ASCII字符標識。

    3. 3

      OTU分類和統計:

      OTU(operational taxonomic units) 是在系統發生學研究或群體遺傳學研究中,為了便于進行闡發,報酬給某一個分類單位(品系,種,屬,分組等)設置的統一標記。凡是按照 97% 的相似性閾值將序列劃分為分歧的 OTU,每一個 OTU 凡是被視為一個微生物物種。相似性小于97%就可以認為屬于分歧的種,相似性小于93%-95%,可以認為屬于分歧的屬。樣品中的微生物多樣性和分歧微生物的品貌都是基于對OTU的闡發。

      利用QIIME(version 1.8.0)東西包進行統計注釋。

      利用QIIME(version 1.9.0, http://bio.cug.edu.cn/qiime/)的ucluster方式按照97%的序列相似度將所有序列進行同源比對并聚類當作operational taxonomic units (OTUs)。然后與數據庫GreenGenes(version gg_13_8, http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-16S.cgi)進行比對,比對方式uclust,identity 0.9 。

      然后對每個OTUs進行reads數量統計。

      下面的2個表,此中一個表是對每個樣本的測序數目和OTU數量進行統計,而且在表栺中列出了測序籠蓋的完整度(顯示前10個樣本)。

      另一個表是對每個樣本在分類字程度上的數目進行統計,而且在表栺中列出了在每個分類字程度上的物種數量(顯示前10個樣本)。

      可以看到絕大部門的OTU都分類到了屬(Genus),也有良多分類到了種(Species)。可是仍然有良多無法完全分類到種一級,這是因為情況微生物自己存在很是豐碩的多樣性,還有大量的菌仍然沒有被測序和發現。

      測序數量統計表本家兒如果對每個樣本的測序數目和OTU數量進行統計,而且在表格中列出了測序籠蓋的完整度(顯示前10個樣本,若是樣本跨越10個,請查看成果中otu_stat.txt文件)

      此中 SampleName暗示樣本名稱;SampleSize暗示樣本序列總數;OTUsNumber暗示注釋上的OTU數量;OTUsSeq暗示注釋上OTU的樣本序列總數。

      Coverage是指各樣品文庫的籠蓋率,其數值越高,則樣本中序列沒有被測出的概率越低。該指數現實反映了本次測序成果是否代表樣本的真實環境。

      計較公式為:C=1-n1/N  此中n1 = 只含有一條序列的OTU的數量; N = 抽樣中呈現的總的序列數量。

      分類程度統計表本家兒如果對每個樣本在分類學程度上的數目進行統計,而且在表格中列出了在每個分類學程度上的物種數量(只顯示前10個樣本,若是樣本跨越10個,請查看成果中taxon_all.txt文件)

      此中SampleName暗示樣本名稱;Phylum暗示分類到門的OTU數目;Class暗示分類到綱的OTU數目;Order暗示分類到目標OTU數目;Family暗示分類到科的OTU數目;Genus暗示分類到屬的OTU數目;Species暗示分類到種的OTU數目。

    4. 4

      我們還可以對這些種屬的組成進行柱狀圖顯示:

      橫坐標中每一個條形圖代表一個樣本,縱坐標代表該分類層級的序列數量或比例。統一種顏色代表不異的分類級別。圖中的每根柱子中的顏色暗示該樣本在分歧級別(門、綱、目等)的序列數量,序列數量只計較級別最低的分類,例如在屬入彀算過了,則在科中則不反復計較。

      Q: 為什么要選擇V3-V4區的測序長度?為什么有些文獻是V6區,有什么區別?

      A:  16S rRNA總長約1540 bp,包含 9個可變區。因為高通量測序的測序長度的限制,不成能將16S rRNA的9個可變區全數測序,所以在PCR擴增時往往只能選擇1-3個可變區作為擴增片段。Kozich 等評估了Miseq測序儀闡發的分歧16S rRNA可變區的精確性發現,測心猿意馬 V4 區結果最佳。按照我們的測序長度,v3-v4區是最佳選擇。

    5. 5

      我們還需要對樣本之間或分組之間的OTU進行比力獲得韋恩圖:

      注重,韋恩圖今朝一般最多只能顯示5個樣本或分組,過多的樣本無法無法進行韋恩圖繪制

    6. 6

      樣品組成品貌:

      稀釋曲線

      微生物多樣性闡發中需要驗證測序數據量是否足以反映樣品中的物種多樣性,稀釋曲線(豐碩度曲線)可以用來查驗這一指標。

      稀釋曲線是用來評價測序量是否足以籠蓋所有類群,并間接反映樣品中物種的豐碩水平。稀釋曲線是操縱已測得16S rDNA序列中已知的各類OTU的相對比例,來計較抽取n個(n小于測得reads序列總數)reads時呈現OTU數目的期望值,然后按照一組n值(一般為一組小于總序列數的等差數列)與其相對應的OTU數目的期望值做出曲線來。當曲線趨于平緩或者達到平臺期時也就可以認為測序深度已經根基籠蓋到樣品中所有的物種;反之,則暗示樣品中物種多樣性較高,還存在較多未被測序檢測到的物種。

      下圖中的稀釋曲線

      橫坐標代表隨機抽取的序列數目;縱坐標代表不雅測到的OTU數目。樣本曲線的延長終點的橫坐標位置為該樣本的測序數目,若是曲線趨于平展表白測序已趨于飽和,增添測序數據無法再找到更多的OTU;反之表白不飽和,增添數據量可以發現更多OTU。

    7. 7

      Shannon-Winner曲線

      Shannon-Wiener 曲線,是操縱shannon指數來進行繪制的,反映樣品中微生物多樣性的指數,操縱各樣品的測序量在分歧測序深度時的微生物多樣性指數構建曲線,以此反映各樣本在分歧測序數目時的微生物多樣性。 當曲線趨勢平展時,申明測序數據量足夠大,可以反映樣品中絕大大都的微生物物種信息。

      與上圖一樣,橫坐標代表隨機抽取的序列數目;縱坐標代表的是反映物種多樣性的Shannon指數。

      樣本曲線的延長終點的橫坐標位置為該樣本的測序數目,若是曲線趨于平展表白測序已趨于飽和,增添測序數據無法再找到更多的OTU;反之表白不飽和,增添數據量可以發現更多OTU。

      此中曲線的最高點也就是該樣本的Shannon指數,指數越高表白樣品的物種多樣性越高。

      Q: Shannon指數怎么算的?

      A: Shannon指數公式:

      此中,Sobs= 現實測量出的OTU數量;ni= 含有i 條序列的OTU數量;N = 所有的序列數。

    8. 8

      Rank-Abundance曲線

      用于同時詮釋樣品多樣性的兩個方面,即樣品所含物種的豐碩水平和平均水平。

      物種的豐碩水平由曲線在橫軸上的長度來反映,曲線越寬,暗示物種的構成越豐碩;

      物種構成的平均水平由曲線的外形來反映,曲線越平展,暗示物種構成的平均水平越高。

      一般跨越20個樣本圖就會變得很是復雜并且不美不雅,所以一般20個樣本以下會做該圖,圖片保留為成果目次中rank.pdf。

      橫坐標代表物種排序的數目;縱坐標代表不雅測到的相對品貌。

      樣本曲線的延長終點的橫坐標位置為該樣本的物種數目,若是曲線越光滑下降表白樣本的物種多樣性越高,而曲線快速陡然下降表白樣本中的優勢菌群所占比例很高,多樣性較低。

    9. 9

      Alpha多樣性(樣本內多樣性)

      Alpha多樣性是指一個特心猿意馬區域或者生態系統內的多樣性,常用的懷抱指標有Chao1 豐碩度估量量(Chao1 richness estimator) 、噴鼻農 - 威納多樣性指數(Shannon-wiener diversity index)、辛普森多樣性指數(Simpson diversity index)等。

      計較菌群品貌:Chao、ace;  

      計較菌群多樣性:Shannon、Simpson。

      Simpson指數值越大,申明群落多樣性越高;Shannon指數越大,申明群落多樣性越高。表中顯示前10個樣本,若是樣本大于10個,詳見成果目次中的alpha_div.txt。

      Q: 能不克不及詮釋下每個指數(如chao1、shannon)?

      A: Chao1:是用chao1 算法估量群落中含OTU 數量的指數,chao1 在生態學中常用來估量物種總數,由Chao (1984) 最早提出。Chao1值越大代表物種總數越多。

      Schao1=Sobs+n1(n1-1)/2(n2+1)

      此中Schao1為估量的OTU數,Sobs為不雅測到的OTU數,n1為只有一條序列的OTU數量,n2為只有兩條序列的OTU數量。

      Shannon:用來估算樣品中微生物的多樣性指數之一。它與 Simpson 多樣性指數均為常用的反映 alpha 多樣性的指數。Shannon值越大,申明群落多樣性越高。

      Ace:用來估量群落中含有OTU 數量的指數,由Chao 提出,是生態學中估量物種總數的常用指數之一,與Chao1 的算法分歧。

      Simpson:用來估算樣品中微生物的多樣性指數之一,由Edward Hugh Simpson ( 1949) 提出,在生態學中常用來心猿意馬量的描述一個區域的生物多樣性。Simpson 指數值越大,申明群落多樣性越高。

      辛普森多樣性指數=隨機取樣的兩個個別屬于分歧種的概率

      =1-隨機取樣的兩個個別屬于同種的概率

    10. 10

      Alpha多樣性指數差別箱形圖

      別離對 Alpha diversity 的各個指數進行秩和查驗闡發(若兩組樣品比力則利用 R 中的wilcox.test 函數,若兩組以上的樣品比力則利用 R 中的 kruskal.test 函數),經由過程秩和查驗篩選分歧前提下的顯著差別的 Alpha Diversity指數。

    11. 11

      Beta多樣性闡發(樣品間差別闡發)

      Beta多樣性懷抱時空標準上物種構成的轉變, 是生物多樣性的主要構成部門, 與很多生態學和進化生物學問題緊密親密相關, 是以在比來10年間當作為生物多樣性研究的熱點問題之一。

    12. 12

      PCoA闡發

      PCoA(principal co-ordinates analysis)是一種研究數據相似性或差別性的可視化方式,經由過程一系列的特征值和特征標的目的量進行排序后,選擇本家兒要排在前幾位的特征值,PCoA 可以找到距離矩陣中最本家兒要的坐標,成果是數據矩陣的一個扭轉,它沒有改變樣品點之間的彼此位置關系,只是改變了坐標系統。經由過程PCoA 可以不雅察個別或群體間的差別。

      每一個點代表一個樣本,不異顏色的點來自統一個分組,兩點之間距離越近表白兩者的群落組成差別越小。PCoA有多張圖,別離代表的PCoA1-2,2-3,3-1。

    13. 13

      NMDS闡發(非懷抱多維標準闡發)

      NMDS(Nonmetric Multidimensional Scaling)常用于比對樣本組之間的差別,可以基于進化關系或數目距離矩陣。

      橫軸和縱軸:暗示基于進化或者數目距離矩陣的數值 在二維表中當作圖。

      與PCA闡發的本家兒要差別在于考量了進化上的信息。

      每一個點代表一個樣本,不異顏色的點來自統一個分組,兩點之間距離越近表白兩者的群落組成差別越小。

    14. 14

      PCA闡發

      本家兒當作分闡發PCA(Principal component analysis)是一種研究數據相似性或差別性的可視化方式,經由過程一系列的特征值和特征標的目的量進行排序后,選擇本家兒要的前幾位特征值,采納降維的思惟,PCA 可以找到距離矩陣中最本家兒要的坐標,成果是數據矩陣的一個扭轉,它沒有改變樣品點之間的彼此位置關系,只是改變了坐標系統。具體關于本家兒當作分闡發的詮釋保舉大師看一篇文章,http://blog.csdn.net/aywhehe/article/details/5736659 。經由過程PCA 可以不雅察個別或群體間的差別。

      每一個點代表一個樣本,不異顏色的點來自統一個分組,兩點之間距離越近表白兩者的群落組成差別越小。

      以上三個圖可能碰到的問題:

      1:PCA,PcoA,NMDS闡發別離是基于什么數據畫的?

      回覆:PCA,PcoA,NMDS闡發均是基于OTU分類taxon數據所畫,用的是R說話Vegan包中的相關函數畫當作,此中PcoA與NMDS還要基于樣本之間的距離矩陣才能畫當作。

      2:PCA闡發若是圖中大部門點集中在一路,少數點在很遠的外圍,是什么原因造當作的?

      回覆:是因為樣本OTU分類時辰,少數樣本某些菌含量出格高所造當作,導致這些樣本偏離正常規模,建議零丁拿出這些樣本不雅察,看是否是嘗試錯誤。

      3:PCA闡發時,不是有PC1,PC2,PC3三個坐標嗎?是給出三張圖嗎?仍是三維立體圖?

      回覆:PCA作圖時,會得出PC1,PC2,PC3三個坐標,可以按照PC12,PC13,PC23別離作圖,一般給出的是PC12的圖,當PC12圖質量欠好,看不出較著的樣天職類結果時,可以看PC13或PC23的圖分類是否清楚,也可以用R說話rgl包做出PC123三維圖。

      QIIME自己成果中有供給PCA的三維圖成果,可以經由過程網頁打開。

    15. 15

      PCA,PcoA,NMDS闡發都屬于排序闡發(Ordination analysis)。排序(ordination)的過程就是在一個可視化的低維空間或平面從頭擺列這些樣本,使得樣本之間的距離最大水平地反映出平面散點圖內樣本之間的關系信息。

      1、只利用物種構成數據的排序稱作非限制性排序(unconstrained ordination)(1)本家兒當作分闡發(principal components analysis,PCA)(2)對應闡發(correspondence analysis, CA)(3)去趨向對應闡發(Detrended correspondence analysis, DCA)(3)本家兒坐標闡發(principal coordinate analysis, PCoA)(4)非懷抱多維標準闡發(non-metric multi-dimensional scaling, NMDS)

      2、同時利用物種和情況因子構成數據的排序叫作限制性排序(constrained ordination)(1)冗余闡發(redundancy analysis,RDA)(2)典型對應闡發(canonical correspondence analysis, CCA)

      比力PCA和PCoA:

      在非限制性排序中,16S和宏基因組數據闡發凡是用到的是PCA闡發和PCoA闡發,兩者的區別在于:PCA闡發是基于原始的物種構成矩陣所做的排序闡發,而PCoA闡發則是基于由物種構成計較獲得的距離矩陣得出的。在PCoA闡發中,計較距離矩陣的方式有良多種,包羅如:Euclidean, Bray-Curtis, and Jaccard,以及(un)weighted Unifrac (操縱各樣品序列間的進化信息來計較樣品間距離,此中weighted考慮物種的品貌,unweighted沒有對物種品貌進行加權處置)。

    16. 16

      LDA差別進獻闡發

      PCA和LDA的不同在于,PCA,它所作的只是將整組數據整體映射到最便利暗示這組數據的坐標軸上,映射時沒有操縱任何數據內部的分類信息,是無監視的,而LDA是由監視的,增添了種屬之間的信息關系后,連系顯著性差別尺度測試(克魯斯卡爾-沃利斯查驗和兩兩Wilcoxon測試)和線性判別闡發的方式進行特征選擇。除了可以檢測主要特征,他還可以按照效應值進行功能特征排序,這些功能特征可以詮釋頂部的大部門生物學差別。具體申明可以參考這篇文章http://blog.csdn.net/sunmenggmail/article/details/8071502 。

      分歧顏色代表分歧樣本或組之間的顯著差別物種。利用LefSe軟件闡發獲得,此中顯著差別的logarithmic LDA score設為2。

      問題:LDA闡發有什么用?

      回覆:組間差別顯著物種又可以稱作生物標識表記標幟物(biomarkers),該闡發本家兒如果想找到組間在品貌上有顯著差別的物種。

    17. 17

      物種進化樹的樣本群落分布圖

      是將分歧樣本的群落組成及分布以物種分類樹的形式在一個環圖中展示。數據顛末闡發后,將物種分類樹和分類品貌信息經由過程軟件GraPhlAn(http://huttenhower.sph.harvard.edu/GraPhlAn )進行繪制。其目標是將物種之間的進化關系以及分歧樣本的物種分布品貌和最高分布樣本的信息在一個視覺集中的環圖中一次展示,其供給的信息量較其他圖最為豐碩。

      中心為物種進化分類樹,分歧顏色的分支代表分歧的綱(具體的代表顏色見右上角的圖例),之后外圈的灰色標示字母的環暗示的是本次研究中比例最高的15個科(字母代表的科拜見左上角的圖例)。之后的外圈供給的是熱力求,若是樣本數<=10個則繪制樣本,若是樣本數跨越10個則按照分組繪制,每一環為一個樣本,按照其品貌繪制的熱力求。最外圈為柱狀圖,繪制的是該屬所占比例最高的樣本的品貌和樣本顏色(樣本顏色見環最下方的樣本名字的顏色)。此中熱力求和柱狀圖取值均為原比例值x10000后進行log2轉換后的值

      參考文獻:

      1. Vazquez-Baeza Y, Pirrung M, Gonzalez A, Knight R. 2013. Emperor: A tool for visualizing high-throughput microbial community data. Gigascience 2(1):16.

      2. Legendre, P. and Legendre, L. 1998. Numerical Ecology. Second English Edition. Developments in Environmental Modelling 20. Elsevier, Amsterdam.

      3. Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation[J]. Genome Biol, 2011, 12(6): R60.

      4. Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, Reyes JA et al. (2013). Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nat Biotechnol 31: 814–821.

    18. 18

      物種相關性闡發

      按照各個物種在各個樣品中的品貌以及轉變環境,計較物種之間的相關性,包羅正相關和負相關。

      相關性闡發利用 CCREPE 算法,起首對原始 16s 測序數據的種屬數目進行尺度化,然后進行 Spearman 和 Pearson 秩相關闡發并進行統計查驗,計較出各個物種之間的相關性,之后在所有物種中按照 simscore 絕對值的巨細,遴選出相關性最高的前 100 組數據,基于 Cytoscap 繪制共表達闡發收集圖,收集圖采用兩種分歧的形式表示出來。

      物種相關性收集圖A:圖中每一個點代表一個物種,存在相關性的物種用連線毗連,此中,紅色的連線代表負相關,綠色的先代表正相關,連線顏色的深淺代表相關性的凹凸。

      物種相關性收集圖B:圖中每一個點代表一個物種,點的巨細暗示與其他物種的聯系關系關系的幾多,此中與之有相關性的物種數越多,點的半徑和字體越大,連線的粗細代表兩物種之間相關性的巨細,連線越粗,相關性越高。

      參考文獻:

      Schwager E, Weingart G, Bielski C, et al. CCREPE: Compositionality Corrected by Permutation and Renormalization[J]. 2014.

    19. 19

      聚類闡發

      按照OUT數據進行尺度化處置(1wlog10)之后,拔取數量最多的前60個物種,基于R heatmap進行作圖,熱圖中的每一個色塊代表一個樣品的一個屬的品貌,樣品橫標的目的擺列,屬縱標的目的擺列,兩個熱圖,差別是是否對樣品進行聚類,從聚類中可以領會樣品之間的相似性以及屬程度上的群落組成相似性。

      若是聚類成果中呈現大面積的白或黑是因為大量的菌含量很是低,導致都沒稀有值,可以在繪制之進步行尺度化操作,對每一類菌零丁自身進行Z尺度化。

    20. 20

      組間菌群比力拔取物種標記物

      RDA闡發

      CCA/RDA闡發基于對應闡發成長的一種排序方式,將對應闡發與多元回歸闡發相連系,每一步計較均與情況因子進行回歸,又稱多元直接梯度闡發。本家兒要用來反映菌群與情況因子之間的關系。

      RDA 是基于線性模子,CCA是基于單峰模子。闡發可以檢測情況因子、樣品、菌群三者之間的關系或者兩兩之間的關系。

      冗余闡發可以基于所有樣品的OTU作圖,也可以基于樣品中優勢物種作圖;

      箭頭射線:箭頭別離代表分歧的情況因子;

      夾角:情況因子之間的夾角為銳角時暗示兩個情況因子之間呈正相關關系,鈍角時呈負相關關系。

      情況因子的射線越長,申明該影響因子的影響水平越大; 分歧顏色的點暗示分歧組此外樣品或者統一組別分歧期間的樣品,圖中的拉丁文代表物種名稱,可以將存眷的優勢物種也納入圖中; 情況因子數目要少于樣本數目,同時在闡發時,需要供給情況因子的數據,好比 pH值,測心猿意馬的溫度值等。

    21. 21

      組間菌群比力拔取物種標記物

      (屬程度)組間物種差別性箱形圖:

      組間物種差別性盒形圖描述在分歧分組之間具有差別顯著的某一物種做盒形圖,圖中以屬程度為例做物種差別性盒形圖。

      圖中分歧顏色代表分歧的分組,更直不雅顯示組間物種差別。每一個盒形圖代表一個物種,圖上方是物種名。

    22. 22

      組間菌群比力拔取物種標記物

      Anosim查驗

      Anosim闡發是一種非參數查驗,用來查驗組間的差別是否顯著大于組內差別,從而判定分組是否有意義。(做組間差別比力闡發,分組內部至少要3個樣本;若樣本數不敷或組間差別不較著則不生當作該圖)

      R-value介于(-1,1)之間,R-value大于0,申明組間差別顯著。R-value小于0,申明組內差別大于組間差別,統計闡發的可托度用 P-value 暗示,P< 0.05 暗示統計具有顯著性。對Anosim的闡發成果,基于兩兩樣本之間的距離值排序獲得的秩(組間的為between,組內的為within),這樣任一兩兩組的比力可以獲得三個分類的數據,并進行箱線圖的展示(若兩個箱的凹槽互不重疊,則表白它們的中位數有顯著差別)

    23. 23

      組間菌群比力拔取物種標記物

      隨機叢林分類樹屬分類結果

      隨機叢林是機械進修算法的一種,它可以被看作是一個包含多個決議計劃樹的分類器。其輸出的分類成果是由每棵決議計劃樹“投票”的成果。因為每棵樹在構建過程中都采用了隨機變量和隨機抽樣的方式,是以隨機叢林的分類成果具有較高的精確度,而且不需要“減枝”來削減過擬合現象。隨機叢林可以有用的對分組樣品進行分類和展望。

      物種主要性點圖。橫坐標為主要性程度,縱坐標為按照主要性排序后的物種名稱。上圖反映了分類器中對分類結果起本家兒要感化的菌屬,按感化從大到小擺列。

      Error rate: 暗示利用下方的特征進行隨機叢林方式展望分類的錯誤率,越高暗示基于菌屬特征分類精確度不高,可能分組之間菌屬特征不較著。 圖中以所有程度為例,取前60個作圖。

    24. 24

      組間菌群比力拔取物種標記物

      ROC曲線圖

      ROC 曲線指受試者工作特征曲線(receiver operating characteristic curve), 是反映敏感性和特異性持續變量的綜合指標,經由過程構圖法揭示敏感性和特異性的彼此關系。ROC 曲線將持續變量設心猿意馬出多個分歧的臨界值,從而計較出一系列敏感性和特異性,再以敏感性為縱坐標、(1-特異性)為橫坐標繪制當作曲線,曲線下面積越大,診斷精確性越高。

    25. 25

      組間菌群比力拔取物種標記物

      (屬程度)樣本-物種品貌聯系關系circos弦裝圖

      樣本與物種的共線性關系 circus 圖是一種描述樣本與物種之間對應關系的可視化圈圖,該圖不僅反映了每個樣本的優勢物種構成比例,同時也反映了各優勢物種在分歧樣本之間的分布比例。

      樣本與物種的共線性關系圖,左半邊暗示樣本屬物種品貌環境。右半邊暗示屬程度在分歧樣本中的分布比例環境。在最內一圈:左邊分歧顏色代表分歧物種,寬度暗示物種品貌,圈外數值暗示物種品貌刻度值。一端毗連右邊的樣本,分歧顏色代表分歧樣本,條帶端點寬度暗示該樣本中對應物種的比例分布。最外兩圈:左邊分歧顏色暗示分歧樣本在某一物種的比例,右邊分歧顏色暗示分歧物種在某一樣本中的比例。

    26. 26

      組間菌群比力拔取物種標記物

      Ternary三元相圖

      三元相圖是重心圖的一種,它有三個變量,在一個等邊三角形坐標系中,圖中某一點的位置代表三個變量間的比例關系。這里暗示三組樣本之間優勢物種的差別,經由過程三元圖可以展示出分歧物種在分組中的比重關系。

      三角別離代表三個或三組樣本,圖中的圓別離代表排名最高哦的屬程度的物種,三種顏色別離代表三組分歧分組的優勢物種,圓圈巨細代表物種的相對品貌,圓圈理哪個極點接近,暗示此物種在這個分組中的含量較高。該闡發僅限三個樣本或三組樣本之間闡發比力。

    27. 27

      組間菌群比力拔取物種標記物

      相關系數圖

      經由過程 R 軟件的 corrplot 包繪制spearman 相關性熱圖,并經由過程該熱圖可以發現優勢物種/樣本之間主要的模式與關系。

      藍色系的為正相關,紅色系的為負相關,×暗示查驗程度下無意義。越接近顏色條兩端,相關系數越大。所以說,我們可以經由過程實心圓的顏色和巨細判定相關的偏向和相關系數的巨細。

    28. 28

      組間菌群比力拔取物種標記物

      GraPhlan 圖

      物種進化樹的樣本群落分布圖 GraPhlan 圖是將分歧樣本的群落布局及分布以物種分類樹的形式在一個環圖中展示。

      利用 GraPhlan 連系 OTU Table對一個分組所有樣本的 OTU 物種注釋成果進行總體展示,便于看出優勢菌種。

      其目標是將物種之間的進化關系以及分歧樣本的物種分布品貌和最高分布樣本的信息在一個視覺集中在換圖中展示,供給的信息量較其他圖更豐碩。

      圖中中心為物種進化分類樹,分歧顏色的分支代表分歧的綱(具體的代表顏色見右上角的圖例),之后外圈的灰色標示字母的環暗示的是本次研究中比例最高的 15 個科(字母代表的科拜見左上角的圖例)。之后的外圈供給的是熱力求,若是樣本數 <=10 個則繪制樣本,若是樣本數跨越 10 個則按照分組繪制,每一環為一個樣本,按照其品貌繪制的熱力求。最外圈為柱狀圖,繪制的是該屬所占比例最高的樣本的品貌和樣本顏色(樣本顏色見環最下方的樣本名字的顏色)。此中熱力求和柱狀圖取值均為原比例值 x10000后進行 log2 轉換后的值。

    29. 29

      菌群代謝功能展望

      經由過程 16S/ITS 多樣性測序可以精確知道群落的物種布局,但越來越多的研究表白,微生物的群落功能構成比物種構成與情況關系更為緊密親密。基于 16S/ITS 的測序成果進行功能展望的方式有 PICRUSt、Tax4Fun、FAPROTAX及BugBase


      FAPROTAX生態功能展望

      FAPROTAX是一條目在2016年頒發在SCIENCE上的較新的基于16S測序的功能展望軟件。它整合了多個已頒發的可培育菌文章的原核功能數據庫,數據庫包含跨越4600個物種的7600多個功能注釋信息,這些信息共分為nitraterespiration,methanogenesis, fermentation 和plant pathogenesis等80多個功能分組。

      FAPROTAX是基于今朝對可培育菌的文獻資料手動清算的原核功能注釋數據庫,其包含了收集自4600多個原核微生物的80多個功能分組(如硝酸鹽呼吸、產甲烷、發酵、植物病原等)的7600多條功能注釋信息。

      若是PICRUSt在腸道微生物研究更為適合,那么FAPROTAX尤其合用于生態情況研究,出格是地球化學物質輪回闡發。FAPROTAX合用于對情況樣本(如海洋、湖泊等)的生物地球化學輪回過程(出格是碳、氫、氮、磷、硫等元素輪回)進行功能注釋展望。因其基于已頒發驗證的可培育菌文獻,其展望精確度可能較好,但比擬于上述PICRUSt和Tax4Fun來說展望的籠蓋度可能會降低。

      參考文獻: Louca, S., Parfrey, L. W. & Doebeli, M. Decoupling function and taxonomy in the global ocean microbiome. Science 353, 1272–1277(2016).

      FAPROTAX可按照16S序列的分類注釋成果對微生物群落功能(出格是生物地化輪回相關)進行注釋展望。圖中橫坐標代表樣本,縱坐標暗示包羅碳、氫、氮、硫等元素輪回相關及其他諸多功能分組。 可快速用于評估樣品來歷或特征。

    30. 30

      基于BugBase的表型分類比力

      Bugbase也是16年所供給辦事的一條目免費在線16S功能展望東西,到本年才頒發文章發布其軟件道理。該東西本家兒要進行表型展望,此中表型類型包羅革蘭氏陽性、革蘭氏陰性、生物膜形當作、致病性、移動元件、氧需求,包羅厭氧菌、好氧菌、兼性菌)及氧化勒迫耐受等7類

      參考文獻:Thomas A M, Jesus E C, Lopes A, et al. Tissue-associated bacterial alterations in rectal carcinoma patients revealed by 16S rRNA community profiling[J]. Frontiers in Cellular and Infection Microbiology, 2016, 6.

    31. 31

      Picrust群落功能差別闡發

      經由過程對已有測序微生物基因組的基因功能的組成進行闡發后,我們可以經由過程16s測序獲得的物種組成猜測樣本中的功能基因的組成,從而闡發分歧樣本和分組之間在功能上的差別(PICRUSt Nature Biotechnology, 1-10. 8 2013)。

      經由過程對宏基因組測序數據功能闡發和對應16s展望功能闡發成果的比力發現,此方式的精確性在84%-95%,對腸道微生物菌群和泥土菌群的功能闡發接近95%,能很是好的反映樣品中的功能基因組成。

      為了可以或許經由過程16s測序數據來精確的展望出功能組成,起首需要對原始16s測序數據的種屬數目進行尺度化,因為分歧的種屬菌包含的16s拷貝數不不異。然后將16s的種屬組成信息經由過程構建好的已測序基因組的種屬功能基因組成表映射獲得展望的功能成果。(按照屬這個程度,對分歧樣本間的物種品貌進行顯著性差別兩兩查驗,我們這里的查驗方式利用STAMP中的two-sample中T-TEST方式,Pvalue值過濾為0.05,作Extent error bar圖。)

      此處供給COG,KO基因展望以及KEGG代謝路子展望。用戶也可自行利用我們供給的文件和軟件(STAMP)對分歧層級以及分歧分組之間進行統計闡發和制圖,以及選擇分歧的統計方式和顯著性程度。

      參考文獻:

      Donovan H. Parks1 , Gene W. Tyson,STAMP: statistical analysis of taxonomic and functional profiles, Bioinformatics (2014) 30(21): 3123-3124.doi:10.1093

    32. 32

      COG組成差別闡發圖

      圖中分歧顏色代表分歧的分組,列出了COG組成在組間存在顯著差別的功能分類以及在各組的比例,此外右側還給出了差別的比例和置信區間以及P-value。

    33. 33

      KEGG代謝路子差別闡發圖

      經由過程KEGG代謝路子的展望差別闡發,我們可以領會到分歧分組的樣品之間在微生物群落的功能基因在代謝路子上的差別,以及轉變的凹凸。為我們領會群落樣本的情況順應轉變的代謝過程供給一種簡潔快捷的方式。

      圖解讀:圖中分歧顏色代表分歧的分組,列出了在第三層級的組成在組間存在顯著差別的KEGG代謝路子第三層分類以及在各組的比例,此外右側還給出了差別的比例和置信區間以及P-value。

      本例圖所顯示的是第三層級的KEGG代謝路子的差別闡發,也可以針對第二或第一層的分級進行闡發。

    34. 34

      基因的差別闡發圖

      除了能對大的基因功能分類和代謝路子進行展望外,我們還能供給邃密的功能基因的數目和組成的展望,以及進行樣本間以及組間的差別闡發,并給出具有統計意義和置信區間的闡發成果。

      這一闡發將我們對于樣本群落的差別進一步深切到了每一類基因的層面。

       圖解讀:圖中分歧顏色代表分歧的分組,列出了在組間/樣本間存在顯著差別的每一個功能基因(酶)以及在各組的比例,此外右側還給出了差別的比例和置信區間以及P-value。

    35. 35

      在獲得尺度陳述后若是但愿零丁點竄分組或對某些組之間進行顯著性差別闡發,可以利用STAMP軟件在本身的電腦長進行數據闡發。STAMP供給了豐碩的統計查驗方式和圖形化成果的輸出。

      在利用STAMP之前需要起首籌辦需要的spf格局文件和樣品分組信息表。在我們的陳述中已經將KEGG和KO以及COG的成果文件后顛末轉換生當作了合用于STAMP軟件打開的spf格局文件,還有對應的分組信息表文件groupfile.txt。

      以下是利用STAMP時的一些相關問題,具體的STAMP利用教程可以參考我們供給的STAMP利用教程。

      1、  stamp作圖用的原始數據的來歷?

      STAMP 可以直接利用來自QIIME的biom文件和PICUST的KEGG和ko 文件,groupfile.txt文件的格局為tab-saperated value (tab鍵離隔的數據)

       

      2、  分組問題:導入數據之后,viewàgroup legend ,在窗口右側會呈現分組欄,按照需要進行分組。

       

      3、  Unclassiffied選項中,remain Unclassiffied reads、remove Unclassiffied reads、和use only for calculating frequency profiles 方式的區別?

      remain Unclassiffied reads和use only for calculating frequency profiles方式會保留所有的數據,而remove Unclassiffied reads僅僅保留有確定分組信息的數據。

       

      4、  Statistical test 中,Welch’s t-test、t-test、white’s non-parametric t-test的區別,各自優錯誤謬誤?

      為了確保統計學意義和精確度和切確性,需要足夠多的樣本數量,t-test查驗可以在起碼樣本數為4的時辰確保高的精確度和切確性。

      當兩個樣本之間具有不異方差的時辰,用t-test更為精確,當兩個樣本沒有不異方差,Welch’s t-test更為精確。

      當樣本數量少于8的時辰,可以利用white’s non-parametric t-test,該計較時候較長,當樣本數量過多的時辰不宜利用該方式。

      5、  Two-group 中type: one side 和 two side 的區別?

      One side 只會顯示前一個group與后一個group差別的比例,而two side 兩者之間的比例均會顯示。

      6、 STAMP在利用時起首打開了一個闡發文件,若是新打開一個可能會導致顯示錯誤?

      今朝版本的STAMP存在一些小問題,一次闡發只能利用一個數據文件,若是要打開新的需要封閉軟件后再打開。

    36. 36

      有其他問題可以聯系谷禾信息。

    • 發表于 2019-11-06 06:00
    • 閱讀 ( 1010 )
    • 分類:其他類型

    0 條評論

    請先 登錄 后評論
    聯系我們:uytrv@hotmail.com 問答工具
  • <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>
    久久久久精品国产麻豆