一般我們拿到 10x 空間轉(zhuǎn)錄組數(shù)據(jù)分析的結(jié)果先看的肯定是 web_summary 網(wǎng)頁報(bào)告,因?yàn)閺倪@個(gè)結(jié)果里面我們大概就能判斷你的數(shù)據(jù)好不好,不好的問題在哪里,數(shù)據(jù)到底能不能用等等。這里來詳細(xì)介紹一下怎么看 10x 空間轉(zhuǎn)錄組 web_summary 網(wǎng)頁版報(bào)告。
10x 空間轉(zhuǎn)錄組網(wǎng)頁版報(bào)告模板如下:
下面來詳細(xì)介紹一下每塊區(qū)域每個(gè)指標(biāo)的含義。
Reads 總體情況統(tǒng)計(jì)區(qū):
Number of Reads:樣本總的測序 reads 數(shù),雙端測序這個(gè)是指一端的 reads 數(shù),實(shí)際上算數(shù)據(jù)量需要用 reads*2* 讀長。
Valid Barcodes:barcode 校準(zhǔn)后有效的 barcode 數(shù)占總的 reads 的比例,Space Ranger 會先嘗試糾正 barcode 序列中的序列錯(cuò)誤,然后再進(jìn)行統(tǒng)計(jì)。
Valid UMIs:有效的 UMI 數(shù)占總的 reads 的比例。
Sequencing Saturation: 測序飽和度值,就是在當(dāng)前測序深度情況下,有多少比例的捕獲到的 mRNA 被測出來了,比如這這里的測序飽和度是 74%,說有 74% 的 mRNA 基因被檢測出來了,如果加大測序深度會有更多的 mRNA 被檢測出來。
Q30 Bases in Barcode:barcode 序列的 Q30 值
Q30 Bases in RNA Read:捕獲的 mRNA 序列的 Q30 值
Q30 Bases in UMI:UMI 序列的 Q30 值
Mapping 結(jié)果統(tǒng)計(jì)區(qū):
Reads Mapped to Genome:比對到基因組上 reads 的比例
Reads Mapped Confidently to Genome:先進(jìn)比對到基因組上 reads 的比例,也就是我們常說的 mapped uniquely reads,不過這里如果某條 reds 先進(jìn)比對到一個(gè)基因的 exon 區(qū),同時(shí)又比對到了一處非 exon 區(qū),還是算先進(jìn)比對到 exon 區(qū)的 reads。
Reads Mapped Confidently to Intergenic Regions:比對到先進(jìn)基因間區(qū)的 reads 的比例
Reads Mapped Confidently to Intronic Regions:比對到先進(jìn)內(nèi)含子區(qū)的 reads 的比例
Reads Mapped Confidently to Exonic Regions:比對到先進(jìn)外顯子區(qū)的 reads 的比例
Reads Mapped Confidently toTranscriptome: 比對到先進(jìn)基因轉(zhuǎn)錄組上 reads 的比例,這一部分會包括剪切位點(diǎn)的 reads。這一部分的 reads 就是用來對 UMI 進(jìn)行計(jì)數(shù)統(tǒng)計(jì)的。細(xì)心的朋友可能會發(fā)現(xiàn)這一部分的 reads 比例比 Reads Mapped Confidently to Exonic Regions 的值要低,這是因?yàn)橛行┗虻?exon 是有 overlap 的,處于 overlap 區(qū)域的 reads 是不進(jìn)入 UMI 計(jì)數(shù)的。
Reads Mapped Antisense to Gene:比對到基因轉(zhuǎn)錄組的反義鏈區(qū)域的 reads 比例,這部分 reads 是沒有意義的。從這里我們也可以發(fā)現(xiàn) 10x 空間轉(zhuǎn)錄組建庫和比對有方向性的。
Spot 信息統(tǒng)計(jì)區(qū):
Fraction Reads in Spots Under Tissue:比對到先進(jìn)基因轉(zhuǎn)錄組上 reads(Reads Mapped Confidently to Transcriptome)有多少比例覆蓋在組織區(qū)域的 spot 上,這里是 93%,那就說明只有 7% 的 reads 分布在組織之外的灰色區(qū)域的。10x 軟件在這里有一個(gè)默認(rèn)的閾值為 50%,認(rèn)為這個(gè)比例值超過 50% 結(jié)果是正常的,低于 50% 則回到網(wǎng)頁 zuì 上面區(qū)域提示報(bào)錯(cuò)信息(認(rèn)為可能是透化不完全導(dǎo)致背景 RNA 過高或者是組織區(qū)域選的不合適)。從這個(gè) 50% 的閾值上我們也可以判斷 10x 的這個(gè)空間轉(zhuǎn)錄組技術(shù)還是存在一定缺陷的,它允許接近 50% 的 reads 散落在組織以外的區(qū)域,說明組織透化這一步想讓對應(yīng)區(qū)域的 mRNA 完全都落入對應(yīng) spot 點(diǎn)里面去還是很難的。
Mean Reads per Spot:每個(gè) spot 的平均 reads 數(shù),10x 這里采用的是所以測序 reads 總是除以組織上檢測到的 spot 數(shù)(跟單細(xì)胞的統(tǒng)計(jì)方法是一樣的),理論上來說這樣統(tǒng)計(jì)是不合理的,因?yàn)榭偟?reads 包括沒有比對上的 reads、沒有 mapping 到轉(zhuǎn)錄本上的 reads、組織區(qū)域以外的 spot 上的 reads,所以是不能真實(shí)的反應(yīng)每個(gè) spot 上實(shí)際的 reads 數(shù)的。
Median Genes per Spot:每個(gè) spot 的基因中位數(shù)
Total Genes Detected:檢測到的基因總數(shù)
Median UMI Counts per Spot:每個(gè) spot 的中位 UMI 數(shù)
樣本信息區(qū):
Sample ID:樣本 id
Chemistry:試劑版本
Slide Serial Number:Slide 信號和區(qū)域
Reference Path:參考基因組路徑
Transcriptome:基因組轉(zhuǎn)錄組版本
Pipeline Version:spaceranger 軟件版本
Analysis 區(qū)域
UMI 分布展示:左邊是圖像上 UMI 的分布,右邊是 tsne 降維可視化后的 UMI 的分布,鼠標(biāo)放置到圖像上會現(xiàn)在對應(yīng)的位置信息和對應(yīng) spot 上的 UMI count 數(shù)。從這個(gè)圖我們可以判斷 UMI 主要分布在組織的哪些區(qū)域,哪些區(qū)域沒有捕獲到 mRNA 或捕獲的 mRNA 特別少。
Cluster 的分布展示:左邊是 cluster 在組織圖像上的分布,右邊是 tsne 降維可視化后的 cluster 的分布,鼠標(biāo)放置到圖像上會現(xiàn)在對應(yīng)的位置信息和對應(yīng) spot 上的 cluster 值和該 cluster 占總的 spot 的比例。這個(gè)圖片上 cluster 分群在組織上的層次關(guān)系特別明顯。
這一部分主要展示亞群的 top 基因的信息,因?yàn)椴还苁菃渭?xì)胞還是空間轉(zhuǎn)錄組基本上后面都會自己另外重新分析的,所以這部分和上面的 cluster 分布信息意義不大。
Sequencing Saturation(測序飽和度)
對 reads 進(jìn)行隨機(jī)抽樣,觀察不同 spot 平均 reads 的情況下測序飽和度的分析,一直到實(shí)際的測序深度測序飽和度的值,理論上當(dāng)所有轉(zhuǎn)化的 mRNA 轉(zhuǎn)錄本均已測序后,飽和度接近 1.0(100%),虛線表示測序到合理的飽和點(diǎn)位置,也就是說就是測序深度再高也不可能飽和度達(dá)到 100%。
Median Genes per Spot(sopt 點(diǎn)的中位基因)
也是對 reads 進(jìn)行隨機(jī)抽樣,觀察不同 spot 平均 reads 的情況下 spot 的中位基因的值,曲線高點(diǎn)的斜率能反應(yīng)增加測序深度能得到大的 spot 的中位基因數(shù)。
總結(jié)
對于 web_summary 的結(jié)果我們大概重點(diǎn)可以從下面幾個(gè)方面來看數(shù)據(jù)效果:
1、總的 spot 數(shù),這個(gè)其實(shí)由組織的大小而定,沒有具體好壞的說法;
2、每個(gè) spot 的中位基因數(shù),中位基因數(shù)太少說明捕獲效果不好,有可能透化步驟條件不夠優(yōu)化,當(dāng)然也有可能是試劑或芯片的問題;
3、測序飽和度,每個(gè)點(diǎn)的 UMI 中位數(shù),sopt 平均 reads 數(shù),飽和度、sopt 平均 reads 數(shù)和中位 UMI 數(shù)都太低說明測序深度不夠,需要加大測序量。
4、基因組的比對率,比對率太低有可能是樣品污染;
5、組織 spot 上 reads 的比例,比對太低有可能透化時(shí)間不夠?qū)е卤尘?RNA 過高,需要優(yōu)化透化條件,也有可能組織區(qū)域選的不好,這個(gè)可以通過 LoupeBrowser 手動選擇組織區(qū)域。
更多伯豪生物人工服務(wù):