終於有時間整理以前的事情了。
在說作圖方法之前,我們要明白轉錄組PCA圖的意義是什麽?
以便檢測樣本之間的離散程度,即重復之間的差異。
1.在畫圖之前,先回答壹下樣品復制的問題。
轉錄組測序通常需要三次重復。但是對於完全沒有接觸過測序的人來說,他們很疑惑:為什麽轉錄組測序壹定要生物重復?我不想要,好嗎為什麽大多數人需要三次重復?重復4,5,666可以嗎?什麽是重復?三只老鼠算三次重復,還是1只老鼠算三次重復?壹堆問題很糾結,真讓人頭大~ ~ ~
第壹個問題:生物壹定要復讀嗎?
回答:最好。
什麽情況下可以沒有生物復制?
1)科研經費太少,沒錢測序。(這種情況,幹脆不測了。測1是雞肋。)
2)實驗證據絕對充分,然後想裝修門面看起來花裏胡哨。(如果實驗這麽好,那就多測幾個~或者根本不測。不然妳本來可以發nature,結果只能發plosone,沒必要。)
第二個問題:我們必須重復三次嗎?我可以考兩個還是四個?
回答:重復次數必須≥3次。
1)先設置重復的目的是什麽?目的是:消除組內誤差;提高結果的可靠性;檢測異常值。
1.1)如果給小鼠服用壹種藥物,不同的小鼠對該藥物肯定會有不同的反應,那麽多個樣本可以消除小鼠之間的差異。
1.2)假設妳給三只老鼠用藥,但其中壹只天生免疫力很強,藥物對其影響不大。另外兩個也差不多,後面分析的時候要把免疫力強的那個刪掉,因為它的數據會對分析結果造成很大的偏差。
1.3)但是,如果妳只有兩只老鼠,其中壹只天生免疫力強,藥物對其影響不大。當我拿到測序數據後,發現兩者差別很大。妳選擇哪壹個?有人說我肯定會選免疫力正常的那個。哦,這個問題真是。。。測序後才能知道免疫力強不強。妳不知道老鼠是否健康,直到妳給它們吃藥。所以不應該選兩個。
2)理論上重復次數越多越好,但考慮到實際情況,設置三次重復是比較通用的方法。
具體原因見以下文獻:RNA-seq差異表達研究:更多序列還是更多復制?
3)動物或植物之間的樣本差異還是比較大的,可以多測量,比如可以做5-10次重復。如果妳是土豪,妳可以測任何妳認為幸運的數字,比如66,88,996甚至2333。(開玩笑)
第三個問題:三只小鼠分別測序是重復,還是1只小鼠測三次重復?
回答:三只老鼠各測試壹次。
理解生物復制和技術復制。(百度自帶)
2、畫出PCA圖
加載繪圖包
設置運行路徑,導入之前計算的FPKM數據。
計算每個主成分分析的指數。
用ggscatter繪制PC
或者妳可以試著畫壹個3D散點圖。
3d畫圖不好的地方就是散點圖3D裏沒有參數讓妳顯示每個點的名稱,所以很壓抑。
如果妳想實現,試試下面的方法。我也是谷歌的。