2014年1月21日 星期二

JModeltest使用備忘錄

JModeltest使用備忘錄

JModeltest是用來評估我們的資料組(dataset)應該使用哪種Model (運算模型)來進行遺傳分析的工具,除了基本的JC ModelK2P Model到複雜的GTR之外,還加上GammaInvariant 等參數,零零總總的好像有一千六百多種,幸好這個軟體最後會給你AICBIC的排名,讓我們可以選擇最恰當的Model來使用。(不見得都用排第一的模型,因為我們後續使用的分析軟體往往不會有這麼多Model可以選)

步驟一:讀取資料組
JModeltest是吃FASTANEXUS格式的資料組,FASTA沒問題,但現在很多軟體轉換出來的NEXUS都會有一點點的不同,常常造成讀取有問題。因此本人偏好使用FASTA的格式囉~

選擇File --- Load DNA alignment Ctrl+O --- 選擇準備好的資料組

此時會看到讀取資料…OK的訊息出現,並且標示出我們的資料組有多少筆序列(sequences)和特徵(number of sites)



















步驟二:選取分析前選項
讀取好資料組之後,就可以開始分析了(超簡便)

選擇Analysis --- Compute likelihood scores Ctrl+L

















    但這時候稍微困難的來了,首先跳出的窗格包含了許多可以調整的欄位,第一個是Number of processors requested,這個欄位可以從1拉到4,不管選擇哪種,結果不變,主要變的是在計算各個模型分數的時候同時有幾個chain在運算。
        接下來是選擇計算模型分數(機率值)的方法,包含AICAICcBIC(該如何選擇請參考演算原理部分的模型機率值演算法),而Model Filtering則是可以界定低於多少分數的不顯示(或根本沒算)個人建議如果只有用到88(見下一段)乾脆全算,反正沒多少,除非資料組非常大。

        接下來就是Number of substitution schemes,有35711203可以選,分別代表的意義是:
3  :   JC, HKY and GTR.
5  :   JC, HKY, TN, TPM1, and GTR.
7  :   JC, HKY, TN, TPM1, TIM1, TVM and GTR.
11:   JC, HKY, TN, TPM1, TPM2, TPM3, TIM1,     
        TIM2, TIM3, TVM and GTR.
203: GTR中有203種不同分割比例(Partition rate)           的模型全加進來。
個人建議是用11那個選項(88)就好,很夠用了。
        再來就是Base frequencies (+F),這個選項代表在計算模型的分數時是否需要考慮到ATCG等鹼基在序列中的比例,這個比例可以決定計算鹼基對突變的機率應該如何設定,有就是鹼基突變機率相等或不相等。個人覺得勾就對了啦。
        Rate variation包含了+I+G+I代表的是invariable sites (未突變)的比例是否成為計算模型分數的參考依據;而+G則是Gamma distribution,代表突變發生代序列當中的集中程度,這個差異也可能影響到最後的結果(詳細解說請參考演算原理部分的模型機率值演算參數)
        下一部分是Base tree for likelihood calculation,計算模型機率值的時候會從一棵模擬的演化樹開始計算,而這個選項就是要我們選出最初的那棵樹該用甚麼方式來做樹,或是直接給予已知的樹形。但其實最後的結果並沒有太大的差異。個人比較偏好ML optimized,純粹因為我比較愛用Maximum Likelihood
        最後就是Base tree search了,其實跟前面的選項相關,就是該用甚麼方法來算出最好的原始樹(最初的那一棵),包含用NNISPRBest (詳細內容請參考演化樹尋找演算法)

步驟三:開始分析
前面落落長的說了一堆,其實我都按Default Settings就開始跑了。按下Compute Likelihod (應該是Likelihood,他少了一個o)就開始跑囉~

看到四個顏色就是前面選擇四條chain跑的結果,上面顯示0/88表示我還有88model還沒算。



















算完之後會出現Computation of likelihood scores complete.接下來就來算AICBIC






















選擇Analysis --- Do AIC calculations/Do BIC calculations




















這個步驟可以算出AICBIC演算法下的模型分數,快來看看結果...






















此時就看最上面的Model是哪一個,便是機率值(分數)最高的Model,如果接下來會用到的分析軟體沒有這裡推薦的最佳模型,就退而求其次的使用第二、第三...依此類推下去囉。

  

沒有留言:

張貼留言