除了引用最多的qiime流程,u/vsearch(usearch是一人一已之力單挑學術界)和mothur(用的人越來越少的感覺),最近又發現了一兩個流程,一併分享給大家。
一個引用量剛剛突破一百的流程,難得的是還在繼續更新中,同樣的先進的去噪代替聚類,哪天也測試下效果。最初知道這個流程是hybyrid-denovo流程提到了它也可以使用未成功拼接的序列進行分析。以下內容基本翻譯自其官網:
同時是目前可用的最快的流程。這樣,任何研究人員都可以輕鬆地在筆記本電腦上分析hiSeq擴增子數據。
LotuS面向需要簡單流程的科學家和生物信息學家,該流程可以簡化爲以非常快的速度創建OTU和分類單元丰度表的核心功能(例如,在筆記本電腦上處理8GB 16S miSeq運行大約需要30分鐘)。LotuS不包括樣本的數值分析,而是我們設計了LotuS輸出,可以輕鬆地將它們集成到現有的工作流程中,例如使用R,QIIME / mothur或Matlab等統計編程語言。
sdm是LotuS的一部分,但可以單獨用於多路分解或僅用於質量過濾器序列(例如,也用於裝配體等)。包括幾個質量過濾測試,並且可以基於累積的錯誤率或低於閾值的質量窗口來截斷序列。它用C ++實現並針對速度進行了優化。
如果您想了解有關該算法的更多詳細信息,請參見**LotuS出版物**。
另請參閱包括ITS數據的比較論文。
2020年1月24日
LotuS 1.62.1 / sdm 1.50:更新了autoInstall.pl以集成SLV 138版本。我們的測試表明,該數據庫在OTU分配中更經常達到物種水平。
怎麼樣,有沒有興趣試試這個流程呀?
最初知道這個流程是在ubiome的那篇論文裏,可惜ubiome公司卻倒閉了,一個還是比較有技術實力的公司,最後殘值少的可憐。我也發現國內多家做消費級腸道微生物檢測的公司也是一直不溫不火,16S測序檢測的幾家公司的產品已經在各大電商平臺紛紛下架,不清楚是產品的賣點不足,還是大衆的接受度不高呢?
也是一個最近還在更新的算法,以下內容基本來自swarm的gihub-readme:
一種強大,快速的聚類方法,用於基於擴增子的研究
羣的目的是提供一種新穎的聚類算法,用於處理大量擴增子。傳統聚類算法的結果在很大程度上取決於輸入順序,並且依賴於任意全局聚類閾值。羣體結果對輸入順序的變化具有彈性,並依靠小的局部鏈接閾值d,代表兩個擴增子之間最大差異數。羣形成穩定的高分辨率簇,並具有很高的生物學信息產量。
爲了幫助用戶,我們描述了一個完整的管道, 該管道 從原始fastq文件開始,與swarm集羣並生成過濾後的OTU表。
swarm 3.0引入了:
請注意:
swarm 2.0引入了與swarm 1.0相比的一些新穎性和改進:
-w
),swarm是一種單鏈接聚類方法,與其他聚類方法有一些表面上的相似性(例如,Huse等人,2010年)。swarm的新穎之處在於其迭代增長過程以及使用序列丰度值來描述OTU。羣體正確地描繪了大的OTU(高召回率),並且可以區分中心之間只有兩個差異的OTU(高精度)。
swarm使用局部聚類閾值(d),而不像其他算法那樣使用全局聚類閾值。用戶可能會嘗試將97%的全局相似性閾值轉換爲許多差異,並使用較大的d值。這不是對羣的正確使用。羣產生的OTU自然大於d,測試表明,使用默認d值(d = 1)在大多數數據集上均能獲得良好的結果。使用新的嚴格選件可以進一步提高結果的質量。對於長擴增子或淺測序,可以使用更高的d值(d = 2或d = 3,很少使用更多)。
羣可產生高分辨率結果,尤其是在使用d = 1 時。但是,在某些罕見條件下,給定標記可能發展得不夠快,無法區分分子分類羣。如果涉及大量序列,則羣可能會形成一個半徑較大的OTU,而經典的聚類方法將隨機穿過,從而在閾值97%下降的地方進行描繪。因此,請記住,分子標記也有侷限性。
寫在最後的小感想:
打個不恰當的比方,16S只是一個粗略的「人口普查」,那麼這個人是「好人」還是「壞人」,到底怎樣就不得而知了,這就需要其他組學了。不得不說隨着測序成本的降低,百元宏基因組時代的到來,一個樣本幾十塊的16S正逐漸走向被淘汰的邊緣,至少測個全長吧。可是pacbio不爭氣(成本降不下來),nanopore除了走pacbio那種一個序列測多次還是不能達到足夠準確,當然更高準確度的R10版本芯片已經開始使用,期待有好消息傳來。