16S流程知多少？

時間 2021-01-14 標籤生物信息腸道微生物 16

除了引用最多的qiime流程，u/vsearch（usearch是一人一已之力單挑學術界）和mothur（用的人越來越少的感覺），最近又發現了一兩個流程，一併分享給大家。

一、lotus:http://psbweb05.psb.ugent.be/lotus/

一個引用量剛剛突破一百的流程，難得的是還在繼續更新中，同樣的先進的去噪代替聚類，哪天也測試下效果。最初知道這個流程是hybyrid-denovo流程提到了它也可以使用未成功拼接的序列進行分析。以下內容基本翻譯自其官網:

LotuS提供完整的輕量級16S / 18S / ITS流程

多路分解並過濾fasta或fastq序列
去噪，將嵌合序列和簇序列去除爲非常高質量的OTU，其性能與mothur / dada2相似
使用5種以上的特殊通用數據庫或統計算法確定每個OTU的分類起源
以.txt或.biom格式構建OTU，屬，家族，類，順序和門類丰度表
重建OTU系統樹

同時是目前可用的最快的流程。這樣，任何研究人員都可以輕鬆地在筆記本電腦上分析hiSeq擴增子數據。
LotuS面向需要簡單流程的科學家和生物信息學家，該流程可以簡化爲以非常快的速度創建OTU和分類單元丰度表的核心功能（例如，在筆記本電腦上處理8GB 16S miSeq運行大約需要30分鐘）。LotuS不包括樣本的數值分析，而是我們設計了LotuS輸出，可以輕鬆地將它們集成到現有的工作流程中，例如使用R，QIIME / mothur或Matlab等統計編程語言。
sdm是LotuS的一部分，但可以單獨用於多路分解或僅用於質量過濾器序列（例如，也用於裝配體等）。包括幾個質量過濾測試，並且可以基於累積的錯誤率或低於閾值的質量窗口來截斷序列。它用C ++實現並針對速度進行了優化。

LOTUS的優勢

使用安裝腳本輕鬆安裝和更新流程，無需修改系統變量。一個命令執行流程。
快：〜2分鐘（454）；MiSeq配對末端約45分鐘（每個運行一個完整的音序器）。
OTU 的最先進的嵌合體檢查和去噪，同時保留了高質量的全長讀物，用於分類學分類和系統發育重建。
更多：與其他流程相比，您可以從序列中檢索多達19％的讀數。
多功能：可與ITS / SSU / LSU擴增子一起使用，具有3種不同的簇算法，默認情況下有8種不同的方法爲OTU分配分類法-所有方法均在標誌中進行設置。
標準化：與常見的數值生態軟件直接集成。

如果您想了解有關該算法的更多詳細信息，請參見**LotuS出版物**。
另請參閱包括ITS數據的比較論文。

LOTUS自發布以來的發展

highmem模式，適用於小型數據集，速度快100％，適用於大型數據集，速度快1000％
從集羣直接映射到OTU成員資格
減少sdm IO和更可靠的格式轉換
使用概率過濾器進行更嚴格的質量過濾
更多分類分配選項（utax，幾個新數據庫）
對現有子例程，輸出和日誌文件的各種較小改進
集成替代更快的映射器：lambda
兩種可供選擇的OTU聚類補充道：羣爲高清集羣和一個在該領域站在經典：CD-命中
支持LSU和ITS擴增子，並具有針對這些擴增子的特定質量控制（例如ITSx）
PacBio支持
多個數據庫，無論是常規數據庫（RDP，Silva，greengenes）還是更具體的數據庫（對於真菌，爲UNITE；對於單細胞Protists，爲PR2；對於人腸，是HITdb；對於蜂腸，是beeTax），並且支持自定義用戶數據庫。

二、swarm

最初知道這個流程是在ubiome的那篇論文裏，可惜ubiome公司卻倒閉了，一個還是比較有技術實力的公司，最後殘值少的可憐。我也發現國內多家做消費級腸道微生物檢測的公司也是一直不溫不火，16S測序檢測的幾家公司的產品已經在各大電商平臺紛紛下架，不清楚是產品的賣點不足，還是大衆的接受度不高呢？

也是一個最近還在更新的算法，以下內容基本來自swarm的gihub-readme：

一種強大，快速的聚類方法，用於基於擴增子的研究

羣的目的是提供一種新穎的聚類算法，用於處理大量擴增子。傳統聚類算法的結果在很大程度上取決於輸入順序，並且依賴於任意全局聚類閾值。羣體結果對輸入順序的變化具有彈性，並依靠小的局部鏈接閾值d，代表兩個擴增子之間最大差異數。羣形成穩定的高分辨率簇，並具有很高的生物學信息產量。

爲了幫助用戶，我們描述了一個完整的管道，該管道從原始fastq文件開始，與swarm集羣並生成過濾後的OTU表。

swarm 3.0引入了：

更快的默認算法，
減少內存佔用，
Windows x86-64，GNU / Linux ARM 64和GNU / Linux POWER8的二進制文件，
經過更新，強化和全面測試的代碼。

請注意：

現在必須對輸入序列進行嚴格的重複刪除，
–seeds選項（-w）現在輸出結果，該結果按遞減的順序排序，然後按順序標籤的字母順序排序。

swarm 2.0引入了與swarm 1.0相比的一些新穎性和改進：

內置的中斷階段現在可以自動執行，
有可能以fasta格式輸出OTU代表（選項 -w），
默認情況下，d = 1（線性時間複雜度）現在使用的快速算法，
一個名爲fastidious的新選項，可以優化d = 1的結果並減少小型OTU的數量。

常見的誤解

swarm是一種單鏈接聚類方法，與其他聚類方法有一些表面上的相似性（例如，Huse等人，2010年）。swarm的新穎之處在於其迭代增長過程以及使用序列丰度值來描述OTU。羣體正確地描繪了大的OTU（高召回率），並且可以區分中心之間只有兩個差異的OTU（高精度）。

swarm使用局部聚類閾值（d），而不像其他算法那樣使用全局聚類閾值。用戶可能會嘗試將97％的全局相似性閾值轉換爲許多差異，並使用較大的d值。這不是對羣的正確使用。羣產生的OTU自然大於d，測試表明，使用默認d值（d = 1）在大多數數據集上均能獲得良好的結果。使用新的嚴格選件可以進一步提高結果的質量。對於長擴增子或淺測序，可以使用更高的d值（d = 2或d = 3，很少使用更多）。

羣可產生高分辨率結果，尤其是在使用d = 1 時。但是，在某些罕見條件下，給定標記可能發展得不夠快，無法區分分子分類羣。如果涉及大量序列，則羣可能會形成一個半徑較大的OTU，而經典的聚類方法將隨機穿過，從而在閾值97％下降的地方進行描繪。因此，請記住，分子標記也有侷限性。

寫在最後的小感想：

打個不恰當的比方，16S只是一個粗略的「人口普查」，那麼這個人是「好人」還是「壞人」，到底怎樣就不得而知了，這就需要其他組學了。不得不說隨着測序成本的降低，百元宏基因組時代的到來，一個樣本幾十塊的16S正逐漸走向被淘汰的邊緣，至少測個全長吧。可是pacbio不爭氣（成本降不下來），nanopore除了走pacbio那種一個序列測多次還是不能達到足夠準確，當然更高準確度的R10版本芯片已經開始使用，期待有好消息傳來。