R語言：以多列標準篩選特定行

時間 2020-12-27

歡迎關注天善智能，我們是專注於商業智能BI，人工智能AI，大數據分析與挖掘領域的垂直社區，學習，問答、求職一站式搞定！

對商業智能BI、大數據分析挖掘、機器學習，python，R等數據領域感興趣的同學加微信：tstoutiao，邀請你進入數據愛好者交流羣，數據愛好者們都在這兒。

作者：村長，數據科學、指彈吉他及錄音工程愛好者，浙大金融學博士在讀，在data.table包和MongoDB的使用上有較多經驗。

寫在前面

本期我們大貓二人組的村長在新的一年首先回歸，爲大家帶來新的推送。

在本期，我們會運用一個病例數據爲大家進行講解示範，這也是大貓課堂第一次針對閱讀者提問進行的反饋，也希望大家能提供一些有趣的問題，來和我們一起分享，同時也感謝讀者孤鶩惜秋，與我們分享其問題。話不多說，馬上進入正題。

問題提出

在data.table語句中，i是用來進行行選擇的重要組成部分，很多情況下我們都需要以很多列的同一個特殊值進行行的選擇，大多數情況下，我們可能會針對所有的變量逐一寫出條件，例如a==1&b==1&c==1....但這樣的表達式很多時候並不方便和簡潔，有時甚至會出現許多問題。首先來看看下面這個數據：

這是一個病例數據，包含多個患者的診斷的時間，以及多個診斷的結果，在這裏讀者便提出，需要在所有這些診斷結果裏面篩選出所有出現過醛固酮，但不包括繼發性醛固酮的所有行。在這裏如果對每一個條件進行輸入，需要輸入20多個變量的判定，而且這裏的變量名非常的髒，不利於變量名的輸入。我們先把這一行代碼優雅的放上來（PS:在運行這一行代碼前我們已經對數據進行了適當清洗，批量生成了22個帶'_xtrct'後綴的變量，觀察值是醛固酮、繼發性醛固酮或者無，但這部分批量生成的代碼不作爲這次講解的內容, 會在以後的公衆號推送中爲大家講解）：

clinic <- clinic[rowMeans(clinic[, 31:52] == "醛固酮") > 0 & rowMeans(clinic[, 31:52] != "繼發性醛固酮") == 1]

我們再來看看結果：