自標籤 (Self-Labeled) 介紹

本文將對自標籤(self-labeled)做簡要介紹,主要包括定義和分類。其中定義給出中英文對照。文章參考自[1]。算法

定義

首先是對這類方法的定義,以下圖所示imageide

Semi-supervised learning (SSL):

結合監督學習和無監督學習來給模式識別提供額外信息。
An extension of unsupervised and supervised learning by including additional information typical of the other learning paradigm.學習

SSL 分爲如下兩類:spa

  • Semi-supervised classification (SS-Cla):

    關注於半監督分類問題orm

  • Semi-supervised clustering (SS-Clu):

    關注於半監督聚類問題ci

Self-Labeled 方法 關注(SS-Cla),即分類問題。rem

Self-Labeled Method:

自標籤方法通常指經過標註無標籤樣原本擴充數據集(EL)。
These techniques aim to obtain one (or several) enlarged labeled set(s) (EL), based on their most confident predictions, to classify unlabeled data.input

  • Self-training:

    利用帶標註樣本訓練一個分類器,給無標籤樣本標註。而後使用置信度高的無標籤標註樣本擴充數據集EL來retrain模型。
    A classifier is trained with an initial small number of labeled examples, aiming to classify unlabeled points. Then it is retrained with its own most confident predictions, enlarging its labeled training set. This model does not make any specific assumptions for the input data, but it accepts that its own predictions tend to be correct.it

  • Co-training:

    訓練多個分類器,各個分類器互相用各自的置信度高的樣本學習。
    It trains one classifier in each specific view, and then the classifiers teach each other the most confidently predicted examples. Multi-view learning for SSC is usually understood to be a generalization of co-training.io

分類

根據 Addition mechanism:

選擇假樣本的選擇方式。

  • Incremental:

    從EL=L開始,不斷選擇最confident的樣本。
    優勢:速度快。
    缺點:選擇到假標籤打錯的樣本。

  • Batch:

    制定某種增長規則,選擇符合這種標準的樣本加入訓練集。跟Incremental的區別是Incremental選擇現訓練階段分類器預測置信度高的樣本,給樣本打上肯定類別的標籤,而Batch在訓練階段不給無監督樣本打上肯定類別標籤。

  • Amending:

    從EL=L開始,不斷選擇或刪除樣本。可提供糾正能力。

根據 Single-learning versus multi-learning:

  • single-learning:預測由單一分類算法/分類器給出。

  • multi-learning:預測由分類器給出。

根據 Single-view versus multi-view:

樣本的特徵(具備完備的條件信息)表示稱爲一個view。

  • multi-view

  • single-view

根據 Confidence measures:

如何定義置信度(Confidence)

  • Simple

    經過計算樣本的機率。

  • Agreement and combination

    多分類器的預測結合或使用混合模型來計算。

根據 Self-teaching versus mutual-teaching:

  • mutual-teaching:每種分類器互相提供各自的EL。

  • Self-teaching:每種分類器使用各自的EL。

根據 Stopping criteria:

  • 選擇全集

    傳統的方法給全部無監督樣本打上假標籤。但這會引入較多錯誤標註的樣本。

  • 選擇部分

    選擇部分樣本,但需預先定義選擇的迭代次數和受數據集大小影響。

  • 假設不變

    當選擇的樣本不改變假設(分類器)中止。

[1] Triguero, I. et al. 「Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study.」 Knowledge and Information Systems 42 (2013): 245-284.