機械学習には、大きく分けて「教師あり学習」と「教師なし学習」の2パターンがあります。
この記事では、「教師あり学習」と「教師無し学習」の違いについて解説します。
教師データとは何か?
「教師あり学習」と「教師無し学習」の違いについて解説する前に、まずは「教師データ」というのが何かを解説します。
正解の付いたデータのことを、機械学習では「教師データ」と呼びます。
例えば、下の「イラスト」に「ペンギン」という正解をセットにしたデータの事を「教師データ」と言います。
Alexaの音声をタグ付けするバイト
あなたは、こんなニュースが話題になったのを知っていますか?
AmazonのAIアシスタント「Alexa」に入力された音声をヘッドセットで聞いてテキスト化し、タグ付けやデータの意味づけなどを行う。在宅勤務で時給1300円
Alexaの音声を聞いてテキスト化するスタッフ
これは、Alexaの音声データをタグ付けする事で、「教師データ」に変換していると言えます。
いくら守秘義務を結んでいるとはいえ、プライバシー的にはアウトだと思うのですが、これにより、Alexaの音声認識技術向上に役立てているそうです。
機械学習の分類
機械学習には、大きく分けて「教師あり学習」と「教師なし学習」の2パターンがあります。
分類 | 説明 |
教師あり学習 | 全てのデータに対して教師データが与えられる |
教師なし学習 | 教師データ無し |
半教師あり学習 | いくつかの例の教師データあり |
弱教師あり学習 | 大雑把な教師データあり |
強化学習 | 行動した時に変化する環境・報酬系が与えられ、環境との相互作用から学習する |
転移学習 | 学習済みのモデルを他の問題に適用 |
他にも、環境とのフィードバックから教師データを得る「強化学習」や、学習済のモデルを他の問題に適用する「転移学習」などもあります。
「教師あり学習」と「教師なし学習」の違い
「教師あり学習」は、全てのデータに対して「教師データ」が存在するのに対し、「教師なし学習」では、教師データが与えられないという違いがあります。
「教師あり学習」は主に「分類」と「回帰」に、「教師なし学習」は「クラスタリング」や「異常値検知」に使われます。
「教師あり学習」の分類とは
教師あり学習の「分類」とは、ある入力データを与えられた際に、それが何かをカテゴリに分類する事です。
例について紹介します。
手書き文字を認識
手書き文字を画像として認識し、該当する文字や数字として出力します。
機械学習の練習には、MNISTと言われる以下の様なデータが良く使われます。
外国では、小切手(チェック)に数字を手書きして、ATMで読み込むので、数字認識の技術が発展した訳ですね。
入力:手書き文字(数字)
出力:文字・数値
迷惑メールフィルター
メールの文章を与える事で、そのメールがスパムメールなどの迷惑メールなのか、通常のメールなのかを分類します。
入力:メール文面
出力:通常メール、迷惑メール
「教師あり学習」の回帰とは
「回帰」とは、アウトプットが「株価」や「売り上げ」といった、実際の数値を予想する場合に使用されます。
Excelで回帰分析を行った事がある人には、馴染みが深いのではないでしょうか?
株価予測
直近の株価データや、株価データの推移、経済指標、財務諸表の数値等を与える事で、今後の株価を予測する事が出来ます。
ただし、闇雲にデータを入れても意味がなく、企業業績に影響のある指標を予測の入力とする事がポイントとなります。
入力:株価、経済指標、財務諸表
出力:株価
価格予想
株価だけでなく、価格や売り上げについても予測が出来ます。
特に季節物の食材は季節や天候に応じて価格が変わるので、この傾向を機械学習させる事で価格の予測を行う事が出来ます。
面白いものだと、気温や降水量からボルドーワインの価格を予測する「アッシェンフェルターのワイン方程式」なるものもあります。
入力:気温、降雨量
出力:ワイン価格
「教師なし学習」のクラスタリング
教師なし学習では、正解データが存在しないので、共通項を持つグループに分けるクラスタリングや、異常値検出等に使用されます。
文章をカテゴリー毎に分ける
例えば、ニュースサイトを運営している企業にとって、大まかな記事の分類はされているものの、更に細かく分ける事で、オススメ記事の精度を上げたいといったニーズが存在します。
とはいえ、一つ一つ人間が記事に目を通し、分類していくのは時間的にも手間がかかり現実的ではありません。
そこで、クラスタリングの手法が有効になってきます。
入力:記事
出力:記事グループ
「教師なし学習」の異常値検知
例えば、不正なWebアクセスの検知や、クレジットカードの不正利用の検出に「教師なし学習」の異常値検知の手法が使用されています。