■人工知能

人工知能の作り方【教師あり学習とは】

■人工知能

 こんにちは黒部です。
今回は人工知能の作り方として、人工知能生成のアルゴリズムの一つである『教師あり学習』について現役エンジニアが解説します。

本記事の目標とレベル

目標 :教師あり学習の概要を理解する
レベル:★☆☆☆☆

人工知能の作り方【教師あり学習とは】

 教師あり学習とは機械学習の手法の一つで、教正解データを含めて学習させる方法のことで、ここが教師なし学習との違いでもあります。そして最終的な目的は、後半で説明する『分類問題』と『回帰問題』において、新規に与えられた未知のデータから正解を導くことです。

分類と回帰

分類問題

 分類問題とは、カテゴリ別に分けてあるデータを学習し未知のデータのカテゴリ(離散値)を予測します。例えば与えられた写真が犬なのか猫なのかを求めるような問題です。

 犬と猫の違いとなる特徴を例えば『顔と体の比率』と『耳の大きさ』とした時に、その特長を特徴量という定量的な数値で人間がコンピュータ上で表現し、コンピュータはその特徴量と犬猫の写真をもとに以下の図のようなイメージでデータを読み込みます。そして分類問題の大きな特徴は、読み込んだデータ全体をできるだけ分けるように線を引いて閾値を設定します。

 そして新しいデータが与えられた時に、その特徴量が設定した閾値線の上か下かで犬か猫かを判断します。

回帰問題

 回帰問題とは連続値を予測する問題です。例えば過去の気温データから明日の気温を予測したり、株価を予測したりするような問題です。

回帰問題の特徴はデータ全体にできるだけ重なるように線を引くことです。

 特に資産運用や金融は形があるものが動くわけではないので、機械学習との親和性もかなり高いです。現在の金融商品のリアルタイムトレードの9割近くが、過去の価格チャートやテクニカルな指標を用いたITシステムによる言われています。
 近年では銘柄に関する記事や世界中の市場動向をデータベースとして予測精度を向上する手法も考えられています。

機械学習における特徴量という曖昧さ

 分類問題と回帰問題では、事前にコンピュータに画像や金融商品などのデータを学習させます。その時に機械学習において重要なのが、そのデータの何(特徴量)を覚えさせるかです。そしてその特徴量をコンピュータ上にどう表現するかです。

 株の価格チャートなどは価格という分かりやすい特徴量がありますが、犬と猫の違いなど、人間が特徴量をイメージしてさらにはコンピュータ上に表現するのが難しい問題が沢山あります。

 人間が特徴量を考える以上、機械学習には曖昧さが発生します。その為、機械学習を用いて人工知能を作成する際、または人工知能を取り入れたシステムを利用する際には、以下の点に注意する必要があります。

・教師データが十分に存在するか
・データが定量的であるか
・答えを導く過程が曖昧でもよいか

 特に最後の答えを導く過程があいまいでも良いかという点は、良く吟味すべきですし、これは人工知能における課題の一つです。
 例えば犬と猫の画像に対して『耳の大きさ』と『顔と体の比率』という特徴量で学習し、閾値を設定して新しく与えられた写真をみて「これは犬です」と人工知能が判断したとします。しかしながら、本来は犬と猫は生物学的な根拠に基づいて分類されるものですし、その閾値がなぜそのレベルで設定されたのかは人間には分かりません。

 たとえば医療分野において「あなたの病気は〇〇ですが、根拠は分かりません」となってしまってはダメだと思います。ある程度に曖昧な根拠でも良い分野に人工知能をてきようすることが望ましいといえます。

以上が教師あり学習の概要となります。分類問題と回帰問題は例にあげた内容に加え、もっと多次元での分類問題等もあり奥が深いので、今後さらに深堀して説明していきます。