主成分分析
1.主成分分析のモデルと基本式
主成分分析とは、多変量データを統合し、新たな総合指標を作り出すための手法といえます。多くの変数に重み(ウェイト)をつけて少数の合成変数を作るのが主成分分析です。重みのつけ方は、合成変数ができるだけ多く元の変数の情報量を含むようにします。できるだけ多くの情報をもつ合成変数(主成分)を順次作っていきます。
主成分分析のモデルと基本式
2.主成分分析の手順
合成変数ができるだけ多くの情報量を持つようにするため、データの散らばり具合(分散)に着目します。分散=情報量といえるからです。
平面で示すためにデータが2次元(2変量)の場合で考えてみましょう。
下図のようなデータがあった時、データの分散が最も大きくなる方向に軸をとり、これを第1主成分とします。第1主成分だけでは元のデータが持っていた情報をすべて表すことは不可能です。そこで、次に分散が大きくなる方向に軸を取り、これを第2主成分とします。第2主成分の軸は第1主成分の軸に直交します。第1主成分に関する2変量の重みは、それぞれcosθ,sinθとなり、第2主成分に関しては、-sinθ ,cosθとなります。
3.主成分分析結果の読み方
3-1. 主成分成分分析で得られる指標
- 固有値
主成分分析を行うと、各主成分に対応した固有値が求まります。この固有値は主成分の分散に対応しており、その主成分がどの程度元のデータの情報を保持しているかを表します。元の変量の分散が1に標準化されていれば、固有値は元の変量何個分の情報量を持つかを表します。 - 寄与率
ある主成分の固有値が表す情報が、データのすべての情報の中で、どの位の割合を占めるかを表します。 - 累積寄与率
各主成分の寄与率を大きい順に足しあげていったもので、そこまでの主成分で、データの持っていた情報量がどのくらい説明されているかを示します。
3-2.主成分の数の選択
- 固有値を基準とする
主成分の固有値が、各データ変量の標準化されている分散の値である1を越えているかどうかを基準とします。1より大きければ説明力のある主成分として採用します。 - スクリープロット
下図のように、各主成分の大きさをグラフにして、折れ線の傾きがゆるやかになる手前までの主成分を採用します。傾きがゆるやかになった後は、そこを採用と非採用の区分とすることに意味がつけにくくなるからです。 - 累積寄与率を基準とする
全体の情報の7、8割がカバーできていればよいという考え方から、累積寄与率が、70~80%に達するところまでの、主成分数を採用します。
3-3.主成分の意味の解釈
各主成分の主成分係数に着目して各主成分の意味を解釈します。第1主成分は総合指標になることが多く、下の例では、製品の総合的なおいしさを表しているといえるでしょう。また第2主成分はさっぱりしたおいしさを表していると解釈できます。この2つの主成分から項目をプロットすると下図のようになり、この2つの主成分に関しては、コクと甘味、酸味と塩味と辛味がそれぞれグループを作っていることがわかります。
| 第1主成分 | 第2主成分 | |
| 甘味 | 0.92 | -0.32 |
| 塩味 | 0.29 | 0.55 |
| 辛味 | 0.15 | 0.47 |
| 酸味 | 0.17 | 0.52 |
| コク | 0.87 | -0.12 |
| 後味 | 0.73 | 0.95 |
主成分分析についてのご質問やお問い合わせ、お見積もり依頼はこちらへ

