前回までの続きで「Rによるやさしいテキストマイニング」の「9章発展的な統計処理」を見ていく。
線形判別分析(linear discriminant analysis)
- カテゴライゼーションの技法の一つ
- あらかじめ設定された複数カテゴリに大量のデータを自動分類するための方法
- 自動分類に用いる判別式の例(説明変数が2つの場合)
- Y = a1 x X1 + a2 x X2 + c
- この式は重回帰分析の式と本質的に同じ。
- 判別分析をするときは、訓練データと検証データ(評価データ)の2種類を用意する必要がある。
- ちゃんと機能するか試験する必要があるため。
- 特定の訓練データだけでよい結果が出ることがあり、他のデータでは擦りもしない。
- RではMASSパッケージを使う。
- lda:学習で使う
- predict:予測で使う
決定木(decision tree)
- カテゴライゼーションの技法の一つ
- 説明変数の値に基づいてデータを段階的に分類していきうことで判別モデルを構築する。
- 判別モデル:学習した結果の計算式のことかな?
- ジニ係数(Gini coefficient)データの「不純度」を表す。全く分類されていないとき=「不純」、完全に分割された状態を「純粋」とし、0(完全に分割された場合)から1を取る。
- つまりジニ係数は低い方が分割の信頼性が高いということになる。
- Rではrpartパッケージのrpart関数を使う。が、結果が強烈にわかりにくいので可視化を行う。可視化はpartykitを用いる。
0 件のコメント:
コメントを投稿