Book Review and Learning: テキストマイニングにおける統計処理のメモ（その４）

2021年10月8日金曜日

テキストマイニングにおける統計処理のメモ（その４）

「９章発展的な統計書理」の続き。

前回までの続きで「Rによるやさしいテキストマイニング」の「９章発展的な統計処理」を見ていく。

線形判別分析（linear discriminant analysis）

カテゴライゼーションの技法の一つ
あらかじめ設定された複数カテゴリに大量のデータを自動分類するための方法
自動分類に用いる判別式の例（説明変数が２つの場合）

Y = a1 x X1 + a2 x X2 + c
この式は重回帰分析の式と本質的に同じ。

判別分析をするときは、訓練データと検証データ（評価データ）の２種類を用意する必要がある。

ちゃんと機能するか試験する必要があるため。
特定の訓練データだけでよい結果が出ることがあり、他のデータでは擦りもしない。

RではMASSパッケージを使う。

lda：学習で使う
predict：予測で使う

決定木（decision tree）

カテゴライゼーションの技法の一つ
説明変数の値に基づいてデータを段階的に分類していきうことで判別モデルを構築する。
判別モデル：学習した結果の計算式のことかな？
ジニ係数（Gini coefficient）データの「不純度」を表す。全く分類されていないとき＝「不純」、完全に分割された状態を「純粋」とし、０（完全に分割された場合）から１を取る。

つまりジニ係数は低い方が分割の信頼性が高いということになる。

Rではrpartパッケージのrpart関数を使う。が、結果が強烈にわかりにくいので可視化を行う。可視化はpartykitを用いる。

charDollerで判定し、次にremoveまたはHPで判定するということを可視化している。
決定木では過学習を避けるために枝の剪定（prunning）を行う。どの枝を切り捨てるかはplotcpで調べることができる。

図中の折線は0.036で交わっている。これをrpartのcpパラメーターに指定しておく。
ランダムフォレスト（random forest）

大量の決定木を生成し、それらの決定木から得られる結果の多数決をとる。
アンサンブル学習（ensemble learning）の一つ。
Rではランダムフォレストパッケージを使う。

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)