2021年10月8日金曜日

テキストマイニングにおける統計処理のメモ(その4)

「9章発展的な統計書理」の続き。
前回までの続きで「Rによるやさしいテキストマイニング」の「9章発展的な統計処理」を見ていく。

線形判別分析(linear discriminant analysis)
  • カテゴライゼーションの技法の一つ
  • あらかじめ設定された複数カテゴリに大量のデータを自動分類するための方法
  • 自動分類に用いる判別式の例(説明変数が2つの場合)
    • Y = a1 x X1 + a2 x X2 + c
    • この式は重回帰分析の式と本質的に同じ。
  • 判別分析をするときは、訓練データと検証データ(評価データ)の2種類を用意する必要がある。
    • ちゃんと機能するか試験する必要があるため。
    • 特定の訓練データだけでよい結果が出ることがあり、他のデータでは擦りもしない。
  • RではMASSパッケージを使う。
    • lda:学習で使う
    • predict:予測で使う

決定木(decision tree)
  • カテゴライゼーションの技法の一つ
  • 説明変数の値に基づいてデータを段階的に分類していきうことで判別モデルを構築する。
  • 判別モデル:学習した結果の計算式のことかな?
  • ジニ係数(Gini coefficient)データの「不純度」を表す。全く分類されていないとき=「不純」、完全に分割された状態を「純粋」とし、0(完全に分割された場合)から1を取る。
    • つまりジニ係数は低い方が分割の信頼性が高いということになる。
  • Rではrpartパッケージのrpart関数を使う。が、結果が強烈にわかりにくいので可視化を行う。可視化はpartykitを用いる。
  • charDollerで判定し、次にremoveまたはHPで判定するということを可視化している。
  • 決定木では過学習を避けるために枝の剪定(prunning)を行う。どの枝を切り捨てるかはplotcpで調べることができる。

  • 図中の折線は0.036で交わっている。これをrpartのcpパラメーターに指定しておく。
  • ランダムフォレスト(random forest)
    • 大量の決定木を生成し、それらの決定木から得られる結果の多数決をとる。
    • アンサンブル学習(ensemble learning)の一つ。
    • Rではランダムフォレストパッケージを使う。

0 件のコメント:

コメントを投稿