2021年10月2日土曜日

テキストマイニングにおける統計処理のメモ(その1)

現在読んでいるテキストマイニングの本ですが、「8章基本的な統計処理」になると難易度が上がるのでメモをとりながら読んでいます。が統計の素人には厳しいのでメモ。
定義
  • 検定(statistial testing):複数のデータの間に統計的に有意差(significance)が存在するかを検証すること。
  • 帰無仮説(null hypothesis):検定における「データに差がない」ということを示す仮説。
  • 対立仮説(alternative hypothesis):帰無仮説を否定した際の仮説。
  • 有意水準(significance level):帰無仮説が正しいかを判断する基準値。

一般的な方法
  • 帰無仮説が正しい確率を計算し、有意水準以上ならば帰無仮説は成立すると結論し、そうでないならば棄却する。

テキストマイニングにおける検定の種類
  • フィッシャーの正確確立検定(Fisher's exact test):
    • 2つのカテゴリーに分類されたデータの分析に用いられる。標本の大きさが小さい場合に使える。
    • p値(p-value):帰無仮説が正しい確率、つまり、データ間に優位差のない確率。一般的にP値が0.05(5%)よりも小さい場合はデータ間に差がない確立が低いと言える(つまり、データ間に差があると考える)
    • 95%信頼区間(95 percent confidence internal):信頼区間とは母集団の真の値が含まれることが、かなり確信 (confident) できる数値範囲のこと。95%のサンプルがこの区間に入っていると言う「範囲」を示している。
    • オッズ値(odds value):効果量の1つの種類。効果量とはサンプルサイズ(後述)の影響を受けない指標。
  • カイ二乗検定(chi-squared test)
    • フィッシャー検定と比較すると集計表に小さい数値が入っているときに不正確となる。
    • フィッシャー検定よりも計算速度は早い。(が、現代の計算機ではどちらも一瞬)
    • ということで、フィッシャー検定を使いましょう。
実際にフィッシャー検定をやった例
  • 帰無仮説:特定の習熟度(Level)における英語学習者が、特定の文法を正しく使っていた(correct)。それとも誤って使っていたか(Error)。
  • データ
Level 1 Level 2 Level 3
Correct 805 414 226
Error 99 38 12
  • フィッシャー検定結果
    • p値:0.01198
    • 結果:棄却(0.05よりも小さいため)
  • 2x2より大きいクロス集計表に対して検定を実施した場合、「どの場所が差があるか」はわからない。これを知るには多重比較(multiple compilation)を追加で行う必要がある。
多重比較
  • A, B, Cという属性を持つ表があったとする。これを多重比較すると、AとB、BとC、AとCの3パターンの検定を繰り返す必要がある。
  • このパターンでは3回の検定を行う。この際、有意水準は1/3を用いる。これをボンフェローニ補正(Bonferroni Correcrion)と言う。ボンフェローに補正は回数が大きくなるにつれてデータ中に存在する差を正しく検出できなくなる。
検定の注意点
  • サンプルサイズ(表中のあたいの大きさ)の影響を受ける。
  • 例:上記の票の例で値を10倍にすると帰無仮説は棄却される。
  • テキストマイニングでは大規模な機能後の頻度を集計すると、セルに入る数値が大きくなる(つまり超デカいデータを分析するにつれて、単語の出現回数が大きくなる。このため、p値ではなく効果量(effect size)という値(サンプルサイズの影響は受けない)を確認する必要がある。
オッズ値:
  • あるデータの起こりやすさを2つのデータで比較するための指標。p値がデータの大きさに依存するのに対して、オッズ値は相対的な指標となるためp値とともに用いると効果的。
  • 2x2のデータでのみ計算ができる。それ以上の場合は、クラメールのV(Cramer's v)という仕様を計算する。
  • 結果を提示するときはオッズ値(効果量)も提示すると良い。
クラメールのV:
  • 効果量の1つ。
  • 否決する基準はないが、0.1で「効果量小」、0.3以上で効果量中、0.5以上で効果量大と言える。

0 件のコメント:

コメントを投稿