2021年10月3日日曜日

テキストマイニングにおける統計処理のメモ(その2)

前回の続きで「Rによるやさしいテキストマイニング」の「8章基本的な統計処理:相関と回帰」を読んでいく。

定義:
  • 相関分析(correlation analytis)
    • 複数の変数がどの程度の強さで相互に関係しているかを調べるための統計的手法。
    • 気温が高くなればアイスが売れる(正の相関)
    • Rではcor関数を使う。
  • 相関係数(correlation coefficient)
    • 複数の変数の結びつきの強さを表したもの。0より大きいと正の相関、0より小さいと負の相関、0だと相関関係なし。
      • 0 to 0.2: ほとんど相関関係なし。
      • 0.2 to 0.4: 弱い相関あり
      • 0.4 to 0.7: 比較的強い相関あり
      • 0.7 to 1.0: 強い相関あり
    • ピアソンの積率相関係数(Peason's product moment correlation coefficient)
      • corが利用している。最も一般的。
      • 外れ値の影響を受けやすい。特にデータの数が少ないとき。
    • スピアマンの順位相関係数(Spearman's rank correlation coefficient)
      • データを順位に変換することで外れ値の影響を緩和することができる。
      • 平均値と中央値のような考えに似ている。
      • cor関数ではmethodにspearmanを指定する。
  • 無相関検定
    • 相関関係がないことを確認するための検定。
    • 相関係数が0であるという帰無仮説を立てる。
    • Rではcor.testを用いる。
  • 分割相関(層別相関)
    • 1つの相関関係を複数に分割して検定すること。
  • 疑似相関(spurious correlation)
    • 相関関係がないのに相関関係があるように見えてしまう。
    • AとBに相関関係があるように見えたとする。しかし、実際にはCという別の要因がある可能性がある。AとCが相関があり、かつ、CとBが相関があるならば、AとBは相関があることになる。が、AとBは直接的な相関はない。(あってるのかな?相関関係に推移律は成り立つのかな。。)
  • 回帰分析(regression analysis)
    • 原因となる変数と結果となる変数の間を回帰式と呼ばれる数式で表現する手法。
    • 説明変数(explanatory variable)
      • 写像でいうところの定義域。関数でいうところの引数。
    • 目的変数(criterion variable)
      • 写像でいうところのイメージかな。(Co-domainだと、全射じゃないときに。。)
    • 回帰式
      • 写像(関数)のこと。
    • 単回帰分析(simple regression analysis)
      • 説明変数が1つ。
    • 重回帰分析(multiple regression analysis)
      • 説明変数が複数。
      • 日本語訳が変だよね。「複回帰分析」とかの方が合ってるような気がする。
      • 多重共線性(multicolinearity)に注意する必要がある。
        • 2つの説明変数間に強い相関があるときにおこる。
        • 回帰英数が負のときに正になったり、逆になったりする。
        • 事前に相関分析を行い、強い相関がある変数を除外して重回帰分析にかける。または、変数選択(variable selection)という方法を使って回帰分析に用いる変数を自動的に選別する。
    • Rではlm関数を用いる。
    • 回帰分析には相対頻度や標準化頻度を用いるのが一般的。

0 件のコメント:

コメントを投稿