重回帰分析のチェックポイント ~ その2

前回の投稿では、重回帰分析を行う上での事前チェックポイントを5つ挙げ、そのうち3つについて詳しく説明しました。

今回の投稿では、4番目と5番目について説明します。
まずは5つのチェックポイントを振り返ってみましょう。


  1. 予測をしたい項目(目的変数、被説明変数、従属変数)1つを決める
  2. 目的変数の変化に影響している(影響していそうな)その他の項目(説明変数、独立変数)は何かを考える
  3. つまり説明変数と目的変数との間には、強い相関があるとより良い
  4. 説明変数同士で、高い相関のある状態を解消しておく
  5. データ行数は、説明変数の個数(列数)+2行以上あること

今回は4番目と5番目について説明してゆきます。

4.データ行数は、説明変数の個数(列数)+2行以上あること

これは回帰分析の重相関係数や決定係数(寄与率)は、データ行数が説明変数の個数+1行のとき、データの内容に関係なく、常にいずれも1になるという性質も関連しています。
つまり説明変数が4個ある場合は、データ行数は6行以上無ければ、回帰分析を行う意味は無いということです。
ただしこの条件は、回帰分析をすることで、精度良く予測ができるというようなことではなく、あくまで回帰分析を行う上での最低条件でしかありません。

5. つまり説明変数と目的変数との間には、強い相関があるとより良い

回帰分析で予測を行う場合、説明変数の選択・策定が肝になります。
回帰分析は(一般に複数の)変数によって説明をするという役割がある以上、説明変数と目的変数との間には、相関が高ければ高いほど良いのです。
なかなかすべての説明変数と目的変数との組み合わせで、強い相関関係があるような説明変数ばかりを集めることは難しいでしょう。
しかしこのことを留意しておくと、精度はより高まるでしょう。


まずは……

すべての変数の組み合わせについて散布図を描いたり、相関係数(行列)を求めたりせずに回帰分析を行ってはなりません。
例えば散布図を描くことで、外れ値が発見できたり、また業界の経験や商慣習などから外れ値の意味を推測して、また新たな説明変数を採り入れて、分析の精度を上げてゆくことも期待できるのです。


 

そして……

複数の変数によって説明するということは、説明変数ごとのP値が0.05未満でなければならないというようなルールは、あまり最優先にしなくても良いと考えます。
もちろん有意水準をないがしろにするということではありません。
しかし、より重要なのは、どの説明変数の組み合わせが最適なのかということです。

つまり個々の説明変数の有意性ばかりに気をとられるのではなく、説明変数の組み合わせにより感心を持ち、そして説明変数の個数は、できたら少なめの方が、再現や検証のしやすさにとって、より現実的だろうと考えています。

気に入った?