重回帰分析のチェックポイント ~ その1

今日では、高度な統計手法の計算をパソコンに任せておけるようになっています。
統計解析用ソフトのSPSSS-PLUSをはじめ、フリーウェアのRなども重宝されています。

回帰分析は統計解析のポピュラーな手法ですが、コンピュータで簡単に結果を求めてくれるようになったからといって、最低限の予備知識は必要になります。

書籍やセミナーなどで、予備知識を得ることはできますが、おおよそ次の点を考慮していなければ、精度の良い分析を行うことはできません。
そこで、重回帰分析を行うためのチェックポイントを、簡単にまとめておきました。
5つあります。

なお回帰分析は、数値予測に期待できる分析手法の1つですが、この条件を満たすからと言って、精度の良い(当たる)予測ができるということではありません。
あくまで、重回帰分析を行うための、最低限の条件であることを理解しておきましょう。


  1. 予測をしたい項目(目的変数、被説明変数、従属変数)1つを決める
  2. 目的変数の変化に影響している(影響していそうな)その他の項目(説明変数、独立変数)は何かを考える
  3. つまり説明変数と目的変数との間には、強い相関があるとより良い
  4. 説明変数同士で、高い相関のある状態を解消しておく
  5. データ行数は、説明変数の個数(列数)+2行以上あること

簡単に1つずつ説明してゆきましょう。
今回は最初の1から3について説明します。

1.予測をしたい項目(目的変数、被説明変数、従属変数)1つを決める

つまり何を予測したいのか、分析対象は何かを決めます。
これが重回帰分析に入る第一歩です。

3つの表現を使いましたが、これは書籍やソフトウェア、講師などによって表現が変わりますが、意味はどれも同じです。
感覚としては、目的変数(Object Variable)が良く使われており、次いで被説明変数(Explained Variable)や従属変数(Dependent Variable)という言葉が遣われている印象があります。
どれが出てきたとしても、皆さんで「あ~、目的変数のことなんだなあ」と翻訳できれば大丈夫です。
ここでは結局「何を予測したいのか?」が大事になります。

多変量解析では、重回帰分析の目的変数にあたる変数のことを、外的基準(External Criterion)と呼びます。

2.目的変数の変化に影響している(影響していそうな)その他の項目(説明変数、独立変数)は何かを考える

3. つまり説明変数と目的変数との間には、強い相関があるとより良い

統計学的に言えば、目的変数と比較的強い相関関係のある説明変数を、分析に採り入れます。
過去の時系列データの推移を基に将来の予測を行う場合でも、その推移だけを基に予測をするのではなく、その他の要因の変化を利用して予測するのです。
そして回帰分析では、予測したい項目(目的変数)の推移により影響を及ぼしている項目(説明変数)はどれかを探ることも期待できるのです(わたくしの講座などでは「影響度」と呼んでいます)。

そして説明変数の策定においては、目的変数と相関の高い変数を選ぶことはもちろん、どういう切り口で説明変数を選ぶかがカギになります。

例えば売上高を予測するため目的変数としたとき、説明変数を過去の日付ごとの天候や曜日とするのか、また顧客の属性(性別・年代・居住地など)とするのかも考慮する必要があるでしょう。あくまで分析の目的によって判断します。


その2に続きます

気に入った?