統計用語集

あ	か	さ	た	な
赤池情報量基準一対比較法移動平均Ｌ_４直交表Ｌ_８直交表 Excelのグラフ機能（データマイニングにおける）Excelの５大機能円グラフ折れ線グラフ	回帰係数カイ自乗検定における自由度間隔尺度記述統計学基本統計量近似曲線クラスター分析クロス表計画行列工程能力指数	最小自乗法最適な回帰モデル最適な回帰モデル作成法最頻値（モード）３元配置実験計画散布図シグマ実験計画法重回帰式重相関係数順序尺度推測統計学ステレオグラム数量化理論Ⅰ類数量化理論II類説明変数選択規準尖度相関の有無のｔ検定相関の有無を判定する簡便法相関係数ソルバー	タグチメソッド多元配置実験計画多重共線性ダミー変数単回帰式代表値縦棒グラフ中央値（メディアン）直交表データウェアハウスデータ工学データマイニング	２元配置実験計画　ノンパラメトリックな検定
は	ま	や	ら	わ
外れ値ばらつきパラメトリックな検定パレート図ヒストグラムピボットテーブル（Excel）標準化標準偏差標本標本サイズの決定法比例尺度品質工学分析ツール（Excel）平均値偏差値母集団母数と統計量	マルチコ名義尺度	要因計画法	レンジ（範囲）ロジット曲線	ｙ切片歪度

赤池情報量規準　AIC （Akaike Information Criterion）

赤池弘次博士が考案。当てはまりのよさを追求するあまり、複雑なモデルを多用するのではなく、ケチの原理から、より簡易なモデルを利用するために採用される、当てはまりの良さを示す指標の１つ。AICが最小となるモデルが最適。
SPSSやS-PLUSなど多くの統計解析専用ソフトでも出力される。

なお、重回帰分析におけるAICは次の通りである。

[説明変数選択規準、Excelアドインツール　50B 「最適な回帰モデル」]

一対比較法（いっついひかくほう）　　Method of Paired Comparison

２者のうち、どちらが良いか１つを選ぶ比較的簡単な設問でアンケートなどに多用されている。
Excel回帰分析でもデータ解析が可能である。

[AHP法、Excel用アドインプログラム「一対比較法プログラム」]

移動平均

時系列データなどで、増減の激しいデータでも、移動平均を求め、それをグラフに表すことによって、データは平均化され、傾向をつかむことが容易になる。

移動平均は、手作業でも簡単に求めることができる。

例：　４区間の移動平均を求める（移動平均を求める対象を、４区間ずつとする）場合

手順１）　一番古いデータから一定の期間の平均値（単純平均）を求める

例の場合は、４区間の移動平均を求めるので、１番目～４番目のデータの平均値を求める。

日ごとのデータであれば、１日目～４日目のデータについて、平均値を求める。
月ごとならば、１月目～４月目のデータについて平均値を求めることになる。

手順２）　順に１データずつ新しい方向にずらし、同様に平均値を求める

手順３）　手順２を、直近の平均値が求められるまで繰り返す

手順４）　グラフに表す

Excelでは、グラフ･ウィザードの折れ線グラフなどから、「近似曲線の追加」機能で、移動平均線を追加することができる。
（移動平均値を求めることはできない）

[単純平均、Excel用アドインプログラム「移動平均プログラム」］

Ｌ_４直交表

以下のような表をＬ_４直交表と呼ぶ。

No.：	１列：	２列：	３列：
1	1	1	1
2	1	2	2
3	2	1	2
4	2	2	1

実験計画法なら、要因が３つ、実験回数が４回のデータをこれに当てはめることができる。
Ｌ_４のＬは「ラテン方格（Latin Square）の略。４は、行数を表している。

ちなみに、このＬ_４直交表は、上表の「２」を－１に置き換えて考えることで、直交表の成り立ち（割付の要領）が理解できる。

No.：	１列：	２列：	３列：
1	1	1	1
2	1	-1	-1
3	-1	1	-1
4	-1	-1	1
	a	b	a×b

直交表は、実験計画法（要因計画法）で用いられる、できるだけ少ないデータ（実験回数）から、より多くの情報を得るのに役立つ。

［実験計画法、要因計画法、直交表、計画行列、タグチメソッド、Excel用アドインプログラム「直交表作成プログラム」、Excel用アドインプログラム「超らく解析プログラム」、Excel用アドインプログラム「影響度分析プログラム」］

Ｌ_８直交表

以下のような表をＬ_８直交表と呼ぶ。

No.：	１列：	２列：	３列：	４列：	５列：	６列：	７列：
1	1	1	1	1	1	1	1
2	1	1	1	2	2	2	2
3	1	2	2	1	1	2	2
4	1	2	2	2	2	1	1
5	2	1	2	1	2	1	2
6	2	1	2	2	1	2	1
7	2	2	1	1	2	2	1
8	2	2	1	2	1	1	2

実験計画法（要因計画法）で、要因（因子）と水準を割り付けるのに用いられる。
多元配置実験計画法に比べて、実験回数は少ない。
２水準の要因が７つある７元配置実験計画法の場合の実験回数は、２^７＝１２８回となる。

ちなみに、このＬ_８直交表は、上表の「２」を－１に置き換えて考えることで、直交表の成り立ち（割付の要領）が理解できる。

No.：	１列：	２列：	３列：	４列：	５列：	６列：	７列：
1	1	1	1	1	1	1	1
2	1	1	1	-1	-1	-1	-1
3	1	-1	-1	1	1	-1	-1
4	1	-1	-1	-1	-1	1	1
5	-1	1	-1	1	-1	1	-1
6	-1	1	-1	-1	1	-1	1
7	-1	-1	1	1	-1	-1	1
8	-1	-1	1	-1	1	1	-1
	a	b	a × b	c	a × c	b × c	a × b × c

Excelのグラフ機能

Excelの５大機能の１つ。
用途に応じてどのグラフを使い分けるかを考えるのが重要。
常に基データ（グラフ作成用データ）とグラフは連動しており、描画されたグラフ（棒グラフならその長さ）を変更すると、基データもその変化に応じて数値が変更される。

［円グラフ、折れ線グラフ、３－Ｄ（スリーディー）縦棒グラフ］

（データマイニングにおける）Excelの５大機能

データマイニングの一貫した作業がExcel上でできることから、次のように定義する。

・グラフ機能
・ピボットテーブル機能
・分析ツール
・統計関数
・ソルバー

特に分析ツールやソルバーは、ぜひ活用したい機能である。

なお、一般にExcelの４大機能または５大機能のようにして挙げられる事柄としては、表計算機能・グラフ機能・集計機能・分析機能・文書作成機能などがある。これらの機能は、データ周りの一連の作業がExcelで可能になることを示している。
もっとも、統計解析の分野では専用ソフト（SPSSやS-PLUS等）に、文書作成ならばワープロソフト（Wordや一太郎等）にはかなわない。

［Excelのグラフ機能、分析ツール、ソルバー］

円グラフ

円グラフは、比率（全体を100％とし何％あったか）を把握するのにすぐれたグラフ。
データ要素が少ないときには特に有効｡また、データ要素が多い場合でも、データ数値の差が大きい時には有効だが、そうでない場合にはグラフ化しても差が分かりづらく、視覚化の効果が得られない場合がある｡

折れ線グラフ

時系列データの変化を見るときにより有効なグラフ｡
Excelのグラフ･ウィザードで簡単に折れ線グラフが描ける。

回帰係数

回帰式の中で、が１増える（または減る）と、がいくつ増える（減る）かを表すものが、回帰係数である。

次の式で、ｂが回帰係数にあたる。 xが1増えると、yがb増える、という意味になる。

【参考】

単回帰式：　
　

重回帰式：　
　
ｋは説明変数の個数を示す。説明変数の個数まで式が続くことを意味する。

［単回帰式、重回帰式、回帰係数、Excelアドインツール　501 「拡張回帰分析プログラム」、Excelアドインツール　501 「拡張回帰分析プログラム」］

カイ自乗検定における自由度

一般に、ｍ行×l列の検定の自由度は、

　　

となる。

２行×３列の表の場合は、（２－１）（３－１）で、自由度は２となる。（掛け算の記号は省略している）

２行×３列の自由度が２となる詳しい説明は以下の通り。

				合計
	5	8	12	25
	10	20	18	48
合計	15	28	30	73

それぞれの合計値を基に、５と８の数字さえわかってしまえば、その他の１２、１０、２０、１８は無くても求めることができる、つまり合計値を基に、最低限必要なのは５と８（もちろん８と１２や１０と２０でも良い）の２個だけで充分、すなわち、自由度＝２というようになる。
別の言い方をするなら、自由度とは、情報の個数である。

［ｔ検定における自由度、データマイン君］

間隔尺度

数字の中で、日付・時刻（時間ではない）や気温、がこれにあたる。
５度は１０度の２分の１、２０度は１０度の２倍、というように比率を求めることに意味は無いが、「今日の最高気温は２８度で、昨日よりも６度高い。」というように、差を求めることに意味はある。数の大小にも意味を持つ。

［名義尺度、順序尺度、比例尺度］

記述統計学

データを要約して、そのデータの特徴を記述する統計（学）のこと。
データの要約とは、データについて、次のような値をもとめることである。
記述統計学に対して、「推測統計学」がある。

　・平均値、中央値、最頻値、標準偏差、最大値、最小値、範囲（レンジ）…など

［推測統計学、基本統計量、データの要約、平均値、中央値、最頻値、標準偏差］

基本統計量

データを要約するときに使用する種々の統計量｡平均値（単純平均、幾何平均、調和平均）中央値（メディアン）、最頻値（モード）、標準偏差などがある｡Excelでは分析ツールの基本統計量を選択すると、一度に求めることができる｡

［推測統計学、基本統計量、データの要約、平均値、中央値、最頻値、標準偏差］

近似曲線

折れ線グラフや散布図に追加する線｡追加することで、データの増減の傾向を見ることができる｡
Excelのグラフ機能でサポートしている曲線（直線）には、線形近似、対数近似、多項式近似、べき乗近似、指数近似、移動平均がある。
これらの遣い分け方は、データの傾向により使い分ける必要がある。
また、闇雲に当てはめればよいというものでもない。

クラスター分析

多変量解析手法の１つ。
フラットな表データをクラスター分析プログラムにかけることで、データ全体を４グループ・３グループ・２グループにグループ化することができる。
データマイニングで多用されている結果は、わかりやすい「デンドログラム（樹状図）」で表示させることが多い。
統計解析ソフトS-PLUSなどで実行することができる。

また、クラスター分析は他の多変量解析手法と連動して用いると良い。

例１）
クラスター分析でデータを３グループに分けたとして、更に判別分析を適用し、グループ化に貢献している説明変数の判別関数の係数を吟味することで、３グループの特徴が明確になることが多い。

例２）
双対尺度法（対応分析）の結果をクラスター分析にかけてグループ化を明確にすることもできる。

［多変量解析、データマイニング、グループ化、デンドログラム、Excel用アドインプログラム「クラスター分析プログラム」］

クロス表

分割表ともいう。属性の数により２重クロス表、３重クロス表、…がある。Excelでは、クロス表を求める場合、ピボット・テーブルを使う。クロス表のより高度な分析には、カイ自乗検定や双対尺度法などが有効である。

計画行列

実験の計画をあらわした表のこと。次のような表のことを「計画行列」と呼ぶ。

温度：	触媒：	生成量：
１０℃	金	３８０
２０℃	金	４２０
３０℃	金	３５０
１０℃	銅	４６０
２０℃	銅	４９０
３０℃	銅	４４０

このようなデータから、要因（この場合は「温度」と「触媒」）の違いにより生成量を求めるモデルをExcelで簡単に求めることができる。
なお、Excel用アドインツール「超らく解析」を利用すれば、Excelの手作業で行うような面倒な作業を省き、簡単に分析ができる。

［２元配置実験、３元配置実験、Excel用アドインプログラム「超らく解析プログラム」、Excel用アドインプログラム「影響度分析プログラム」］

工程能力指数

工程能力指数（CP）は、特に工業の品質管理でしばしば使用され、皇帝の維持管理改善に用いられている。
式は次のようになる。

●上側規格のみがある場合：

●下側規格のみが有る場合：

●両側に規格、がある場合：
（ａ）
（ｂ）
　　

【参考】

（１） Cp ≧ 1.33 （1.33以上）なら、工程能力は充分
（２） 1.33 ＞ Cp ≧ 1 （1以上1.33未満）なら、工程能力は良い
（３） Cp ＜ 1 （1未満）なら、工程能力は不足していると判断します。

最小自乗法

散布図の各マーカーから直線まで縦軸と平行に線を引く。この線分（誤差・残差）を自乗すると正方形の面積になる。正方形の面積の和が最小になるように、回帰式のａとｂを決定する方法。
線分の長さを最小にするよりも数学的に扱いやすいため、この方法が採られている。（平均すると０に近くなり、自乗することで全ての差が正の値になる）

最適な回帰モデル

説明変数の中で、本当にｙに対して効いているもので、過不足なく回帰モデルを構成することがポイントである。ケチの原理といって、出来るだけ少ない説明変数で回帰モデルを作るべきである。
最適な回帰モデルを求めてから、予測と要因分析を行う｡

[Excelアドインツール　50B 「最適な回帰モデル」]

最適な回帰モデル作成法

EXCELの回帰分析ツールを用いて、説明変数減少法により、最適な回帰モデルを求める。
まず、すべてのアイテムを用いて回帰分析を実行し、P-値（危険率）が最大な説明変数を減らして、再度、回帰分析を実行する｡アイテムが一つになるまで繰り返す。モデルの候補の中で、説明変数選択規準が最大のものを最適なモデルとする。

上田の規準：

×(データ数＋説明変数の個数+1)／(データ数－説明変数の個数－１)
R: 重相関係数

［Excelアドインツール　50B 「最適な回帰モデル」、重相関係数］

最頻値（モード）

最頻値とはファッションモードのモードと同じように、最も多い数字のこと。4,6,8,8,8,9,9,10,11,13の最頻値は８。
Excelでは、MODE関数で簡単に求められる。しかしこのMODE関数では、最頻値が２つ以上存在していても、１つしか表示されないので注意が必要。

３元配置実験計画

実験計画法の１種で、要因（因子）が３つの場合の時を指す。

【例】　＊（　）内はそれぞれ水準を指す。

要因：
　温度（１０℃、２０℃、３０℃）
　触媒（金、銅）
　気圧（１気圧、２気圧）

これらの要因・水準の組み合わせを基に、生成量の違いはどれだけになるかを探る実験を行う。
このような要因に基づく実験の場合、３水準×２水準×２水準＝１２回の実験を行うことになる。
この時得られる生成量のことを特性値と呼ぶ。
特性値の増減にどの要因（温度・触媒）が効いているかを調べるのが、実験計画法の大きな目的である。

［２元配置実験、計画行列、Excelアドインツール　50A 「超らく解析プログラム」、Excelアドインツール　510 「影響度分析プログラム」］

散布図

対になったデータを横軸、縦軸で平面上にプロットしたグラフで、データの様子を捉えるには極めて有効である。対になったデータを解析するには、まず、散布図を描くとよい。外れ値などを見つけることができる。
原因となるようなものを横軸になるように作成する｡

［Excelアドインツール　207 「カラー散布図作成プログラム」］

シグマ　Sigma （Σ、σ）

ギリシャ文字で１８番目の文字。
大文字は「Σ」
小文字は「σ」

大文字のΣは、データの総和（すべて足し算する）を表す。

ちなみに、このような記号を専門書で見かけるが、これは、１番目のデータxの値から１つずつ順番に最後のデータxまでの値をすべて足し算する、という意味。つまりデータの合計値（ExcelではSUM関数）を意味する。

　
ちなみにこれは、上記の合計値をデータ数で割り算したもの。平均値（相加平均、ExcelではAVERAGE関数）を表す。

小文字のσは、標準偏差（Standard Deviation）を表す記号として、よく使用されている。

［総和（合計）、標準偏差、偏差、自由度］

実験計画法

「要因計画法」とも呼ぶ。注目するデータ（生成量・不良率など）の増減に影響を及ぼすと考えられる要因（「因子」とも呼ぶ）と水準（それぞれの要因の条件を指す）を採り上げ、水準をいろいろ変化させ実験を実施する。
得られたデータ（特性値）に要因がどのように効いているかを調べ、また要因ごとの水準がどのような組み合わせの時に特性値が最大（または最小）となるかを調べる。
解析には分散分析法が一般に使用されるが、回帰分析でも解析可能であることが重要なポイントである。Excelでも充分解析できる。

［要因計画法、特性値、要因、因子、水準、分散分析、回帰分析、Excelアドインツール　50A 「超らく解析プログラム」、Excelアドインツール　510 「影響度分析プログラム」］

重回帰式

y=a+b1x1+b2x2+b3x3…bkxkの式のこと。aをｙ切片、b を回帰係数という。最小自乗法を用いてを求める。 xを説明変数、ｙを被説明変数という。複数の説明変数でｙを表わす式である。回帰式、回帰モデルとも呼ぶ。 xが１つのときが単回帰式である。回帰モデルは予測と要因分析に用いる。

重相関係数

重回帰式の良さを示す指標で、０と１の間の値をとる。一般には１に近いほど良い回帰式である。
Excelの回帰分析実行結果の解説は、この書籍も役に立つ。
「Excelでできるかんたんデータマイニング入門」（同友館・刊行）

[最適な回帰モデル]

順序尺度

成績などの順位や、アンケートなどでよく見かける、次のような数字が順序尺度にあたる。

● 当店をご利用になった感想をお聞かせ下さい。

　Ｑ１：　従業員の接客態度　＝　５．大変満足　　４．満足　　３．普通　　２．やや不満　　１．大変不満

[名義尺度、間隔尺度、比例尺度]

推測統計学

標本（サンプル）データから、母集団の統計量（平均値、標準偏差など）を推測する統計学。
これに対して、「記述統計学」がある。

［標本（サンプル）、母集団、記述統計学］

ステレオグラム

Excelでは、グラフウィザードの「３－D（スリーディー）縦棒グラフ」のこと。2つの属性の項目に関連があるか、あるいは違いがあるかを視覚的につかむのに適している。
クロス表をグラフ化するにはこのステレオグラムがよい。
次のようなタイプ別良品・不良品のデータをステレオグラムで作成すると、以下のようになる。

数量化理論Ⅰ類

林知己夫博士が提案した統計手法。ダミー変数を用いた回帰分析モデルであることがわかっている。Y（回帰モデルの被説明変数のこと）を外的基準という。外的基準をアイテム・カテゴリデータ（ダミー変数のこと）で表現し、回帰係数に相当するカテゴリ・スコアを求める。カテゴリ・スコアは定性的な情報を数量化したものである。

[ダミー変数、Excelアドインツール　50A 「超らく解析プログラム」、Excelアドインツール　510 「影響度分析プログラム」］

数量化理論II類

林知己夫博士が提案した統計手法。外的基準が定性的で２グループのときはダミー変数を用いた回帰分析モデルであることがわかっている。y（回帰モデルの被説明変数のこと）を外的基準という。外的基準をアイテム・カテゴリデータ（ダミー変数のこと）で表現し、回帰係数に相当するカテゴリ・スコアを求める。カテゴリ・スコアは定性的な情報を数量化したものである。

[ダミー変数、Excelアドインツール　50A 「超らく解析プログラム」、Excelアドインツール　510 「影響度分析プログラム」］

説明変数選択規準

重回帰分析において、最適な回帰モデルを求めるための説明変数選択規準として、以下のようなものがある。

●AIC （赤池の情報量規準）：　各モデルの中で、この値が「最小」となるモデルを、最適なモデルとする。

●TIC　（竹内の情報量規準）：　各モデルの中で、この値が「最小」となるモデルを、最適なモデルとする。

●芳賀・奥野・竹内の規準：　各モデルの中で、この値が「最大」となるモデルを、最適なモデルとする。

●佐和の規準：　各モデルの中で、この値が「最大」となるモデルを、最適なモデルとする。

● 自由度調整済決定係数：　各モデルの中で、この値が「最大」となるモデルを、最適なモデルとする。
　　（Excelの分析ツール「回帰分析」の出力結果で表示される「補正R2」にあたる）

［回帰分析、重相関係数、説明変数、Excelアドインツール　50B 「最適な回帰モデル」］

相関の有無のｔ検定（無相関の検定）

は自由度のｔ分布に従う

上記のことがわかっているので、データから相関係数ｒを求め、このｒの値と、データ数ｎから、ｔを計算した値をとする。

　　
という式が成り立てば、相関があると判定する。

［相関の有無を判定する簡便法、相関係数、自由度、ｔ分布］

相関の有無を判定する簡便法

次の式が成り立つと相関があると判定する。

この式でｒは相関係数のこと。
相関係数が0.73でデータ数が15個の場合、式に当てはめると、0.73の二乗が0.53で、４/17の0.24より大きいので、統計的に相関があると判定する｡

［相関、相関の有無のｔ検定］

相関係数

ある量とある量との線形な関係度を表わす指標で－１と１の間の値をとる。１に近いときは強い相関があるといい、－１に近いときは負の強い相関があるという。単回帰式の良さの指標でもある。
ｘが増えるとｙも増えていくというような関係を正の相関関係があるといい、ｘが増えるとｙが減っていくような関係は負の相関関係、どちらの傾向もみられないような場合は、無相関という。
相関係数ｒは次の式で求める。

Excelでは統計関数CORRELを使うか、Excelのアドイン「分析ツール」の中の「相関」機能で簡単に求めることができる。

［相関の有無を判定する簡便法、相関の有無のｔ検定、相関係数、自由度、ｔ分布］

● CORREL関数で求める場合：

●分析ツールで求める場合：

［Excelアドインツール　201a 「相関クモの巣グラフ」］

ソルバー

ソルバーとは、解決するツール。問題を解く（Solve）ツールという意味。
数理計画法のツールである、制約された条件の下に、例えばコストを最小にするためには各変数（項目）をいくらにすれば良いかを自動的に求めることができる。
輸送問題・栄養学の問題・最適人員配置問題などを解くことができる。

参考文献はこれがお勧め：
　　苅田、上田、中西「Excelでできる　最適化の実践らくらく読本」（同友館・刊）

［最適化問題、成長曲線］

代表値

集められたデータはいくつかの数値に要約することができ、この要約に用いられるものが基本統計量と呼ばれる。
分布全体を１つの数値で示すために考えられた統計量のことを、代表値と呼ぶ。
代表値には、次のような種類がある。

・平均値＝単純（相加）平均、幾何（相乗）平均、調和平均
・中央値（中関数、中位数、メディアン）
・最頻値　など。

［単純平均、幾何平均、調和平均、中央値、最頻値］

タグチメソッド　　Taguchi Method

品質工学とも呼ぶ。田口玄一博士が半世紀かけて開発した画期的な工学手法。
ばらつきを少なくすることがポイント。ばらつきをSN比であらわし、SN比が大きくなる（ばらつきが小さくなる）ように制御因子の水準を決定する。開発設計段階で適用すべき手法である。

［品質工学、SN比、制御因子、直交表］

多元配置実験計画（たげんはいちじっけんけいかく）

実験計画法（「要因計画法」とも呼ぶ）の中で、要因（因子）が２個の時を、２元配置実験計画、３個の時を、３弦配置実験計画と呼ぶ。■要因の時は「■元配置実験計画」となり、これらを一般的に「多元配置実験計画」と呼ぶ。

［実験計画法、要因計画法、２元配置実験計画、３弦配置実験計画、要因、因子、計画行列］

ダミー変数

｛好き、嫌い｝、｛男、女｝など定性的な情報を0,1データであらわして、回帰式を求めることができる。この０，１データのことをダミー変数という。数量化理論１類はダミー変数を用いた回帰モデルである。

単回帰式

ｙ＝ａ＋ｂｘの式のこと。aをｙ切片、ｂを傾きあるいは回帰係数といい、xでｙを表わす一次式である。ｘを説明変数、ｙを被説明変数という。最小自乗法を用いてａ，ｂを求める。
単とは説明する変数ｘが１個であるからである。（複数個のときは重回帰式という。）
ちなみに、ｙ切片とは、ｘが０の時のｙの値を表す。（「定数項」とも呼ぶ）

縦棒グラフ

データを比較するのに最適なグラフ｡
Excelでは、一般に表の左または上から、順番に棒グラフで表されるので、表データとグラフとで表示順序を変えたい場合は、表データとは別に、グラフ作成用の表を作ることがお勧めである。

中央値（メディアン）

データを小さい順にならべたとき、ちょうど真ん中（中央）にある値のこと。データが偶数個のときは、中央の２つの平均値が中央値である。
平均は極端に小さい値や極端に大きな値が変化すると影響されるが、中央値は影響されないのが特徴。データが正規分布の場合は、平均値＝中央値になる。
Excelでは統計関数MEDIANで求めることができる｡
なお、平均値だけではなく、中央値や最頻値も求めるべきということもあるが、やはり分布や層別の傾向の違いを探る・比較することにはかなわない。

[代表値]

直交表

要因（因子）と水準を効率よく割り付けられるように作られた表のこと。
２水準系（各要因につき水準が２つずつある）：　Ｌ_４、Ｌ_８、Ｌ_１６、Ｌ_３２、Ｌ_６４
３水準系（各要因につき水準が３つずつある）：　Ｌ_９、Ｌ_２７、Ｌ_８１
タグチメソッド系：　Ｌ_１２、Ｌ_１８、Ｌ_３６
などがある。
列同士が直交しているところに特徴がある。計画行列そのものである。

［実験計画法、計画行列、タグチメソッド、直交表作成プログラム、ダミー変数、Excelアドインツール　50A 「超らく解析プログラム」、Excelアドインツール　510 「影響度分析プログラム」］]

データウェアハウス

データの倉庫のこと。通常は膨大な（ギガバイト、テラバイト級）データを入れる。データマイニングとデータウェアハウスはペアで使われる。著名な商品にEss Base、Red Brick、DIAPRISMなどがある。

データ工学

統計学、データマイニング、タグチメソッド、人間工学、感性工学など周辺関連手法・工学を駆使してデータ解析し、有効な知見や知識などを求める工学手法のこと。

１）有効なデータを作る手法
２）データを解析して知見などを得る手法
がある。

　（１）予測
　（２）要因分析
　（３）制御

などに資することを目的とする。
基本的なコンセプトは、次のＡＢＣの法則である。

　Ａ（アナロジー＝ Analogy）
　Ｂ（バウンダリー＝ Boundary）
　Ｃ（コンビネーション＝ Combination）

上田提唱：データ工学は料理に例えると、いかに食材（データ）を見つけ作るか、そしていかにして料理をしておいしいものを作るかである。

データマイニング

データマイニングとは通常膨大なデータをマイニング（採掘）して宝物（情報・知見・知識・課題・仮説など）を見つける手法・プロセスのこと。代表的な手法には統計、ニューラルネット、パターン認識などがある。データマイニングツールのことをシフトウェアと呼んでいる。

尖度（せんど、とがりど）

尖度はデータの分布を描いたときどのくらい尖っているのかを示す統計量のこと。

上述の式は定義式で、Excelの場合の計算式は次のようになる。

Excelでは、KURT関数で求められる。

ノン・パラメトリックな検定

例えば、ｔ検定は、母集団が正規分布に従うことがわかっている時に使うことができるが、その反対に母集団の分布に制限無く使うことができる検定を、ノン･パラメトリックな検定と呼ぶ。

［パラメトリックな検定、母集団、正規分布］

２元配置実験計画

実験計画法の１種で、要因（因子）が２つの場合の時を指す。

【例】　＊（　）内はそれぞれ水準を指す。

要因：
　温度（１０℃、２０℃、３０℃）
　触媒（金、銅）

これらの要因・水準の組み合わせを基に、生成量の違いはどれだけになるかを探る実験を行う。
このような要因に基づく実験の場合、３水準×２水準＝６回の実験を行うことになる。
この時得られる生成量のことを特性値と呼ぶ。
特性値の増減にどの要因（温度・触媒）が効いているかを調べるのが、実験計画法の大きな目的である。

［３元配置実験、計画行列］

外れ値

数値データのなかで、極端に大きな、あるいは小さな値をとるデータのこと。異常値、例外値、特異点ともいう。シフトウェアを用いて外れ値をみつけ、原因を追求することで知見が得られることがある。データマイニングらしい手法の１つ。
また、３σで求めることもできる。

[データマイン君]

ばらつき

データのちらばり具合をばらつきという。ばらつきを表わす統計量には、標準偏差、レンジ（範囲）がある。

[基本統計量]

パラメトリックな検定

母集団の分布が正規分布などに従うものとしてその分布のパラメータ（平均値、標準誤差）の知識を使う検定のこと。

［母集団、正規分布、平均値、標準誤差］

パレート図

縦棒グラフと折れ線グラフを組み合わせた複合グラフのこと。
重要な項目は何かを見極めるのに適している。複数の項目の中から影響度の高いものをみつけることができるため、その対策をとっていくことができる。
また、影響度の高い項目が、全体の何割を占めているかということが視覚的に分かるのがパレート図の特徴｡
不良データをパレート図にすると、以下のようになる｡パレート図作成には、降順（大きい順）で並べ替えた個数データと、その個数の累積比率が必要｡

販売管理ソフトや会計ソフトなど、基幹業務系ソフトでは、ABC分析ができる機能を有しているものもある。

ヒストグラム

ある数値からある数値までの間にデータがいくつあるのかを表わす棒グラフ。データの分布の形を見るのに適している｡また、データ全体の特徴をとらえるのに使用する。

ピボットテーブル（Excel)

Excelで表データから、２重クロス表や３重クロス表を自在に作成できる機能などがある。
行列を自由に入れ替えることができるので、さまざまな角度からの分析ができる。

１）表データを用意する
２）ピボットテーブル（メニューバー「データ」→「ピボットテーブルとピボットグラフレポート(P)」を選択）
３）画面表示・該当する範囲指定等を行う
４）作成したいクロス表の形になるよう、項目を選択する
５）完成例：　→ example_031.xls　（約25KB）

性別：	au	docomo	総計
女	21	28	49
男	28	23	51
総計	49	51	100

また、出力されたピボットテーブルの、例えば２１のセルをダブルクリックすると、女性でauを所有する２１人の詳細データが別シートに表示される。
ここで作成された「クロス表」は、ほかに「分割表」とも呼ぶ。

［クロス表（分割表）、ダブルクリック、カイ自乗検定］

標準化　（基準化）

（データの）基準化とも呼ばれる。
データの標準化の方法の１つとして、次のような方法がある。
複数のデータ（データ行数が２以上のことではない）について、比較・検討しやすいように、尺度を変換する方法のこと。
平均（単純平均）は必ず０、標準偏差は必ず１となるようにするのが、標準化である。

標準化の方法は次の通りである。

１）No.１～No.１０までの１０個のデータがある。
　　この１０個のデータの平均値(Excelでは、AVERAGE関数)を求める。

２）１０個のデータの標準偏差を求める。(Excelでは、STDEV関数）

３）まずNo.１のデータについて、次の計算をして、標準化させた値を求める。

　　（［No.1の値］－［１０個の平均］）÷［１０個の標準偏差］

４）　３）の計算をNo.２からNo.１０についても行う。

５）全ての標準化させた値の平均値は０になり、どの項目においても、同じ
　　レベルの数値になる。

[標準偏差、（単純）平均、Excelアドインツール　209 「標準化プログラム」]

標本

東京都に住む２０代女性の、携帯電話所有率を調べる場合、２０代女性の全員のことを母集団と呼ぶ。
現実的には、２０代女性全員を調査して所有率を求めるのは不可能である。そこで、ランダムに５００人を抽出した場合、この５００人が標本（サンプル）数となる。

５００人の回答結果から、母集団の所有率を求めることを推定と呼ぶ。このような統計学のことを、推測統計学と呼ぶ。

「母集団」も参照のこと。

［アンケート調査、サンプルサイズ、母集団、標本数、推測統計学］

標本サイズの決定法

アンケートの調査などで、標本サイズ（サンプルサイズ）をいくつにすれば良いかが問題になる。
標本サイズを決定する簡便法として、次のような式で求められる。

ｅは誤差（％）である。
ｅを５％とすると、

　→　

　　つまり、データ数は最低でも４００あれば良いことになる。
eを１％だとすると、この要領で計算して、データ数は最低１００００あれば良いことがわかる。

［アンケート調査、サンプルサイズ、母集団、標本数］

標準偏差　（Standard Deviation）

標準偏差はばらつきを表わす統計量である。
統計的な対象となる値がその平均からどれだけ広い範囲に分布しているかを計量したもの。
標準偏差σ（シグマ）を求める式は以下の通り。

　◆自由度ｎ－１で割り算していることに注意。

わかりやすく説明すると次のようになる。

１）データが８個あるとする。（1、3、4、6、7、9、11、15）このデータの合計を求める。（ExcelではSUM関数）
２）１のデータの平均値（相加平均）を求める。（ExcelではAVERAGE関数）　この場合の平均値は７。
３）１番目から８番目のデータについて、それぞれデータの値から２で求めた平均値を引き算する。（この値を「偏差」と呼ぶ）
　　１番目のデータの場合は、１－７＝－６。２番目のデータの場合は、３－７＝－４…という要領になる。
４）３で求めた値をそれぞれ２乗したものを合計する。この場合は１４６。（この合計した値を「偏差平方和」と呼ぶ）
５）４で求められた値を「データ数－１」で割り算する（この値を不偏分散」と呼ぶ）この場合は、２０．８５７…。
６）５で求められた値の平方根を求めると、標準偏差が求められる。（答えは４．５６７）

Excelでは統計関数STDEVで簡単に求めることができる｡

［分散、不偏分散、相加平均、偏差平方和、基本統計量］

比例尺度

一般に、数量データ、量的データと呼ばれる。
数の大小にも意味があり、比（当月の月商３００万円は前月比の２倍）や、差（前年と比べて年商が２０００万円多い）を求めることにも意味を持ち、０は、その数が無いことを示す。（売上が無かった、時間の０はその時間が無かったことを示し、気温の０度などとは意味が異なる）

[間隔尺度、名義尺度、順序尺度]

品質工学

「タグチメソッド」を参照のこと

分析ツール（Excel）、データ分析ツール

Excelでサポートされている統計分析機能。
基本統計量・ヒストグラム・相関係数行列・分散共分散行列・回帰分析など、１９種類サポートしている。（Microsoft Windows版Excel XPの場合）

なお、Excel97は、メニューバーの「ツール」メニューを展開することで、「分析ツール」メニューが表示されるが、それ以降のバージョンの場合で、メニューが表示されない場合は、次のような方法で、分析ツールを使えるようにアドインを追加する必要がある。（CD-ROMに標準収録）

→→　「分析ツールを使えるようにする」
　　　　（bun_tool.pdf　約56KB　PDF形式)

［ヒストグラム、回帰分析］

平均値　Mean, Average

平均には通常私たちが使っている相加平均（単純平均）と相乗平均（幾何平均）、調和平均がある。
相加平均（単純平均）はｎ個のデータをすべて加えて、ｎで割って求めることができる｡Excelでは統計関数AVERAGEを使用して求められる｡
相乗平均（幾何平均）は、ｎ個のデータをすべて掛け、その1/ｎ乗で求めることができる｡Excelでは統計関数GEOMEANを使用して求められる｡

よく経済成長率などに用いられる。

１９９８年　１００万円
１９９９年　２００万円（前年の２倍）
２０００年　６００万円（前年の３倍）
２００１年　１，８００万円（前年の３倍）

の売上高だったとすると過去３年間の平均伸び率は　２＋３＋３の３分の１で２．６６７倍ではない。

１００万円×２．６６７×２．６６７×２．６６７＝１，８９７万円と実際の売上高と異なるので、この計算が誤りだということがわかる。
正しくは、幾何平均を用い、正解は２．６２０７倍となる。
負の値や０が含まれていると求まらない。「▲５％」の場合は0.95のように数値を置き換えれば求めることができる。

調和平均は、逆数の算術平均(相加平均)に対する逆数として定義されている。Excelでは統計関数HERMEANを使用して求められる｡

３００ｋｍの距離を行きは時速６０ｋｍで、帰りは５０ｋｍで来たとすると、往復の平均時速は、（６０＋５０）÷２で５５ｋｍではない。
行きの所要時間は５時間、帰りの所要時間は６時間かかっているので、往復６００ｋｍの道のりを１１時間かかってきたことになる。
６００÷１１＝５４．５ｋｍとも考えることができるが、調和平均を使えば、もっと簡単に求められる。

相加平均、相乗平均、調和平均の間には次のような関係が成立する。
相加平均≧相乗平均≧調和平均

［代表値、基本統計量］

偏差値　Deviation Score

常に、平均点を５０、標準偏差を１０となるように、正規分布の形になるようにしたもの。
あるテストを実施して、その際の点数に対する偏差値は次のような式で求められる。

１）全体の平均値（単純平均）を求める。
２）全体の標準偏差を求める。
３）得点から平均値を引き算して１０倍したものを標準偏差で割り算する。
４）それに５０を足し算する。

例：５人の受験者の得点が、上から８０、７０，５０，４０，３０だとすると、平均値が５４、標準偏差が２０．７４。
上記の式に当てはめて計算すると、上から、６３、５８、４８、４３、３８と求められる

［平均値、単純平均、標準偏差］

母集団

東京都に住む２０代女性の、携帯電話所有率を調べる場合、２０代女性の全員のことを母集団と呼ぶ。
また、２０代女性全員を調べて所有率を求めるのが「記述統計学」である。

「標本」を参照のこと。

［記述統計学、推測統計学、標本］

母数と統計量

「母数」のことをパラメータ（Parameter）とも呼ぶ。母集団分布の様子を表す数値のこと。
例えば、母集団分布の中心位置を表す母数は、母平均μ（ミュー）、バラツキを表す母数としては、シグマ（σ）と呼ぶ。

これらμ、σは通常未知であるが、そこで、母集団からランダムに（等しい確率で）データを抽出し、μ、σを求めるのである。これが推定となる。

μの推定値を求める式：

（「ミューハット」と読む。μの推定値を意味する）

σの推定値を求める式：

（「シグマハット」と読む。σの推定値を意味する）

これら、データから求めるやを統計量と呼ぶ。
は「エックスバー｣と読み、標本平均のこと。
は標本標準偏差のこと。

マルチコ／多重共線性　(Multi-collinearity)

重回帰分析のデータで、説明変数同士に極端に強い相関がある（見せ掛けの相関、擬似相関など）などの場合に起こり、予測や要因分析の判断を誤る恐れがある。
重回帰分析の場合、説明変数同士の相関の強さを確認することも必要で、これを解決する最も簡単な方法は、相関係数の高い説明変数のうちいずれかを分析用データから取り除いて、分析しなおすなどの方法がある。

マーケティングデータ分析などの場合では、「マルチコ」と略して呼ばれる。

名義尺度

Ｑ：あなたの血液型は？

　　　Ａ：　（１）Ａ型　　（２）Ｂ型　　（３）Ｏ型　　（４）ＡＢ型

このような場合に使われる数字や、社員番号、電話番号などがこれにあたる。

また、上のような血液型のデータの場合、カテゴリーデータとして扱うことができる。
標準偏差や平均値、重回帰分析などの統計手法を用いるのは、結果が得られるが、まったく無意味である。

[間隔尺度、順序尺度、比例尺度]

歪度（わいど、ゆがみど）

歪度とはデータの分布を描いたとき、左右対称からみてどのくらい歪んでいるかを示す統計量のこと。

　　正規分布　　　　　　　　　ピークが左　　　　　　　　　ピークが右

上述の式は定義式で、Excelなどの計算根拠は次のようになる。

n: データ数
m: 平均値
Excelでは、SKEW関数で求められる。

[基本統計量、尖度]

要因計画法

「実験計画法」を参照のこと

レンジ（範囲）

ばらつきを表わす統計量で、最大値－最小値のこと。
Excelでは統計関数MAX（最大値を求める）と統計関数MIN（最小値を求める）の差からレンジを求めることができる｡

[基本統計量]

ロジット変換

次のような変換をすることを、ロジット変換と呼ぶ。

……式１

の値を「ロジット」と呼ぶ。

を「オッズ」と呼ぶ。

は「自然対数」。

●式１の

について解く：

これを「ロジット変換の逆変換」と呼ぶ。

ｙ切片（せっぺん）

回帰式の中で、が０の時のの値のことを、ｙ切片と呼ぶ。Excelの分析ツール「回帰分析」の出力結果では、「切片」と表示しているのが、これにあたる。「定数項」（じょうすうこう）とも呼ぶ。

【参考】

単回帰式：　
　

重回帰式：　
　
ｋは説明変数の個数を示す。説明変数の個数まで式が続くことを意味する。

［単回帰式、重回帰式、回帰係数］

統計用語集

分析手法一覧へ

ニューラルネット用語（日英対訳）へ