統計学

2024年2月3日

増加率

増加率とは、あるものがどれだけ増えたかをパーセントで表したものです。例えば、あるクラスの生徒が去年は20人だったのに、今年は25人に増えたとします。増加率を求めるには、増えた分を元の数で割り、100を掛けます。

増加率の計算方法は以下の通りです。

１．まず、増えた分を計算します。今年の生徒数（25人）から去年の生徒数（20人）を引きます。すると、5人増えたことになります。

２．次に、増えた分（5人）を去年の生徒数（20人）で割ります。すると、0.25になります。

３．最後に、その数に100を掛けてパーセントに変換します。0.25に100を掛けると、25%になります。

つまり、生徒数は25%増えたということになります。

散布図

散布図とは、2つのデータの関係性を見るためのグラフです。

例えば、クラスの生徒たちの身長と体重の関係を見たいときに使います。

散布図の作り方は以下の通りです。

１．まず、グラフの縦軸と横軸を決めます。この例では、縦軸に体重、横軸に身長を置きます。

２．次に、各生徒の身長と体重をプロット（点を打つ）します。例えば、ある生徒が身長150cm、体重40kgだったら、横軸の150cmと縦軸の40kgが交わるところに点を打ちます。

３．すべての生徒のデータをプロットしたら、散布図が完成です。

散布図を見ると、身長が高い生徒は体重も重い傾向があるか、または逆か、あるいは全く関係がないかがわかります。

ヒストグラム

ヒストグラムとは、データの分布を視覚的に理解するためのグラフです。

例えば、クラスの生徒たちのテストの点数の分布を見たいときに使います。

ヒストグラムの作り方は以下の通りです。

１．まず、点数の範囲をいくつかの区間（ビンと呼ばれます）に分けます。例えば、0-10点、10-20点、20-30点、…といったように。

２．次に、各区間に該当する生徒の数を数えます。例えば、0-10点の生徒が3人、10-20点の生徒が5人、といったように。

３．最後に、縦軸に生徒の数、横軸に点数の区間を取り、各区間の生徒の数に対応する高さの棒を描きます。

ヒストグラムを見ると、どの点数帯に多くの生徒がいるのか、点数の分布がどのようになっているのかが一目でわかります。

中央値

中央値とは、データを小さい順に並べたときにちょうど真ん中に来る数値のことを指します。

例えば、クラスのテストの点数が次の場合は以下となります。

10点、20点、30点、40点、50点

この場合、中央値は30点になります。なぜなら、30点は小さい順に並べたときにちょうど真ん中に来るからです。

もしデータの数が偶数であれば、真ん中の2つの数の平均が中央値になります。例えば、次のような点数があったとします。

10点、20点、30点、40点

この場合、中央値は20点と30点の平均、つまり25点になります。

分散

分散とは、データが平均からどれだけばらついているかを数値で表したものです。

例えば、クラスのテストの点数が次の場合は以下となります。

10点、20点、30点、40点、50点

この場合、平均点は30点になります。そして、各生徒の点数が平均からどれだけ離れているかを計算します。
これを「偏差」といいます。

偏差の計算方法は以下の通りです。

１．まず、各生徒の点数から平均点を引きます。例えば、50点の生徒の偏差は50点 – 30点 = 20点になります。

２．次に、偏差の二乗を計算します。上の例では、20点の二乗、つまり400になります。

３．最後に、すべての生徒の偏差の二乗の平均を計算します。これが分散になります。

分散が大きければ大きいほど、生徒たちの点数は平均から大きくばらついていることを示します。逆に、分散が小さければ小さいほど、生徒たちの点数は平均に近く、ばらつきが少ないことを示します。

標準偏差

標準偏差とは、データが平均からどれだけばらついているかを数値で表したものです。これは分散の平方根として計算されます。

分散がデータのばらつきを示すものであると説明しましたが、分散は元のデータとは異なる単位（例えば、長さのデータなら長さの二乗）で表されます。そのため、元のデータと同じ単位でばらつきを表したいときには、分散の平方根、つまり標準偏差を使います。

偏差の計算方法は以下の通りです。
例えば、クラスのテストの点数が次のようになっているとします。

10点、20点、30点、40点、50点

この場合、平均点は30点、分散は200（詳しい計算方法は省略します）になります。そして、標準偏差は分散の平方根、つまり約14.14点になります。

相関

相関とは、2つのデータがどれだけ関連しているかを示す指標のことを指します。

例えば、クラスの生徒たちの身長と体重がどれだけ関連しているかを見たいときに使います。

相関の強さは、-1から1までの値で表されます。1に近ければ近いほど、2つのデータは強く正の関連があり（一方が増えるともう一方も増える）、-1に近ければ近いほど、2つのデータは強く負の関連があり（一方が増えるともう一方は減る）と言えます。0の場合、2つのデータには関連性がないと言えます。

例えば、身長と体重の場合、一般的には身長が高い人ほど体重も重い傾向があるため、正の相関があります。

外れ値

外れ値とは、他のデータから大きく離れたデータのことを指します。

例えば、クラスのテストの点数が次の場合は以下となります。

10点、20点、30点、40点、100点

この場合、100点は他の点数から大きく離れているため、外れ値と言えます。

外れ値は、データの分析に影響を与える可能性があります。例えば、平均点を計算するとき、外れ値があると平均点が大きく変わることがあります。そのため、データ分析を行う際には外れ値を適切に扱うことが重要です。

回帰分析

回帰分析とは、あるデータ（目的変数）が他のデータ（説明変数）にどのように影響を受けるかを調べる方法のことを指します。

例えば、クラスの生徒たちの勉強時間とテストの点数の関係は以下となります。

この場合、テストの点数が目的変数、勉強時間が説明変数になります。そして、勉強時間が長いほどテストの点数が高くなるという関係があるとします。

回帰分析では、この関係を数式（回帰式）で表します。例えば、「テストの点数 = 勉強時間 * 2 + 10」という回帰式が得られたとすると、これは「勉強時間が1時間増えると、テストの点数が2点上がる」という意味になります。

移動平均

移動平均とは、一定の期間ごとに平均を取り直す方法のことを指します。

例えば、あるクラスのテストの点数が次の場合は以下となります。

1回目：10点、2回目：20点、3回目：30点、4回目：40点、5回目：50点
この場合、3回分の移動平均を求めるには以下の手順を踏みます：

１．まず、最初の3回のテストの平均点を計算します。これは(10点 + 20点 + 30点) ÷ 3 = 20点になります。

２．次に、2回目から4回目のテストの平均点を計算します。これは(20点 + 30点 + 40点) ÷ 3 = 30点になります。

３．最後に、3回目から5回目のテストの平均点を計算します。これは(30点 + 40点 + 50点) ÷ 3 = 40点になります。

このように、一定の期間（この場合は3回）ごとに平均を取り直すことで、データの中心傾向が時間とともにどのように変化しているかを見ることができます。

期待値

期待値とは、ある事象が起こる確率とその事象がもたらす結果を掛け合わせたものの合計のことを指します。

例えば、サイコロを投げて出る目の期待値の場合は以下となります。

サイコロの目は1から6まであり、それぞれの目が出る確率は1/6です。

そして、それぞれの目が出たときの「結果」はその目の数そのものです。
したがって、期待値は以下のように計算できます。

(1/6) * 1 + (1/6) * 2 + (1/6) * 3 + (1/6) * 4 + (1/6) * 5 + (1/6) * 6 = 3.5

つまり、サイコロを投げたときの期待値は3.5となります。これは「平均的には3.5の目が出る」という意味です。

重みづけ

重みづけとは、あるデータが他のデータよりも重要だと考えられるときに、そのデータに「重み」をつけることを指します。

例えば、クラスのテストの点数が次のようになっている場合は以下となります。

数学：80点、英語：70点、社会：90点
ただし、このクラスでは数学が一番重要な科目だとされているとします。そのため、数学の点数には2倍の重みをつけることにします。すると、重みづけ後の点数は以下のようになります：

数学：80点 * 2 = 160点、英語：70点、社会：90点
そして、これらの点数の平均を取るときには、重みづけ後の点数を使います。これにより、数学の点数が平均点に大きな影響を与えるようになります。

損益分岐点

損益分岐点とは、ビジネスで利益が出始める売上のポイントのことを指します。例えば、あるお店が商品を作るのに費用がかかるとします。これを「固定費」といいます。そして、商品を1つ売るたびに得られる利益を「単位あたりの利益」といいます。

損益分岐点は、固定費を単位あたりの利益で割ったものになります。これは「何個商品を売れば、固定費を回収して利益が出始めるか」を示しています。

例えば、固定費が3000円、単位あたりの利益が100円だとすると、損益分岐点は3000円 ÷ 100円 = 30個になります。

つまり、商品を30個売れば、固定費を回収して利益が出始めるということになります。

限界利益

限界利益とは、1つ追加の商品を売ったときに得られる利益のことを指します。

例えば、あるお店がアイスクリームを売っている場合はは以下の通りです。

このお店では、アイスクリームを1つ作るのに材料費が100円かかり、それを200円で売っています。つまり、1つのアイスクリームを売ると、お店は200円 – 100円 = 100円の利益を得ます。これが限界利益です。

しかし、アイスクリームをたくさん作っても、すべて売れるとは限りません。売れ残ったアイスクリームは損失になります。だから、お店は限界利益と損失のバランスを考えながら、どれだけのアイスクリームを作るかを決めます。

幾何分布

幾何分布とは、成功するまでに必要な試行回数を表す確率分布のことを指します。

例えば、コインを投げて表が出るまでに何回投げる必要があるかの場合は以下の通りです。

コインを1回投げると、表が出る確率は1/2です。しかし、最初に裏が出て、2回目に初めて表が出る場合もあります。このとき、2回目までに表が出る確率は1/2 * 1/2 = 1/4になります。同様に、3回目、4回目、と続けていくと、表が出るまでに必要な試行回数の確率を計算することができます。

二項分布

二項分布とは、成功と失敗の2つの結果がある試行を何回も繰り返したとき、成功する回数の確率を表すものです。
例えば、コインを10回投げて、表が何回出るかの場合はは以下の通りです。

コインを1回投げると、表が出る確率は1/2です。これを10回繰り返すと、表が0回から10回まで出る可能性があります。それぞれの場合の確率を計算すると、二項分布が得られます。

例えば、表がちょうど5回出る確率を計算するには、以下の手順を踏みます。

まず、10回の試行の中で5回を選ぶ組み合わせの数を計算します。これは「10回中5回」とも言います。
次に、表が出る確率（1/2）を5回分掛け合わせます。
最後に、裏が出る確率（1/2）を残りの5回分掛け合わせます。
これらを全て掛け合わせると、表がちょうど5回出る確率が得られます。

信頼区間

信頼区間とは、ある数値（例えば平均）がどの範囲にあるかを推定する方法のことを指します。

例えば、クラスのテストの平均点が50点だとします。しかし、これはただの推定で、実際の平均点はもう少し高かったり低かったりするかもしれません。

そこで、信頼区間を使って「平均点は45点から55点の間にある」といったように、平均点がどの範囲にあるかを推定します。この「45点から55点」という範囲が「信頼区間」と呼ばれます。

信頼区間には「信頼水準」があります。これは、推定が正しい確率を表しています。例えば、95%の信頼水準の場合、同じ実験を100回行ったら、95回は信頼区間に真の平均点が含まれるという意味です。

正規分布

正規分布とは、データが平均値の周りに集まっていることを表す形のことを指します。

例えば、クラスのテストの点数が次のようになっている場合は以下の通りです。

40点、50点、60点、70点、80点

この場合、平均点は60点になります。そして、点数が平均点の周りに集まっていることがわかります。これをグラフに描くと、中央が高く、両端に行くほど低くなる「ベル型」の形になります。これが正規分布です。

正規分布は、自然界や社会現象など、さまざまなデータに見られます。例えば、人々の身長やテストの点数などは、正規分布に従うことが多いです。

区間推定

区間推定とは、ある数値（例えば平均）がどの範囲にあるかを推定する方法のことを指します。

そこで、区間推定を使って「平均点は45点から55点の間にある」といったように、平均点がどの範囲にあるかを推定します。この「45点から55点」という範囲が「信頼区間」と呼ばれます。