logo

分散

分散 データセットの平均値または平均値に関して、データがどのように広がっているかを調べるために使用される測定値です。分布データが平均値または平均値に関してどのように広がっているかを調べるために使用されます。分散を定義するために使用される記号は σ です。2。それは標準偏差の二乗です。

統計で使用される分散には 2 つのタイプがあります。



  • サンプルの分散
  • 母集団分散

母集団の分散は、特定の母集団の各データ ポイントがどのように変動するか、または分散しているかを判断するために使用されます。一方、標本分散は、平均からの二乗偏差の平均を見つけるために使用されます。

この記事では、について学びます 分散(サンプル、母集団)、その計算式、プロパティなどの詳細。

目次



分散とは何ですか?

私たちはデータのさまざまな値を測定し、これらの値はさまざまな目的に使用されます。データは、グループ化されたデータとグループ化されていない (個別の) データの 2 つのタイプで指定できます。データがクラス間隔の形式で与えられる場合、それはグループ化されたデータと呼ばれますが、データが単一のデータ ポイントの形式で与えられる場合、それは離散またはグループ化されていないデータ ポイントと呼ばれます。分散は、データの平均値に関するデータの分散の尺度です。これは、指定されたデータ値内でデータがどのように分散しているかを示します。グループ化されたデータとグループ化されていないデータの両方について、標本分散と母集団分散を簡単に計算できます。

分散の定義

分散 一連のデータ ポイントの広がりまたは分散を定量化する統計的尺度です。データセット内の個々のデータ ポイントがデータセットの平均 (平均) とどの程度異なるかを示します。

差異の種類

与えられたデータの分散は 2 つのタイプで定義できます。



  • 母集団分散
  • サンプルの分散

それでは、それらについて詳しく見ていきましょう。

母集団分散

母集団の分散は、特定の母集団の広がりを見つけるために使用されます。人口は人々のグループとして定義され、そのグループ内のすべての人々が人口の一部となります。これは、グループの母集団が平均母集団に対してどのように変化するかを示します。

グループのすべてのメンバーは母集団として知られています。特定の母集団内の各データ ポイントがどのように変動するか、または分散しているかを知りたい場合は、母集団の分散を使用します。これは、母平均からの各データ ポイントの二乗距離を与えるために使用されます。

サンプルの分散

母集団データが非常に大きい場合、データセットの母集団分散を計算することが困難になります。その場合、指定されたデータセットからデータのサンプルを取得し、サンプル分散と呼ばれるそのデータセットの分散を見つけます。標本平均を計算するときは、必ず標本平均、つまり母集団の平均ではなく標本データセットの平均を計算するようにします。標本分散は、標本データ点と標本平均の差の二乗の平均として定義できます。

差異記号

母集団の分散を指す場合、分散の記号は通常、ギリシャ文字のシグマ二乗 (σ²) で表されます。標本分散の場合、多くの場合 s² で表されます。

差異の例

以下で説明する例を参考にすると、分散の概念を理解できます。

データの母集団分散を求めます {4,6,8,10}

解決:

平均 = (4+6+8+10)/4 = 7

4 (4-7)2 9
6 (6-7)2 1
8 (8-7)2 1
10 (10-7)2 9

分散 = (9+1+1+9)/4 = 20/4 = 5

したがって、データの分散は 5 になります。

分散の公式

データセットの分散は記号 σ で表されます。2。人口データの場合、その式は、平均からのデータ エントリの差の二乗の合計をエントリ数で割ったものと等しくなります。一方、サンプル データの場合は、分子の値をエントリ数と単位の差で割ります。

サンプル分散式

データセットがサンプルの場合、分散の公式は次のように与えられます。

p 2 = ∑ (x - バツ) 2 /(n – 1)

どこ、

  • バツ はサンプルデータセットの平均です
  • n は観測値の合計数です

母集団分散の式

人口データセットがある場合、式は次のように記述されます。

p 2 = ∑ (x - バツ) 2 /n

どこ、

  • バツ は母集団データセットの平均です
  • n は観測値の合計数です

グループ化されたデータセットとグループ化されていないデータセットの分散を計算することもできます。分散のさまざまな公式は次のとおりです。

JavaScript ドロップダウン

グループ化されたデータの分散公式

グループ化されたデータの場合、分散の式については以下で説明します。

グループ化されたデータのサンプル分散式 (σ 2 ) = ∑ f(m - バツ) 2 /(n-1)

グループ化されたデータの母集団分散式 (p 2 ) = ∑ f(m - バツ) 2 /n

どこ、

  • f は各間隔の頻度です
  • メートル i の中点です番目間隔
  • バツ はグループ化されたデータの平均です

グループ化されたデータの平均は次のように計算されます。

平均 = ∑ (f バツ ) / ∑ f

グループ化されていないデータの分散式

グループ化されていないデータの場合、分散の式については以下で説明します。

  • グループ化されていないデータのサンプル分散式 (p 2 ) = ∑ (x - バツ) 2 /(n-1)
  • グループ化されていないデータの母集団分散式 (p 2 ) = ∑ (x - バツ) 2 /n

どこ バツ はグループ化されたデータの平均です

分散の計算式

分散の計算に使用される式については、以下の図で説明します。

分散の公式

分散を計算するにはどうすればよいですか?

一般に、分散とは母集団の標準分散を意味します。指定された値のセットの分散を計算する手順は次のとおりです。

ステップ1: 式 (平均 = 観測値の合計 / 観測値の数) を使用して観測値の平均を計算します。

ステップ2: データ値の平均からの差の二乗を計算します。 (データ値 – 平均)2

ステップ 3: 指定された値の二乗差の平均を計算します。これは、データセットの分散と呼ばれます。

(分散 = 差の二乗和 / 観測値の数)

分散と標準偏差

分散と 標準偏差 どちらも、データ セットの値がデータ セットの中心値または平均値からどの程度逸脱しているかを示すために使用される中心傾向の尺度です。

特定のデータセットの分散と標準偏差の間には明確な関係があります。

分散 = (標準偏差) 2

分散は標準偏差の二乗として定義されます。つまり、任意のデータ グループの標準偏差の二乗を取ると、そのデータ セットの分散が得られます。分散は次の記号を使用して定義されます。 p 2 一方 p データセットの標準偏差を定義するために使用されます。データセットの分散は二乗単位で表され、データセットの標準偏差はデータセットの平均と同様の単位で表されます。

もっと詳しく知る: 分散と標準偏差

二項分布の分散

二項分布 は、n 回実行された二項実験における肯定的な結果の数を示す離散確率分布です。二項実験の結果は 0 または 1、つまり正または負のいずれかになります。

二項実験では、 n 試行回数と各試行の確率が与えられる場所 p 、二項分布の分散は次の式を使用して与えられます。

p 2 = np (1 – p)

どこ '例えば' は二項分布の値の平均として定義されます。

ポアソン分布の分散

毒の配布 は、「x」期間内に「n」個のイベントが発生する確率を定義するために使用される離散確率分布として定義されます。ポアソン分布の平均は次の記号で定義されます。 l.

ポアソン分布では、指定されたデータセットの平均と分散は等しくなります。ポアソン分布の分散は、次の式を使用して与えられます。

p 2 = λ

一様分布の分散

一様分布では、確率分布データは連続的です。これらの実験の結果は特定の上限と特定の下限の間の範囲内にあるため、これらの分布は長方形分布とも呼ばれます。上限または最大限界が b 下限または最小限界が a の場合、一様分布の分散は次の式を使用して計算されます。

p 2 = (1/12)(b – a) 2

一様分布の平均は、次の式を使用して求められます。

平均 = (b + a) / 2

どこ、

  • b は一様分布の上限です
  • ある 一様分布の下限です

分散と共分散

データセットの分散は、データセットの平均値に対するデータセットのすべての値の変動性を定義します。共分散は、確率変数が互いにどのように関連しているかを示し、1 つの変数の変化が他の変数の変化にどのような影響を与えるかを示します。

共分散は正または負の場合があり、正の共分散は両方の変数が平均値に対して同じ方向に移動していることを意味し、負の共分散は両方の変数が平均値に対して反対方向に移動していることを意味します。

2 つの確率変数 x と y (x が従属変数、y が独立変数) の共分散は、以下の添付画像に記載されている式を使用して計算されます。

共分散の式

分散特性

分散は、数学、統計、その他の科学分野でさまざまな目的で広く使用されています。分散にはさまざまな特性があり、さまざまな問題を解決するために広く使用されています。分散の基本的な特性には次のようなものがあります。

  • データセットの分散は負ではない量であり、分散のゼロ値はデータセットのすべての値が等しいことを意味します。
  • 分散の値が大きいほど、データセットのすべてのデータ値が広く分散している、つまりデータセットの平均値から遠く離れていることがわかります。
  • 分散の値が低いほど、データセットのすべてのデータ値が互いに近い、つまりデータセットの平均値に非常に近いことがわかります。

任意の定数「c」について

  • Var(x + c) = Var(x)

どこ バツ は確率変数です

  • Var(cx) = c2

どこ バツ は確率変数です

また、もし ある そして b は定数値であり、 バツ は確率変数であるため、

  • Var(ax + b) = a2

独立変数 x の場合1、 バツ2、 バツ3…、バツn私達はことを知っています、

  • ここで(x12+……+×n) = Var(x1) + Where(x2) +……..+Where(xn)

他の人はこちらも読んでいます:

  • 平均
  • モード
  • 分散と標準偏差の違い

分散公式の例

例 1: サンプル データの分散を計算します: 7、11、15、19、24。

解決:

7、11、15、19、24 というデータがあります。

データの平均を求めます。

x̄ = (7 + 11 + 15 + 19 + 24)/5
= 76/5
= 15.2

得られる分散の公式を使用すると、

p2= ∑ (x- バツ)2/(n – 1)
= (67.24 + 17.64 + 0.04 + 14.44 + 77.44)/(5 – 1)
= 176.8/4
= 44.2

例 2: データの分散が 12 で、平均からのデータの差の二乗の合計が 156 である場合の観測値の数を計算します。

解決:

我々は持っています、

(バツ- バツ)2= 156

p2= 12

得られる分散の公式を使用すると、

p2= ∑ (x- バツ)2/n

12 = 156/n

n = 156/12

n = 13

例 3: 指定されたデータの分散を計算する

バツ

f

10 1
4 3
6 5
8 1

解決:

平均 (x̄) = ∑(fバツ)/∑(f)

= (10×1 + 4×3 + 6×5 + 8×1)/(1+3+5+1)
= 60/10 = 6

n = ∑(f) = 1+3+5+1 = 10

バツ

f

fバツ

(バツ- バツ)

(バツ- バツ)2

f(バツ- バツ)2

10 1 10 4 16 16
4 3 12 -2 4 12
6 5 30 0 0 0
8 1 8 2 4 8

今、

p 2 = (∑ n f (バツ - バツ) 2 /n)

= [(16 + 12 + 0 +8)/10]
= 3.6

分散(σ2) = 3.6

例 4: 次のデータテーブルの分散を求めます。

クラス

頻度

0-10 3
10-20 6
20-30 4
30-40 2
40-50 1

解決:

クラス

tostringメソッドJava

f

f×Xi

Xi-μ

(Xi – μ)2

f×(Xi – μ)2

0-10

5

3

15

-15

225

675

10-20

15

6

90

-5

25

150

20-30

25

4

100

5

25

100

30-40

35

2

70

15

JavaScriptのコメント

225

450

40-50

4つ。

1

4つ。

25

625

625

合計

16

320

2000年

平均 (μ) = ∑(fi xi)/∑(fi)
= 320/16 = 20

p 2 = (∑ n f (バツ –m) 2 /n)

= [(2000)/(16)]
= (125)

指定されたデータセットの分散は 125 です。

要約 - 差異

分散は、データセット内の値が平均とどの程度異なっているかを示す統計的尺度です。これは、データ ポイントの広がりや分散を理解するのに役立ちます。分散には主に 2 つのタイプがあります。母集団分散 (母集団全体のデータ ポイントがどのように分散しているかを測定します) と標本分散 (サンプル内のデータ ポイントがどのように分散しているかを測定します) です。分散は σ² で示され、標準偏差の 2 乗です。分散を計算するには、データの平均を求め、各データ ポイントから平均を減算し、差を 2 乗して、これらの 2 乗の差を平均します。分散は、データセット内の変動を理解するのに役立つため重要です。高い分散はデータ ポイントが広く分散していることを示し、低い分散はデータ ポイントが平均に近いことを示します。分散は差を二乗することを含むため、常に負ではありません。

バリアンスに関するよくある質問

統計における分散とは何ですか?

分散は、データセットの平均値に対するデータセットの値の広がりとして定義されます。データセットの分散は、特定のデータセットの値が平均値からどの程度広がっているかを示します。

分散記号とは何ですか?

記号 σ を使用します2、s2、および Var(x) を使用してデータセットの分散を示します。

分散の公式とは何ですか?

データセットの分散は次の式を使用して計算されます。

p 2 = E[( X – m ) 2 ]

バリアンスは何を伝えますか?

分散は、データの広がりの範囲を見つけるために使用されます。つまり、データセット内の値が平均値に対してどのように分散しているかを示します。分散の値が大きい場合、値は平均値に対して広く分散していますが、分散の値が小さい場合、値は平均値に対して密に分散しています。

分散と標準偏差の関係は何ですか?

指定されたデータセットの場合、データセットの分散はそのデータセットの標準偏差の二乗です。この関係は次のように表されます。

分散 = (標準偏差) 2

分散はどのように計算しますか?

分散を計算するには、まずデータセットの平均 (平均) を見つけます。次に、各データ ポイントから平均を減算し、結果を 2 乗します。最後に、これらの二乗の差を平均します。

差異が重要なのはなぜですか?

分散は、データセット内のデータの分布を理解するために重要です。これは、データ ポイントが平均値からどの程度広がっているかを判断するのに役立ち、データ内の変動性または一貫性を示します。

分散と標準偏差の違いは何ですか?

分散と標準偏差はどちらもデータの分散を測定しますが、標準偏差は分散の平方根です。標準偏差はデータと同じ単位で表されるため、広がりを示すためにより解釈しやすくなります。

分散がマイナスになることはありますか?

いいえ、分散を負にすることはできません。平均値との差の二乗の平均として計算されるため、結果の値は常に負ではありません。