統計に関するキーワード(24件)

生存者バイアス(生存バイアス)

生存者バイアス(survivorship bias)もしくは生存バイアスとは、何らかの成功を遂げた一部の人物や企業、物事のみを基準とすることで誤った判断をしてしまうこと。 事象や手段を評価する際に、成功せず失敗に至った数多くの事象を考慮することなく、一部の成功事例のみをもって判断 [……]

ウェイトバック集計

ウェイトバック集計とは、回収されたサンプル(標本)を母集団の構成に合わせて集計すること。サンプルに重み付けをして集計する方法である。「ウェイト付き集計」とも呼ぶ。 アンケート調査などで回答者(サンプル)の属性が偏り、実際の市場など母集団の構成比と異なる場合などに、回答数を調整して [……]

母数(パラメータ)

母数(parameter, パラメータ)とは、統計学において母集団の特性を表す定数のこと。 例えば、母集団の「平均」「分散」「標準偏差」は母数であり、それぞれ「母平均」「母分散」「母標準偏差」とも呼ぶ。母集団から一部を抽出したデータの集合「サンプル(標本)」に関する値と区別するた [……]

ベキ分布

ベキ分布(power-law distribution)とは、発生する確率がその値のベキ乗(累乗)に比例する「ベキ乗則(power law, 冪乗則)」に従う統計分布のこと。 分布が左右対称となる正規分布とは異なり、ベキ分布は中央値や最頻値が分布の左端に位置し、極端な値が多いため [……]

信頼区間

信頼区間(confidence interval)とは、全数調査ができないなどにより調査結果の精度を知るために、母集団の平均(母平均)を統計的に推定する際などに設けられる幅、区間のこと。信頼係数(信頼度)のもとで母集団がその範囲に含まれると推定される区間である。英語の「confi [……]

信頼係数

信頼係数(confidence coefficient)とは、統計的に信頼区間を推定する区間推定の際に、母集団の平均(母平均)が信頼区間の範囲に含まれる確率のこと。 信頼係数は、値「1-α」、もしくは%で表す際は「100(1-α)%」と表記する。一般的には95%もしくは99%の信 [……]

しきい値(閾値, スレッショルド)

しきい値(threshold)とは、境目となる値のこと。ある現象を起こすためにその数値以上では効果が表れ、それ以下では効果が表れない境界の値のことであり、効果が表れるときの最小値である。「閾値(いきち)」、また英語の「スレッショルド」と表記されることもある。

母集団

母集団(population)とは、統計学の基礎概念の一つであり、本来の調査や分析の対象となる全体の集団のことを表す。その母集団に対して調査を行うために、一部を抽出したデータの集合のことを「サンプル(標本)」といい、サンプル(標本)から母集団を統計的に推測していくのが統計学の目的 [……]

サンプル(標本)

サンプル(sample)とは、統計においては母集団から抽出したデータの集合のこと。「標本」ともいう。母集団を調査するために抽出した一部の対象のことである。 また、母集団からサンプル(標本)を抽出することを「標本抽出」または「サンプリング」という。

サンプル数(標本数)

サンプル数(the number of samples)とは、統計においては母集団から抽出したデータの集合である「サンプル(標本)」の数のこと。母集団からサンプルの抽出を何回行ったかという数である。「標本数」ともいう。 サンプル(標本)におけるデータの個数の意味で「サンプル数」が [……]

サンプルサイズ(標本の大きさ)

サンプルサイズ(sample size)とは、統計においてデータの個数を表す。1回のサンプル(母集団から抽出したデータの集合、標本)においていくつの個体を調査したかという個体数のことである。データの集合である1サンプルの大きさのこと。通常、小文字の「n」で表す。「標本の大きさ」「 [……]

アソシエーション分析

アソシエーション分析(association analysis)とは、膨大なデータの中から統計的なパターンや意味のある関連性を抽出するデータマイニング手法のこと。 支持度、期待信頼度、信頼度、リフト値といった評価指標を用いて、抽出したルール(アソシエーションルール)を評価する。 [……]

バスケット分析

バスケット分析(basket analysis)とは、小売業のPOSデータやECのトランザクションデータを分析し、一度の購入で一緒に買われている商品の組み合わせを明らかにする手法のこと。買い物かご(バスケット)を一つの単位とすることに由来する。「マーケットバスケット分析」ともいう [……]

移動平均

移動平均とは、主に時系列データを一定区間ごとの平均値を連続的に求めて平滑化すること。株価をはじめとした時系列データは変化が激しく、傾向を滑らかにして把握しやすくするために用いられる。いくつかの種類があるが、明記がなければ単純移動平均のことを指す。 一定区間をどれぐらいにするかは場 [……]

トリム平均

トリム平均とは、上位と下位のデータを一定の割合で取り除いて計算した平均値のこと。データの中に外れ値や異常値がある場合、平均値がそれらに影響を受けないように除外できる。「刈込み平均」「調整平均」ともいう。 最小値側と最大値側からそれぞれ5%のデータを除去する場合、「5%トリム平均」 [……]

異常値

異常値とは、得られたデータの中で他と比べて極端に逸脱した値を意味する「外れ値」のうち、測定ミスや記録ミス、条件の異なる値の混入など「極端な原因、理由」がわかっている値のこと。 外れ値と異常値の違いは定義によって左右されるため、どのような理由で外れた値になっているのかを確認する必要 [……]

外れ値

外れ値とは、得られたデータのうち、全体的な傾向から他と比べて極端に逸脱した値のこと。 外れ値のうち、測定ミスや記録ミス、条件の異なる値の混入など「極端な原因、理由」がわかっているものを「異常値」と呼ぶが、外れ値と異常値の違いは定義によって左右される。また、外れ値と「外れ値ではない [……]

錯誤相関

錯誤相関(illusory correlation)とは、もともと相関がないデータに相関があると思い込んでしまうこと。実際には関連しない事象に対して、関連性があるように錯覚すること。認知バイアスの一つ。 特定の属性の集団が特徴ある行動をとった場合、その事象の起こる頻度を過大評価し [……]

多変量テスト

多変量テストとは、施策の候補を複数のパターンで実施する際、変更する複数の変数のすべての組み合わせを一定期間に同時に行い、どの組み合わせが効果的かを検証する検定のこと、もしくはその取り組み全体のこと。Multivariate Testを略して「MVT」と呼ばれることもある。 基準と [……]

A/Bテスト

A/Bテストとは、一定期間に施策候補を複数のパターンで提示して、特定の対象者に向けてどちらがより効果的かを検証する検定のこと、もしくはその取り組み全体のこと。スプリットテスト、スプリットランテストともいう。 基準となるオリジナルパターンに対して別のバリエーションを準備してテストを [……]

チェリー・ピッキング

チェリー・ピッキング(cherry picking)とは、自説を立証するために、根拠として多くの事例の中から自説に有利な事例のみを選出すること。誤った論理、詭弁術。 都合の良い説やデータのみを持ち出して引用し、都合の悪い説はあたかも存在しないかのごとく論説するため、非中立的で非客 [……]

平均への回帰

平均への回帰とは、最初の試験結果が全体の平均値よりも大きく悪い結果だった対象について、同じ内容での2回目の試験を実施するとその結果は全体の平均値に近づく良い結果になるという、統計学的な現象のこと。平均回帰、回帰効果。 A/Bテストでも発生し、まったく同じテストを2度繰り返すと1度 [……]

時系列分析(タイムシリーズ分析)

時系列分析とは、時間の経過に沿って指標を分析し、将来の予測を立てる分析のことをいう。タイムシリーズ分析(Time-Series Analysis)ともいう。 これに対し、時間の経緯に沿って変動する事象をある一定時点で断面的に切り取り、複数の変数や指標の関係を分析することを横断面分 [……]

横断面分析(クロスセクション分析)

横断面分析とは、時間の経緯に沿って変動する事象をある一定時点で断面的に切り取り、複数の変数や指標の関係を分析すること。クロスセクション分析(Cross-Section Analysis)ともいう。 これに対し、時間の経過に沿って指標を分析し、将来の予測を立てる分析を時系列分析とい [……]