データに関するキーワード(47件)

デリミタ(区切り文字)

デリミタ(delimiter)とは、データをテキストファイルに記録する際に項目を区切る記号として用いる文字のこと。「区切り文字」。CSV形式であればカンマ「,」が用いられるなど、カンマやタブ、スペースなどが一般的である。 また、「(…)」「<…&gt [……]

ツリーマップ

ツリーマップ(treemap)とは、階層構造のデータを長方形の面積と色の組み合わせにより可視化したグラフ表現のこと。長方形の面積は各データのサイズ(数値)を、色はデータの属性を表し、属性の長方形の中に各データの長方形が組み合わされ、空間充填でコンパクトに表現される。大量のデータの [……]

信頼区間

信頼区間(confidence interval)とは、全数調査ができないなどにより調査結果の精度を知るために、母集団の平均(母平均)を統計的に推定する際などに設けられる幅、区間のこと。信頼係数(信頼度)のもとで母集団がその範囲に含まれると推定される区間である。英語の「confi [……]

信頼係数

信頼係数(confidence coefficient)とは、統計的に信頼区間を推定する区間推定の際に、母集団の平均(母平均)が信頼区間の範囲に含まれる確率のこと。 信頼係数は、値「1-α」、もしくは%で表す際は「100(1-α)%」と表記する。一般的には95%もしくは99%の信 [……]

しきい値(スレッショルド)

しきい値(threshold)とは、境目となる値のこと。ある現象を起こすためにその数値以上では効果が表れ、それ以下では効果が表れない境界の値のことであり、効果が表れるときの最小値である。「閾値(いきち)」、また英語の「スレッショルド」と表記されることもある。

母集団

母集団(population)とは、統計学の基礎概念の一つであり、本来の調査や分析の対象となる全体の集団のことを表す。その母集団に対して調査を行うために、一部を抽出したデータの集合のことを「サンプル(標本)」といい、サンプル(標本)から母集団を統計的に推測していくのが統計学の目的 [……]

サンプル(標本)

サンプル(sample)とは、統計においては母集団から抽出したデータの集合のこと。「標本」ともいう。母集団を調査するために抽出した一部の対象のことである。 また、母集団からサンプル(標本)を抽出することを「標本抽出」または「サンプリング」という。

サンプル数(標本数)

サンプル数(the number of samples)とは、統計においては母集団から抽出したデータの集合である「サンプル(標本)」の数のこと。母集団からサンプルの抽出を何回行ったかという数である。「標本数」ともいう。 サンプル(標本)におけるデータの個数の意味で「サンプル数」が [……]

サンプルサイズ(標本の大きさ)

サンプルサイズ(sample size)とは、統計においてデータの個数を表す。1回のサンプル(母集団から抽出したデータの集合、標本)においていくつの個体を調査したかという個体数のことである。データの集合である1サンプルの大きさのこと。通常、小文字の「n」で表す。「標本の大きさ」「 [……]

名寄せ

名寄せとは、複数に分散したデータベースの中から、氏名やメールアドレス、住所や電話番号などの情報をもとにして、同一人物や同一企業を一つにまとめる作業のこと。もともとは金融機関が複数口座を保有する顧客を一元管理して、預金総額などを算出するために行われていたものだが、金融機関以外でもデ [……]

Cookie(クッキー)

Cookie(クッキー)とは、ユーザーがWebサイトにアクセスしたときに、Webサーバーからブラウザー経由でユーザーの端末内に保存される小さなテキストデータ、もしくはファイルのこと。ブラウザー単位で保存される。正式には「HTTP Cookie」。 ユーザーの表示環境やログイン情報 [……]

アソシエーション分析

アソシエーション分析(association analysis)とは、膨大なデータの中から統計的なパターンや意味のある関連性を抽出するデータマイニング手法のこと。 支持度、期待信頼度、信頼度、リフト値といった評価指標を用いて、抽出したルール(アソシエーションルール)を評価する。 [……]

バスケット分析

バスケット分析(basket analysis)とは、小売業のPOSデータやECのトランザクションデータを分析し、一度の購入で一緒に買われている商品の組み合わせを明らかにする手法のこと。買い物かご(バスケット)を一つの単位とすることに由来する。「マーケットバスケット分析」ともいう [……]

ゼロパーティデータ

ゼロパーティデータ(zero-party data, ZPD)とは、ユーザーが何らかの対価を得るために企業(広告主)に対して意図的に提供するデータのこと。企業からのオファーを受けるのと引き換えに、そのユーザー固有のデータ利用をオプトインで承諾するというものである。趣味嗜好や購入意 [……]

サルベージ

サルベージ(salvage)とは、もともとは沈没した船舶の引き揚げや回収作業のことを表す英語だが、ビジネスやITの領域においては破損したハードディスクなどのデータストレージからデータを取り出す作業やサービスのことを指す。区別するために「データサルベージ」とも呼ばれる。 破損や不具 [……]

エンドツーエンド暗号化

エンドツーエンド暗号化(end-to-end encryption, E2EE)とは、通信ネットワークにおいて通信を行う送信者と受信者のみが暗号化されたデータを復号、閲覧できる仕組みの、秘匿性の高い暗号化技術のこと。「E2E暗号化」「端末間暗号化」。 転送途中のデータは常に暗号化 [……]

ウォーターフォールチャート(滝グラフ)

ウォーターフォールチャート(waterfall chart)とは、最初の値が数値の増減によってどのように変化したのかという増減の累積や内訳を可視化したグラフ表現のこと。積み上げ棒グラフなどの重なる部分を分解し、最初の値から最終の値までの増減を表すことができる。「滝グラフ」「ウォー [……]

移動平均

移動平均とは、主に時系列データを一定区間ごとの平均値を連続的に求めて平滑化すること。株価をはじめとした時系列データは変化が激しく、傾向を滑らかにして把握しやすくするために用いられる。いくつかの種類があるが、明記がなければ単純移動平均のことを指す。 一定区間をどれぐらいにするかは場 [……]

テレメトリーデータ

テレメトリーデータ(telemetry data)とは、ソフトウェアやアプリケーションがパフォーマンス改善や品質向上を目的として収集するユーザーの利用状況データのこと。プロセスは自動化されて、メーカーやベンダーのコントロールセンターなど特定の地点にデータは送信、収集される。 この [……]

トリム平均

トリム平均とは、上位と下位のデータを一定の割合で取り除いて計算した平均値のこと。データの中に外れ値や異常値がある場合、平均値がそれらに影響を受けないように除外できる。「刈込み平均」「調整平均」ともいう。 最小値側と最大値側からそれぞれ5%のデータを除去する場合、「5%トリム平均」 [……]

データレイク

データレイクとは、あらゆるデータを本来のフォーマットのまま蓄積、保管する一元化された貯蔵環境のこと。データ属性が構造的に管理された構造化データ、ログファイルや画像、動画といった非構造化データを、発生したままの生データで格納できる。直訳すると「データの湖」。 データウェアハウス(D [……]

データマート

データマートとは、企業のシステムに蓄積保管されたデータから特定の目的や用途のために抽出され、再構築されたデータベースのこと。直訳すると「データの小売店」。 特定の目的で抽出して小さなサイズで構築されるため、集計やデータ分析時に扱いやすいという利点がある。 データマートはデータウェ [……]

データウェアハウス (DWH)

データウェアハウスとは、企業の業務上で発生した情報を構造化データで時系列に整理して保管した統合データベース、もしくはその管理システムやソフトウェアのこと。直訳すると「データの倉庫」。複数の基幹システムから抽出されて再構成されることが多い。 データウェアハウスから抽出されてデータ分 [……]

異常値

異常値とは、得られたデータの中で他と比べて極端に逸脱した値を意味する「外れ値」のうち、測定ミスや記録ミス、条件の異なる値の混入など「極端な原因、理由」がわかっている値のこと。 外れ値と異常値の違いは定義によって左右されるため、どのような理由で外れた値になっているのかを確認する必要 [……]

外れ値

外れ値とは、得られたデータのうち、全体的な傾向から他と比べて極端に逸脱した値のこと。 外れ値のうち、測定ミスや記録ミス、条件の異なる値の混入など「極端な原因、理由」がわかっているものを「異常値」と呼ぶが、外れ値と異常値の違いは定義によって左右される。また、外れ値と「外れ値ではない [……]

正規化

正規化とは、データを一定の規則に従って整形、変換、再編して、利用しやすい状態にすること。データの重複をなくして管理を容易かつ効率的にし、より多様な目的で扱いやすくするためのデータベースの構築技法の一つである。 様々な分野で用いられる概念であり、整形や変換などの処理方法は異なる。

ビジネスインテリジェンス (BI)

ビジネスインテリジェンスとは、データを組織的にかつ系統的に蓄積、分類、検索、分析、加工して、ビジネスや経営の予測、最適化、意志決定に用いるプロセスや概念、取り組みのこと。 これらを取り扱うツールやソフトウェア、アプリケーションのことを「BIツール(BIシステム)」と呼ぶが、これら [……]

インテリジェンス

インテリジェンスとは、知性や知能、あるいは情報といった意味のこと。ビジネス領域においては、同く「情報」として捉えられる「データ」「インフォメーション」との区別や対比として「インテリジェンス」は用いられる。 データとインフォメーションとインテリジェンスの違い 日本語では「情報」とし [……]

空・雨・傘

「空・雨・傘」は、問題解決のためのフレームワークの一つで、「空を見て、雨が降りそうだから、傘を持っていこう」という意志決定に至るプロセスを分解してロジカルに考える手法のこと。 「空」は「空が曇っている」という事実の認識のステップである。データを客観的に正しく収集し、事実を適切に認 [……]

トランザクション

トランザクション(transaction)とは、商取引や売買といった「商品を渡して代金を受け取る」という一連の処理の単位のこと。ITの分野では、コンピュータ内のデータベースで処理される分割できない一連の処理単位のことを指す。またこの一連の処理をトランザクション処理という。略称は「 [……]