データレイク

データレイクとは、あらゆるデータを本来のフォーマットのまま蓄積、保管する一元化された貯蔵環境のこと。データ属性が構造的に管理された構造化データ、ログファイルや画像、動画といった非構造化データを、発生したままの生データで格納できる。直訳すると「データの湖」。

データウェアハウス(DWH)とは異なり、事前にデータ構造の設計や定義をする必要がなく、データの蓄積が容易である。様々なファイルを特定の目的なく生データで保管しておき、将来の分析の際にデータを取得できるため、多様な分析ニーズに応えられる。

Pentaho社のCTO、James Dixon氏が命名した。