UpSet plot(アップセット・プロット)とは、複数の集合間の交差関係を効率的に可視化するためのデータビジュアライゼーション手法、もしくはそれによって作成されたグラフのこと。ベン図やオイラー図が3~4個を超える集合を表現するのに限界があったのに対し、UpSet plotは数多くの集合とその交差関係を表現することができる。
通常、横方向または縦方向に集合が配置され、それらの交差する部分がバーとマトリクス形式で示される。2014年にHarvard UniversityのAlexander Lexらによって考案され、大規模で複雑な集合データの分析において有用であるとした。
Alexander.lex, CC BY-SA 4.0, via Wikimedia Commons
基本構造と主要要素は以下。
- インターセクションバー (Intersection Bar):集合間の重なり(交差部分)に含まれる要素の数を表す棒グラフ。例えば「商品AとBの両方を購入した顧客数」などを表現する
- セットバー (Set Bar):各集合に含まれる要素の総数を示す棒グラフ。通常、左側や上部に配置する。例えば「商品Aを購入した総顧客数」などを表す
- インターセクションマトリクス (Intersection Matrix):どの集合の組み合わせが選択されているかを表すドット(黒点)のパターン
遺伝子解析において複数の研究データセット間で共通する遺伝子を特定する際に用いられたり、マーケティング分析において顧客セグメント間の重なりを把握しターゲット層の最適化を図るために活用されたりする。