査読者1

[メタ] 総合的な採録理由

本論文は,多次元データの可視化のために多様な2次元の散布図を選択する手
法を提案したもので,散布図の選択にグラフ彩色問題を利用するという考え方
に新規性が認められます.一方で,内部的に四つの指標のみを使っているため
に多様性が制限されてしまわないか,特徴がないと判断される散布図に価値が
ないかどうかは不明ではないか,ディスプレイ空間の制約を扱うためにユーザ
はどのようなインタラクションをするのかといった点については議論の余地が
残ります.

[メタ] 査読時のレビューサマリ

3名の査読者による本論文の評価は「ショート採録を強く推す」または
「ショート採録が妥当」のいずれかであり,ほぼ一致しました.グラフ彩色問
題を利用した散布図の選択には新規性が認められます.

しかし,3名の査読者のうちの2名は,提案手法の基本的な考え方に関して疑問
を呈しています.1名は,内部的に四つの指標を用いることによって多様性に
制限が生じる可能性を指摘し,どの程度の多次元まで対応できるのかという点
についても懸念を示しています.もう1名は,特徴がない散布図を除外してし
まうことの是非を指摘し,特徴がないとされる性質が意味を持つような場面に
ついて検討しています.

残る1名の査読者も,ディスプレイ空間の制約をどう扱い,ユーザがどのよう
なインタラクションをするかという点の必要性を指摘しています.それによっ
て,何がどう変わるのかが明確になることを期待しています.

詳細については,各査読者の採否理由とコメントを確認してください.

[メタ] その他コメント

総合点

5: ショート採録が妥当

確信度

3: 自身の専門分野とマッチしている

採否理由

本論文は,多次元データの可視化のために,四つの指標を用いて多様な2次元
の散布図を選択する手法を提案しています.散布図の選択にグラフ彩色問題を
利用するという考え方には新規性があり,一定の有用性もあると思いますの
で,「ショート採録が妥当」と判定しました.

しかし,論文からは納得できない部分がありました.

基本的に提案手法では,各散布図を四つの指標による4次元ベクトルsiで表現
し,散布図の各ペアsi, sjに関してコサイン類似度dijを求めることを行って
います.その上でグラフを構成し,グラフ彩色を適用するという処理を行って
います.しかし,その処理以前に,このような類似度を使っている限り,それ
ほどの多様性は得られないのではないかと思いました.実際,図1の例を見る
と,似たような散布図がいくつか含まれています.おそらくは多様性を決める
上で各指標の大小の組合せが重要となっていて,四つの指標を使う場合には,
せいぜい2^4-1=15程度の多様性しか得られないのではないかと思いました.論
文中にも,四つの指標を使う場合にどの程度までの多様性が得られるかという
実験や考察はなされていません.図1では特に説明なく16個の散布図が示され
ていますが,提案手法が本当に多様な散布図を選択できるのであれば,例えば
32個の散布図が示されるべきと思います.

また,提案手法は多次元データを対象としているはずですが,どの程度の多次
元まで対応できるのかという問題もあると思います.提案手法では,対象の
データが数百次元だったとしても,四つの指標によって集約された4次元ベク
トルで表現される散布図に関して多様性を計ることになります.このために,
本来のデータが持っているはずの多様性が失われてしまうのではないかという
懸念があると思います.

面白い手法ではあると思いますので,研究をもっと深めてほしいと思います.

この研究をよくするためのコメント

以下は軽微な点についてのコメントです.

- 論文中に「距離」,「類似度」,「非類似度」という語が現れますが,統一
するほうが読みやすくなると思います.

- 3.1節で「各標本には1個以上のクラスが割り当てられている場合もある」と
ありますが,3.2.4節では「ykはk番目の標本のクラス」とあり,矛盾してい
ると思います.3.1節に合わせるのであれば,3.2.4節ではクラスを集合で表
現すべきです.

- 3節はいわゆる「提案手法」に関する節のはずですが,3.2節の記述の大部分
が著者らの提案ではないことが気になります.3節の前に「準備」のような
節を作り,そこで述べるほうがよいと思います.

- 式(1)で2乗の絶対値を取っていますが,意図の通りでしょうか.

- 式(3)でeが未定義で使われていると思います.

- 式(4)が紙面からはみ出しています.

- 3.3節の処理手順の4で,「同一の色識別子を有する散布図を集めて」とあり
ますが,特定の色識別子について実行するのでしょうか.その場合,どの色
識別子を選ぶのでしょうか.それとも全ての色識別子について実行するので
しょうか.その場合,選ばれる散布図の個数は,「ユーザ指定の個数」に色
識別子の個数を掛けたものになるのでしょうか.

- 参考文献[9]は日本語で記載すべきです.


査読者2

総合点

5: ショート採録が妥当

確信度

1: 専門外である

採否理由

多量の散布図から価値の高い散布図を適切に選択するための自動選択手法の提案をされています.データの次元が高くなるに従い,直感的な理解を手助けする手法の有用性は高く,本手法には一定の価値があるものと考えます.

一方で,各次元ごとに特徴を表すベクトルの大きさが大きいもの(つまり,各特徴がそれぞれはっきりしているもの)を積極的に選択するようなアルゴリズムに見えますが,実際の運用の場面で「特徴がない」という「事実」に「価値がない」かどうかは不明であるように思えます.
例えば天候のパラメータと特定の販売実績の側面との間に「相関がない」という事実は,その実績の側面は「天候の変動に強い」ことを意味する可能性がありますが,この実装ではそのようなパラメータを多く含む(つまり,状況に対して頑健である可能性が高い)要素を見逃してしまうことがないでしょうか.このように,ベクトルの大きさが「小さいこと」がそもそも意味を有するような場面が,本研究では安易に除かれてしまっているように思われるのが気になるところです.

この研究をよくするためのコメント

採否理由に書いたような問題は,例えば,要素としてデータの分散(の逆数のようなもの)を入れれば解決する可能性があるのですが,分散が際立って小さいと,提案されているほかのパラメータも軒並み小さくなってしまうので,今回のようなコサイン距離による関連性にうまくそぐわないように思われます.
そういったパラメータには実は結局価値がない,ということを適切に議論するか
,あるいはうまくこれらを解決する手段があれば格段に論文の価値が向上するものと考えます.


査読者3

総合点

6: ショート採録を強く推す

確信度

2: やや専門からは外れる

採否理由

多変数・多次元のデータを散布図行列を用いて可視化する際に有限個の散布図を選択するための手法の提案であり、従来にない新規性がある。多様なデータを効果的に可視化するための本手法は、実世界の問題解決に有用であると感じる。

選択のための方針として、散布図から4次元の特徴ベクトルを抽出し、特徴ベクトルが類似した散布図を選択せず、かつより大きな絶対値を持つベクトルを選択するために、グラフ彩色問題を適用する点が興味深かった。

論文自体の記述の質や内容について問題は感じず、よく記述されていると感じた。ただし、「提案手法はディスプレイ空間の制約を考慮して有限個の散布図を選択表示するという点でこれらの手法と異なる.」という目的のために、ディスプレイ空間の制約をどう扱い、ユーザがどのようなインタラクションをするのか、という点まで実装・議論・実験が必要だと感じたので、6点と判定した。

この研究をよくするためのコメント

・ユーザのインタラクションが何か、それによって、何がどう変わるのかがもっと明確になると良い。本論文で実験している閾値の他に、個数や画面サイズなどとの関係があると考えられる。

・選択する個数を変えた際の、データの説明性を定量化できると良いと感じた。主成分分析における累積寄与率のようなもの。

・要件2が妥当となるためには、各特徴量が「大きいほど良い」指標になっている前提があるが、明記すると分かりやすいと感じる

・Speaman 順位相関 → Spearman

・式(4)のpの算出方法を明記してほしい

・図3の円の面積は、特徴ベクトルの絶対値だと推測するが、明記してほしい