本研究では,多次元データが疎な領域にサンプリング点を多く設定し,周辺にある既存データから得られる予測値と共に可視化して,点を選択することで追加すべきデータの性質を確認できる手法を提案している.
存在しない点を可視化するというアプローチは興味深く,ドリルダウンのように詳細を確認していくインタラクションも含め,登壇発表で議論する価値があると考え採録と判断した.
適用事例における使用者の操作の詳細と、適用可能な対象の制限について追記されることが必要と考えます。
5: 採録
1: 専門外である
・新規性
多次元空間中のデータにおいて、データが存在しない(不足している)領域に注目して可視化するというアイデアは新規性を有しています。
・有用性、正確性
疎な領域に設定したサンプリング点を選択し、平行座標プロットで詳細を確認するというドリルダウン的なアプローチに一定の有用性を感じました。
一方で、紹介された事例は収率や男女といった「サンプリング点の意味を理解しやすい値」で色分けされていることは提案手法に有利と思われることと、4つのパラメータ(特にn_pot)の設定に強く依存しそうであることから、有用性を発揮する対象はやや限定的という印象も受けています。
・論文の記述
分かりやすく書かれています。
本研究で対象とする多次元データとは全く異なり簡易なものですが、準備したデータでカバーできていない領域に注目する、という点ではソフトウェアテストにおけるカバレッジを想起し、興味深く拝見しました。
ソフトウェアテストの場合は疎な領域を「視認して掘り下げる」必要性が低いのですが、今回例示されたものも必ずしも視認が必要なものかは理解できませんでした。
4.1節にある「実験者が閲覧しながら自らの経験則と照合」のような、表示を見ながら試行錯誤するような過程の意義を説明していただけると、わかりやすくなると思います。
散布図中の点を選択して平行座標プロットが表示されますが、次元の並び順によっては内容を把握しにくいケースもあると思われます。ここは、利用者が対象データをよく理解しているので適切な順序を自ら設定できると考えて良いのでしょうか。
4: どちらかと言えば採録
3: 自身の専門分野とマッチしている
この論文では, 多次元点群データにおける「データが存在しない領域」あるいは「データ密度が疎である領域」にサンプリング点を多く配置して可視化することで, 現状手元に無いデータの偏りを把握したり, 次に探索する領域を決定するための指針とするための手法を提案している. ブラックボックス関数の最適化問題のように解をただ探索するのではなく, 複数の解, または次のサンプリング点候補同士をユーザが比較して各パラメータの効果検証をおこないながら選択していけることができるようにした点が高く評価できる. しかし, 後述するようにだた実験計画法として所望のパラメータを探索したい場合は従来のベイズ最適化などの手法のほうが効率的であることや, 高次元, 大量データの場合アルゴリズムにいくつかの問題があるようにみえるため採択された際には議論していただきたい.
・可視化のメリットは, 一目で全体の分布を確認して議論できるところにあるとおもいますが, それをするためにはすでに多くのサンプリング点を得ている必要がある, というジレンマをかかえてしまうことにならないでしょうか?それを本来は減らしたいというのがベイズ最適化などの最適化手法の大きな目的なのでお互いに補い合うものかとおもいます. 同様にすべてのデータ点にガウス分布を配置するのもやはりあまりスマートではないように感じます. 3.2章で述べられているポテンシャル場の作り方では個体数xサンプリング点のガウス分布評価+目的関数評価のための近傍探索となって計算コストがかなりかかるようにみえます.
・ユーザ実験の章でやられていうように, 図5, 6, 7で丸で囲われている部分をこの可視化からすぐに見つけるのは少々厳しいと感じました. 少なくとも私には難しいです。また, この円の大きさは3.2で述べられている4つのパラメータに依存するのではないでしょうか?これを自分で調整できる人だからこの囲いをどのくらいの大きさにすればよいか経験的にわかっている可能性はありませんか?
ベイズ最適化に代表されるブラックボックス関数探索手法を引用してそれらとの差異を明確にすべきかとおもいます. 著者の主張する通り可視化ではないですがアプローチとしては似ていますし提案手法の利点がより明確に読者に伝わるようになるとおもいます. なにより, 筆者らの手法にもベイズ最適化を効率化する既存手法の多くがそのまま取り入れられるとおもいます.
5: 採録
2: やや専門からは外れる
総合点の根拠: この論文は、多次元データ可視化の新しい領域を開拓しており、その新規性や実証的な評価には大きな価値がある。使い方までつっこんだ詳細なユーザースタディを通じて、手法の強みをさらに明確にできると、さらに説得力が増す。
1. 新規性の評価 5:
これまでの研究がデータの「存在」に焦点を当てていた一方で、「非存在」を可視化する手法は新しく、特に疎な領域における可視化手法の貢献は高い。
2. 有用性の評価4: 実際のケーススタディを通じた評価が行われており、提案手法が実際に有効であることを示している。特に、実データセット(フッ素有機化合物の反応実験データ、学術成績と給与のデータ)を用いた検証は、手法の応用可能性を示すものであり、説得力がある。ただし、ユーザスタディにおいて実際にユーザーがどのように使ったか、に関する記述が少ない。特に並行座標プロットのパターンをユーザーが記憶し比較しながら、疎な部分の探索を進める際に、どのプロットと比較しているのかが記述されると、今後の発展のためにもより有用である。
3. 正確性の評価5: 技術的な記述は過不足なく問題ない。
4. 記述の質の評価5: 全体的にわかりやすく明瞭な記述である。一点気になった点として、表記の揺れがる。導入部や概要で事象としたものが、生物学的な個体をイメージしているのか、ある文から個体に変わっているため、表記が揺れている印象がある。
採録の条件:
ユーザーがシステムに慣れるまで練習が必要なUIに見えるため、被験者のバックグラウンド(データサイエンティストや日々データに触れているかどうか)についての記述があると良いと思います。また参加者がどのように使っていたか?が今後の開発のポイントだと思うので、可視化されたデータのどの部分に注目したか等もヒアリングした結果があると非常に有用だと思います。
4: どちらかと言えば採録
1: 専門外である
本論文では,サンプルが存在しない領域の可視化を行う手法を提案している.この手法によりデータ理解を深める,もしくはデータ抽出の効率化を図ることが可能となる.
サンプル点群が疎な箇所を可視化する手法は新規性があると言える.
可視化手法についても詳細に書かれており,可視化自体の正確性はあると言える.
しかし,本手法が実際にデータ理解やデータ抽出の効率化に寄与するかは十分に議論されておらず,著者も具体的には結論づけていないように感じられる.例えば概要や序論には,可視化手法については書かれているが,それがどうのような効果を持つかは記述されていない.
また,本論文には適用事例に関する議論が欠けている.論文内には適用事例が提示されているが,適用可能データや利用の向き不向き等も制約として議論すべきである.
以上より,本論文のスコアは4と評価する.
何に有効で何には有効でないのかの議論を増やすことが望ましい.
本研究では,多次元データが疎な領域にサンプリング点を多く設定し,周辺にある既存データから得られる予測値と共に可視化して,点を選択することで追加すべきデータの性質を確認できる手法を提案しています.
スコアは 5,4,5,4 となっており,データが疎な領域を可視化するというアプローチの新規性・貢献にはどの査読者も肯定的でありつつ,いくつか問題点の指摘がありました.
1. ベイズ最適化に代表されるブラックボックス関数探索手法との差異を示すべき.
2. 提示された適用事例では不十分で,可視化の内容から注目箇所を読み取るのは困難に思える.
3. 提案手法に不向きな対象もあると考えられるが言及がない.
4. 被験者がその経験に基づいてどのように操作を進めていったのか分からない.
提案手法の有用性を確認するには不十分ですが,そうした点も含めて登壇発表での議論が有益と判断しました.