論文一覧に戻る

査読者 1

総合点

6

確信度

2

採否理由

本研究はマイクロタスククラウドソーシングを用いて二択の候補から優れているものを選択する際に、回答の偏りを考慮してクラウドワーカーの人数を抑える手法を提案している。手法はシンプルででありが信頼性の高いものであり、二枚の画像から良いものを選択するという設定における実験でも有効性を示している。そのため、本論文はクラウドソーシングを取り入れたインタラクティブシステムの設計において有益な手法であると考えられる。

一方で、実際にどのようにインタラクティブシステムに組み込むことができるのか、どの程度の効果(ワーカー削減人数、時間短縮)を見込めるかについて、より深い議論が必要であると考える。現在の評価では、二枚の画像から良いものを選択するというタスクで実験をしている。この評価がHCI研究やインタラクティブシステムを想定したものであるかを明確にすることは、本研究が提案している手法がHCI(WISS)のコミュニティにとってどのように有益であるかを示すうえで重要である。

この研究をよくするためのコメント

本手法がHCI研究やインタラクティブシステム設計にどのような貢献をするのかを明確にすることで、よりHCIコミュニティの聴衆にとって有益な論文になると考える。また、評価においてはインタラクティブシステム設計に寄り添った実験となると良い。

採録判定時のコメント

査読者3名とも、提案手法によりクラウドソーシングを用いて二択の候補から優れているものを選択する際にワーカーの数が削減されコストが抑えられることは評価しています。一方で、提案手法がインタラクティブシステムの設計にどのような寄与をもたらすのかという点に関しては、議論の余地があるという判断がなされました。そのため、本論文はショート採録(採録条件あり)とし、提案手法を用いたインタラクションの導入に関する議論の追加を採録条件とします。

レビューサマリ

3名の査読者のうち、1名がショート採録が強く推す、1名がショート採録に反対しない、という評価をしました。本研究のメインの貢献である、ワーカー数の削減に関してはすべての査読者が効果を認めていると判断しました。一方で、どの査読者からも本研究がWISSで発表されるべきかわからないという意見がありました。これは、提案手法とインタラクティブシステム(設計)がどのような関係にあるか、という議論が論文中で十分されていないからではないかと判断します。そのため、本論文はショート採録(採録条件あり)となりました。

ショート採録のために下記のような議論を追加することを条件とします。

・インタラクティブシステム設計にどのような貢献をするのか
・HCIコミュニティにおいて早期終了が可能だと具体的にどう有用なのか
・早期終了におけるインタラクションの導入の議論

査読では、インタラクティブシステムのシナリオに沿った実験があるとよいという意見もありましたが、こちらは採録条件にはしません。また、各査読が指摘している改善点に関しても対応をしてください。

その他コメント

査読者 2

総合点

4

確信度

2

採否理由

ご提案の論文は、一対比較タスク(AまたはBを選択)におけるクラウドソーシングを対象とした、ワーカの信頼度によって、クラウドワーカー数を途中で打ち切る統計的手法についての提案です。提案された手法は、従来の単純な早期終了法(Little et al., 2009)と比較して新規性があり、かつワーカ数を減らすための有効性が定量的に評価されています。クラウドソーシングやインタラクティブシステムの構築に関して、統計的手法を導入する(基礎的)研究は非常に有意義だと感じます。また、本手法も一対比較というタスクを実施する上で、WISS(HCI)コミュニティに有益だと思います。

したがって、採録となることに異論はありません。

しかし一方で、貴論文は汎用性の高いクラウドソーシングに関する手法(クラウドワーカ数の動的決定)の提案であるため、WISSでの十分な議論につながるのかが少し疑問です。予算制約という観点からは「Chen, X., Q. Lin, and D. Zhou (2015). Statistical decision making for optimal budget allocation in crowd labeling. Journal of Machine Learning Research 16, 1-46.」のような研究もあるようなのですが、同一予算でより品質の高いラベルを得るという点で、早期終了を目指す本手法の目的と類似しているところもあるように思います。そういう意味で、提案手法の新規性と有用性が適切に主張されているかを判断するには、人工知能の研究コミュニティでの議論が、より望ましいのではないかとも感じました。

この研究をよくするためのコメント

例えば、以下のような発展や議論があると、WISSやHCIコミュニティでのより良い発表につながるのではないかと思いました。
(1) 早期終了におけるインタラクションの導入:現時点で信頼度δの自動決定法が未開発ですが、そこにインタラクションを導入して決定するなど。
(2) 実用性の定量的(定性的)な評価:HCIコミュニティにおけるクラウドソーシングの利用方法の実態として、一対比較がどの程度あって、早期終了が可能だと具体的にどう有用なのか、という観点からの議論。

以下のように、論文の記述に改善点があると思いました。
・2章: Gurari とdGrauman -> Gurari とGrauman
・2章: 「ノイズを多く含むクラウドワーカーからの真のラベルを推論する方法が研究されている[2,8,10,9,6,5,11]」-> 個々の論文の簡単な説明があると良い。
・3章: 「この時,与えられた信頼度 δ」-> 「この時,事前にユーザが与える作業者集合(クラウド)の信頼度 δ」など。
・3章: 「もし| NiA - NiB |が閾値 λi より小さいなら,」-> 「もし| NiA - NiB |が閾値 λi 以下なら,」
・「この簡単な早期終了手法を,「標準的手法」と呼ぶ.」とあるが、「標準的な
早期終了手法」「標準的な方法」など、ばらつきがあるので、統一した方が良いのではと思いました。
・4章:「これは単純なベルヌーイ試行であるため,与えられた応答列の確率を解析的に計算することができる」について、これは二項分布を意味していると思うのですが、ページ数にも余裕があるようなので、P(X=k)の式を具体的に記述していただけた方が分かりやすいと思いました。
・4章: 「最大ワーカー数(n)に等しい長さのバイナリ応答列をすべて列挙する」も、一部具体例があると分かりやすいと思いました。
・Algorithm 2の中で、DYNAMIC関数がcountを返していますが、Algorithm 1にはその返り値がありません。おそらく、終了した時のiの値なのかと思いますので、修正いただけませんでしょうか。
・図1: δ=0.5..0.9 -> δ=0.6..0.9
・図4: 横軸を明記
・5章: 「50 件の応答から19 件の応答を無作為に抽出して応答列を作り」と「各タスクについて,10 万個の応答列を無作為抽出で生成し」がよく分かりませんでした。組み合わせC(50,19)に基づいているのでしょうか?(どこから)10万個を抽出したのか、生成したのかが分かりません。
・[8] O’Connor -> O'Connor

査読者 3

総合点

3

確信度

1

採否理由

達成しようとしている目標は、単純なA or Bを選択する課題において、結論が明白になった段階でタスクを終了することにより、判断の精度を維持しつつコストを削減することだと理解しました。
この内容がインタラクションを含むものか否かについての判断は保留します。その上でいくつか不明な点があります。
・そもそもの前提としてA/Bテストの結果は多数決で決まるものばかりではありません。というか単純な多数決だけで物事が判断される方が少ないと考えます。比較を行う場合、0.9:0.1と0.55:0.45の間には明白な差異があります。それを全部切り捨てた前提ははたして妥当でしょうか?
・P2の終わり近くでいきなりn=19という数字がでてきて、それがあとあとまで使われますが、この値の根拠はなんでしょうか?
・δ を手動で解析して設定する手間をトレードオフにかけ本当に本手法は「コストを大幅に削減できる」と主張できるのでしょうか?
・図4の横軸はタスクだと思いますが、どこにも記述がありません。
・同じく5項で「正解」「信頼度」という言葉が使われていますが、これは妥当な表現でしょうか?(定義されているのはわかります)信頼度という言葉が2箇所異なる文脈で用いられており、読解に苦労します。
全般的に主張の荒削りさが目立ちます。

この研究をよくするためのコメント

5項の最後から二つ目の文章の末尾だけが「します」になっています。