査読者1

[メタ] 総合的な採録理由

スマートフォンのフロントカメラで撮影された顔写真を使用し、ユーザの角膜に反射したスマートフォンの画面の反射像を機械学習で分類することで、把持姿勢を推定する手法を提案している。総じて新規性があり、応用範囲も広く考えられる手法であると考えられる。現状の手法のままでは利用環境が制限されることが考えられるため、更なる工夫が期待される。

[メタ] 査読時のレビューサマリ

本論文は総合点が「5,5,4,4」であり、全員が採録寄りの判定をしています。一方で、全員が何らかの改善点や手法の制限について言及しており、また改訂の提案をしていますので、適切に修正のうえ、最終版の提出を期待します。

[メタ] その他コメント

全査読者が指摘している通り、論文は改訂が必要と思います。しっかりと確認し、最終版を作成してください。

総合点

5: 採録

確信度

3: 自身の専門分野とマッチしている

採否理由

角膜に反射したスマートフォンを把持している画像を用いて、把持姿勢を推定する手法を提案しています。当該手法はACM CHI2022およびEC2021で発表されたものです。議論が追加されていますが、ほぼACM CHI2022の和訳版であると言えるでしょう。新規性、有用性、正確性などについては、使用されたCNNのモデル以外は十分であると考えられます。ページ数に余裕がありますので、これは追記しても良いでしょう。また、論文自体の記述の質は多少検討の余地はあると思います。 総じて、採録には問題ないとは思います。

この研究をよくするためのコメント

- EC2021での発表についても言及されたほうが良いと思います。
張翔, 池松香, 加藤邦拓, 杉浦裕太, 角膜反射を利用したスマートフォンの把持姿勢推定. Entertainment Computing 2021. 2021年8月30日-9月1日. http://id.nii.ac.jp/1001/00212442/
- 実験結果で「他ユーザ学習」と「全ユーザ学習」という言葉が出てきていますが、これは正しい用語でしょうか?ユーザ内学習やユーザ間学習とかのほうが分かりやすいでしょうか。少なくとも全ユーザ学習は意味が分かりません(CHI2022の原稿でもall user learningとなっていますが、一般的な言葉ではないと思います)。適切な言葉を使用するべきだと思います。
- 図4の混合行列が他ユーザ学習なのか、全ユーザ学習なのか、示されていません。
- 論文中で、たまに全角数字が使用されています(例えば、図4)。


査読者2

総合点

5: 採録

確信度

2: やや専門からは外れる

採否理由

4.1 「撮影する際には画面が白くフラッシュする」という点についての妥当性に疑問があります.著者らの想定している把持状態推定の実施タイミング,頻度を考慮して,都度フラッシュすることについて議論が必要かと思います.(持ち方を変えるたび,あるいはアプリの画面が変わるたびにフラッシュされると目がチカチカするとおもいます.消費電力というよりはユーザビリティの点で疑問をもっています.) 端末と顔の位置関係に関する制約も議論が必要に思います.顔と画面が平行になっている状況で撮影したように,本文から読み取りましたが,そのような場面は比較的少数かとも思います.

この研究をよくするためのコメント

日本人の黒目の場合,高い性能が得られるのかなと感じまして,様々な瞳の色で試されると面白いと感じました.


査読者3

総合点

4: どちらかと言えば採録

確信度

3: 自身の専門分野とマッチしている

採否理由

本研究では、スマートフォンの操作性を向上させるために、角膜反射の画像からユーザの把持姿勢を推定することを目標としています。これは、近年話題となった「顔写真の瞳に映った景色を手掛かりに、人物の居場所を特定する」ことから着想を得ていることが予想され、それを把持姿勢の推定に利用したアイディアは斬新だと思います。しかしその一方で、システムの説明があいまいな箇所がある点や、この方法自体が(そもそも)実用的なのかといった点で疑問があります。
- 本研究のモチベーションについて 今回のシステムは、(事前に用意した)6種類の把持姿勢に分類するclassifierです。 あくまでも個人的な意見ですが、把持姿勢に対してより良い操作性を提供したいなら、classifierによる推定(6種類の分類)を行うより、「ユーザ自ら、どの把持姿勢なのかを選択するだけで良いのでは?」とも思います(それなら親指かの人差し指かといった判定ミスもないので)。
- 推定したい把持姿勢数について イントロ部分では、既存手法[4,7,16,22]は推定できる把持姿勢数が少ないと主張していますが、提案手法での推定可能な姿勢数は6種類に過ぎず、それほど多くない印象です。そこで既存手法が何種類ぐらいを分類しているのか、今回なぜ6種類にしているのか(6種類で十分な理由)を記載してもらいたいと思っています。
- CNNベースの学習器の話 顔写真をクロップし、角膜反射の画像を取得していますが、画像サイズに関する記載がありません。なので、撮影する顔画像や角膜反射画像のサイズ(ピクセル数)を記載していただきたいです。また、CNNのモデルの学習ステップの画像サイズも追記する必要があると思います。 また、今回の学習データやテストデータとして用意した画像の撮影環境が記載されてないと思います。例えば、周りに複数の照明(色付き)があった場合は、角膜反射の画像はかなり異なるものになります。今回はおそらく、学習データやテストデータでの照明環境は同一 + 白背景など統一したものを使用していると思いますが、これらについても説明が必要です。
- 評価実験について 現時点では、被験者の属性(年齢や利き手など)や識別精度が記載されていますが 個人的には端末のサイズに対する「手の大きさ」「指の太さ」が推定にかなり依存するものだと思います。例えばAさんの親指が平均より細い場合や長い場合や、ほかのデータとミックスされた状態だと人差し指と認識されやすくなるなど。もし、精度が下がった場合に対する考察として、手の大きさや指の太さなどについても記載すると良いかもしれません。

この研究をよくするためのコメント

画像分類機として、CNNモデルを使用していますが、なぜこの手法を用いるのが良いのかについて、説明が不足している印象でした。今回のような6種類の分類だけで良いなら、もっとシンプルな学習器でも十分な精度が出せる可能性があるので、ほかの学習器との比較検証があるといいかもしれません。 また、(パッと思いついたアイディアに過ぎませんが)もし入力情報を増やしてよいならですが、ユーザの手のひらの画像を追加することで、手の大きさや指の長さ、太さを考慮した推定ができるかもしれません。

査読者4

総合点

4: どちらかと言えば採録

確信度

2: やや専門からは外れる

採否理由

この論文ではスマートフォンの持ち方に応じて適切なUI表示へ切り替えるために, 正面カメラ画像に写った眼の角膜反射像内の指の影による光の欠け方から把持姿勢を認識する手法を提案している. スマートフォンの把持姿勢を検出する手法は過去にいくつもあるが, センサを追加しなくてよい点やデバイス依存が少ないなどの利点があり, 新規性がある. 技術的にも適切に実装されており評価も適切におこなわれている. 論文としても全体としてよく書けており, 採択してよいと判断する. 本システムを実際に利用するためには以下のようにいくつか問題点もあるようにみえるが, 論文でも述べられているように他のセンサを利用した手法と組み合わせることでより実用的なものとなるとおもいます. この点についてWISSの発表で議論されることを期待します. 実際の場面では必ずしも撮影時の画面が明るい色合いでないことが想定されます (例えばダークモードなど). または画面に映っている模様によっては認識が阻害されてしまう可能性もあります. 周囲の光源についても, スマートフォン使用時に周囲が明るいとは限らず, その場合目の認識が失敗してしまう恐れがあります. さらに, スマートフォンを操作するとき, 必ずしも行儀の良い姿勢で (正面に顔が写るような状態で) あるとは限らないというのも実用上は問題となるとおもいます. 例えば斜め位置から横目で操作, や寝転がりながら操作, などどんな姿勢でスマートフォンに向き合っているかはわかりません. こうした様々な状況に対応するにはやはり他の手法と組み合わせる必要があり, どこでどの手法を使うフローが一番効果的なのかの検証が今後必要になると考えられます. また, 瞬間的な把持状態が必ずしもユーザの次の操作意図を表しているかというとこれも疑問があります. 例えば, 右手人差し指で画面をタップ操作しようとするときには, まず左手掌でスマートフォンを持ってから右手をスマートフォンの上にかざす, という順序になることが多いかとおもいます. この場合人差し指を添えようとしている途中で先に左手親指での操作が認識されてから右手人差し指に切り替わってしまう可能性がありユーザを混乱させてしまいそうです. まとめると, 角膜反射を撮像することによる把持状態推定は有用であると考えられるが, どのタイミングで撮影するか, またはどのように他の手法と組み合わせていくかはさらなる考察が必要であると考えられます.

この研究をよくするためのコメント

追加のセンサを必要とせずかつデバイス依存も少ないという提案手法の利点はよく理解できましたが, 角膜反射像を利用した手法ならではのUI遷移の例についてもう少し記述があるとよいと思いました.