本論文は総合点が「4,3,4,4」でした. ヒアラブルデバイスのためのジェスチャ認識のためにイヤホンからの音漏れに着目した点は非常に興味深く, 査読者全員が新規性を認めています. しかしながら, 実使用を想定した場合に大きな制限がある点や, イヤホンから比較的大きな音量を再生することによる安全性への懸念があるため, 今後のさらなる手法の工夫に期待する.
各査読にもあるように耳元である程度の音量で音を再生することについて, 読者の安全性の面での懸念を払拭できるようさらなる検証をすべきかとおもいます.
4: どちらかと言えば採録
3: 自身の専門分野とマッチしている
この論文では, ヒアラブルデバイス上で4種類以上の多様なジェスチャコマンド操作を実現するためにイヤホンからの音漏れを利用する手法を提案している. イヤフォンからの音漏れが形成する音場が耳周囲での手に影響されることに着目してジェスチャ認識をしたという着眼点は非常い面白い. しかしながら, 可聴域でのチャープ信号を必要とするため, ヒアラブルデバイスでのコマンド操作を想定しているにも関わらず, 音楽やボイスメッセージといった本来の機能を利用しながらの入力ができないという致命的な問題も残っている. 音漏れに着目するにしても, 可聴域外の音を使った方法や, 音楽などを再生しながらでも利用できる方法を検討すべきである. また, 最初のモチベーションでAirPodsなどと比較して多様なコマンド操作を実現したいと述べているにも関わらず3~4種類のジェスチャ認識にとどまっている点も問題です. このようにまだいくつか課題が残っており荒削りな研究ではあるが, 手法自体は興味深いものであり, チャープ信号の音漏れによるジェスチャ認識がどの程度機能するかに関しては適切に評価されているため採択してWISSで議論の題材とするには適切な論文だと判断する.
・6.1章, 高周波での認識精度が低いのはMFCCを採用していることもひとつの原因かとおもいます. MFCCは人間の聴覚特性に合わせて低域の特性がより大きく影響するようになっているので高域の変化をみるには不適切です. 耳介に入れることのできるスピーカ, マイクは小型であり当然低域より高域のほうに特性が偏っているはずなので高域で認識精度が出るように手法を設計すべきです.
・個人差が大きく出るのは, 耳元での手姿勢を静的なものとして認識しているからだとおもいます. 耳元での手の動き方のほうを認識させるとこの個人差の影響はずっと小さくなるとおもいます.
上記のように音楽やボイスメッセージといったヒアラブルデバイス本来の機能を利用しながらの認識が可能になるような手法を目指すべきだとおもいます. 例えばステレオスピーカーで超音波を再生して, その音場内で動作したときのドップラー効果をみることでジェスチャ認識をおこなう研究もあります [1]. ただし, 可聴域外の音を使用した場合はかなり音圧を上げる必要があるため耳への負担も懸念されます. また, チャープ信号などの測定信号を使わずに任意の音, 音楽でインパルス応答を測定する研究もあります [2]. これらの手法がイヤフォンからの音漏れ音でも有効であるかどうかは検討する価値があるとおもいます.
[1] SoundWave: Using the Doppler Effect to Sense Gestures, Sidhant Gupta, Dan Morris, Shwetak N Patel, Desney Tan, CHI, 2012. https://www.microsoft.com/en-us/research/project/soundwave-using-the-doppler-effect-to-sense-gestures/
[2] Safeguarding test signals for acoustic measurement using arbitrary sounds: Measuring impulse response by playing music, Hideki Kawahara, Kohei Yatabe, Acoustical Science and Technology, 2022. https://www.jstage.jst.go.jp/article/ast/43/3/43_E2175/_article
3: どちらかと言えば不採録
2: やや専門からは外れる
本論文では,手で耳を覆いながらイヤフォンから大きな音を出し,そこから漏れる音をマイクで解析することで手がどのように耳を覆っているかの数クラス分類を行い,これをもってジェスチャ入力とする手法が提案されています.個人分類では高い識別精度がでている一方で,学習データを交差させる場合にはまだ個人差がある結果となっています. スピーカとマイクで完結してジェスチャ認識を可能とする手法は興味深く,音によるジェスチャ認識には将来性を感じます.一方で,耳外の形状を確認するために耳内へ大音量を流す,という手法にはやや限界があるようにも思われます.
ヒアラブルデバイスとして,現在実装可能な接触型スイッチの数だけでは,どのような操作が足りず,そのためどのような操作に対してどのようなジェスチャをマッピングするか,という議論があるとより実現に近い技術に感じられるように思いました.あるいは,音によるジェスチャ認識の限界を試すような技術提案・実験結果が得られると,逆にアプリケーションに対して有意な提案ができるように思います.
4: どちらかと言えば採録
1: 専門外である
ワイヤレスイヤホンにおいて、マイクとスピーカという構成で音漏れ音を取得し、耳付近のジェスチャについての認識可能性を議論しています。 スイープ信号を流し、マイクでその音を取得して解析することでジェスチャ・形状を取得する研究は既にいくつか報告されていますが、この論文はヒアラブルデバイスに適用し、且つ音漏れに着目した点は新規性があると考えます。 また、実際に提案手法の実現可能性を調べるために実験行っており、平均90%以上で認識可能なことを確認しています。 ただし、有用性については疑問が残ります。まず著者らが述べている通り、可聴域の周波数を使用していて、かつ80db程度の大音量で流している以上、この手法を実用上使用することは難しく感じました。 図7での結果を見るに、可聴域外に近い17.6kHz以上の周波数を用いた場合の精度が30%ということから、今後もまだ技術的な課題が残されていると感じました。 このように、現時点での有用性については疑問が残るものの、WISSで議論をするに値する興味深い論文であるため、このような評価としました。
4: どちらかと言えば採録
1: 専門外である
著者らは、イヤホンからの音漏れ信号から、耳を覆う手形状の認識手法について検討をおこなっている。 イヤホンの音漏れ信号を利用して検出する試みには、一定の新規性があると考えられる。 一方で、提案手法の特徴が市販デバイスに追加デバイスなしで実現できると主張しているのにも関わらず、市販デバイスの制約から外部マイクを外付けして実現している点については疑問が残る。また、視聴している音楽ではなく、測定用の信号でのみ評価していることから、有用性についてはやや疑問点が残る。 しかしながら、イヤホンの音漏れ信号を活用して、手形状の認識をおこなう試みには一定の新規性があると考えられるため、WISSでの発表としては議論を呼ぶものと考えられる。
提案手法の特徴が市販デバイスに追加デバイスなしで実現できると主張しているのにも関わらず、市販デバイスの制約から外部マイクを外付けして実現している点については、論文の正確性の観点から表現を改めることを検討してください。
ヒアラブルデバイスのためのジェスチャ認識のためにイヤホンからの音漏れに着目した点は査読者全員が新規性を認めているが, 実用性の面や安全性に大きな疑問が残る論文である. 音漏れを用いたジェスチャ認識自体についてはWISSで議論することに価値があると判断し, ショート採択とするのが妥当である.