査読者1

(Primary)レビューサマリ

シンプルな構成でイヤホンにおけるささやき声での音声入力手法を実現した点を全ての査読者が評価しており,採録よりの判定をしています.実験は1名のみですが,議論において幅広く網羅的な議論を行っており,WISSにおいて議論する価値の高い論文だと考えられ,採録と判断しました.
最終原稿には各査読者の指摘する改善コメントを反映いただけますと幸いです.

(Primary)採録時コメント

シンプルな構成でイヤホンにおけるささやき声での音声入力手法を実現した点を,全ての査読者が高く評価した.実験は1名のみだが,論文中の議論において幅広く網羅的な議論を行っている点も興味深く,採択にふさわしい論文であると判断された.

(Primary)論文誌として必要な改善点

被験者の増加,多言語での認識性能の改善などが考えられます.

総合点   (1: 強く不採録~6: 強く採録)

4: どちらかと言えば採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

3: 自身の専門分野とマッチしている

採否理由

本論文では,イヤホンのスピーカ部先端に配置されたマイクを用いた,ささやき声入力手法を提案しています.今後のLLMの発展に伴い,より高度なAIアシスタントとのやり取りを考えた際には発話によるやり取りが重要であり,本手法ではささやき声によりこれが実現できる可能性を示しています.また,既存イヤホンでも外耳道内側にマイクを配置しているものはあるため,広く適用可能であるという点,追加学習などが必要なく既存の音声認識機構を活用できるという点で有用性,実現可能性は高いと考えました.
既存システムを活用できる利点の一方で,技術的な新規性という点には一定の限界があると感じました.
しかし,議論で述べられている今後の展開については興味深く,今後の展開に期待できるのではないかと考えました.
これらを総合的に考慮し,総合点を4とさせていただきました.

改善コメント

査読者個人としては,図5に示される特徴を興味深く拝見し,このあたりをさらに調査されるとより魅力的な研究になる可能性を感じました.

査読者2

総合点   (1: 強く不採録~6: 強く採録)

6: 強く採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

・提案されている内容の新規性(先行研究との差分が十分にあるか)
数あるサイレントスピーチの研究の中で、ANCを利用した、外耳道閉鎖型の骨伝導マイクの提案により、1)口をデバイスで塞がない、装着方法、かつ、2)音声コマンドを限定せずとも音声入力できる二点に十分な新規性がある。

・有用性(実際に役に立つか),正確性(技術的に正しいか)
イヤホンに骨伝導マイクを埋め込むだけで、80 dB(A)以下の環境下における囁き声の認識ができる点は、騒音下での汎用的な入力インタフェースとして役に立つ。実装方法も、埋め込んだマイクとANCを併用するだけでよく、単純かつ汎用性が高い。また、瞬き目の検知によるwakeupの可能性も、単純なwakeup動作として有効である。
ただし、議論に書かれているように、骨伝導マイクでイヤパッドのスピーカーを塞ぐと、外部からの音声と、スピーカーによる音の再生が、非常に聞き取りづらくなる。どの程度、元の音声を歪めるかの評価が今後あると望ましい。

実装、実験と評価含め、再現できるように書かれている。ただし、ささやき声の音量を、どのようにして40dB(A)に合わせるか、誤差はないのかが分からない。

・論文自体の記述の質(分かりやすく明確に書かれているか)
サイレント音声入力の関連研究に関する、明確かつ網羅的な記述に加え、徹底的な実験結果と明確な考察が素晴らしい。

改善コメント

1. 両耳にWhisphoneをつけることで,新たに可能となる音声入力システムがあるか,あるいはSN比の改善ができるかが知りたい.片耳と比べてSN比,音泉認識の精度が変わらないなら,その評価も含めるとよりWhisphoneの実用性が増す.
2. 外耳道などを含む耳周辺の構造図を使って,囁き声が骨伝導によりどのように伝わるかのイラスト,または構造解析の結果があるとより分かりやすい.特に,周波数成分に対する,耳周辺における減衰度合いのマップが欲しい.
3. NO60,NI60A,NOBGなど,略称がわかりずらい.

査読者3

総合点   (1: 強く不採録~6: 強く採録)

6: 強く採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

3: 自身の専門分野とマッチしている

採否理由

公共空間での騒音環境下で、ささやき声の発声を、カナル型イヤホンを装着するだけで音声認識できるようにする新たな手法を提案した論文で、高く評価できる。読んでいて楽しく、かつ、WISSで発表したときにいろいろな議論が広がる採録すべき論文だと判定した。

本論文は、以下の点が優れている。
・シンプルだけど有効性の高い手法で、ありそうに思われるかもしれないが、アクティブノイズキャンセリングやクラウドベースの高精度な音声認識技術が充分普及しているからこその提案という側面もあり、従来なかった可能性が高い。査読者は絶対になかったと新規性を担保できる専門性までは有していないが、論文の先行研究に関する記述は充分に詳細で、その記述を信頼する立場を取る。
・騒音環境下で、外耳道閉鎖、アクティブノイズキャンセリングによるS/N比改善の効果を検証し、ささやき声収録とその音声認識が可能であることを実験的に示している報告は優れており、コミュニティに共有する価値がある。
・アクティブノイズキャンセリング付きのカナル型イヤホンに、MEMSマイクを装着しただけのシンプルな実装かと思ったら、Pinebuds Proのオープンソースのファームウェアを書き換える工夫までしていて、工作的な実装を超えたすごさがある。
・4章の議論が、幅広く網羅的であり、極めて優れている。本問題を解決して実用化しようと真剣に考えた研究者以外に不可能な議論だといえる。この章だけでも、WISSで議論する価値があると感じさせるすごみがある。特に、「発話による外耳道変形と入力への応用」や「発声手法」「オートベント」の議論は素晴らしい。「他言語への対応」も、まさか英語の認識性能がそこまで低いとは驚きである。
・新規性、有用性、正確性、記述の質のいずれも、採録のクオリティを達成している。

国際会議に本論文を投稿したときに起きうる批判としては、
・一名の実験結果に基づいているため、他の人に有効なのか、個人差がどれぐらいあるのかが不明である。
・図3で、せっかくファームウェアまで書き換えたPineBudsの性能がやや落ちる点が残念である。
・日本語では動作するのに、英語での音声認識性能が低すぎる。
あたりかと思われるが、WISSでの採録の妨げにはまったくならない。むしろ、英語の認識性能が低い点については、日本語の言語的有意性を活かした新たなインタラクションとして積極的に活用するのも興味深い。

改善コメント

良く書けた論文で、特段の問題はない。強いて言えば以下の3点が挙げられる。
・「…とは言え,」や「静かな未来がやってくるのだ.」は、学術論文の記述としては賛否がわかれるかもしれない。ただ、著者は意図的に使っていると思われ、ワークショップ論文なのだし、これぐらい主張が強い記述があっても問題はないと判断する。
・「実環境の暗騒音」と、本文や図2に出てくる「静寂環境」が、同じ「33dBの環境」であることが(特に予備知識に乏しい読者には)ややわかりにくい。その点に配慮した記述にすると、了解度が増す。
・「外耳道開口部を塞いだ状態 [WIBG] では,主に500-1.5kHzの領域で,同じ ささやき声を最大20dB程度のノイズマージンで取得することができている」の記述で、唐突に「500」Hzが出てくるが、それが図2とは一致しないので読んでいてこの段階では困惑する(図2では、もっと下の周波数帯域までノイズマージンがあるように見える)。読み進めると、後から了解はできるが、最初からわかりやすく改善できるならばその方がよい。

査読者4

総合点   (1: 強く不採録~6: 強く採録)

5: 採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

本論文の主張はカナル型イヤフォンの内部にマイクを取り付けることによって外耳道壁からの骨導音声を効率的に取得できる,というものです.このことによって,従来よりも小さなささやき声でも音声認識が可能になるとしています.1名による実験で,提案法の効果を確認しています.

・提案されている内容の新規性(先行研究との差分が十分にあるか)
提案内容はカナル型イヤフォンの内部にマイクを取り付けることによって外耳道壁から発出される骨導音声が効率的にとれるというアイディアを実装したものです。耳の中にマイクを入れるという発想自体はおそらくこれまでもあり、補聴器に関する特許などもあるようです。
https://patents.google.com/patent/US5987146A/en
今回の発想は密閉された耳管内にマイクを取り付けるもので、特許であれば以下が近いかもしれません。
https://patents.google.com/patent/US5692059A/en
このような既存の提案があったとしても、ささやき声にこれが適用可能、かつ、優れた特性を持つことは自明ではないので本研究は新規性を有すると言えます。

・有用性(実際に役に立つか),正確性(技術的に正しいか)
肉伝導マイク,マスクに取り付けられた静電容量マイクなどに比べて日常生活における装着性や騒音環境下での実用性において優れています.骨伝導マイクと比べても,収音性能が高く,有用性は高いものと思われます.予備実験は1名のものであり結果の信頼性は必ずしも高いとは言えません.

論文では実装について詳しく述べられており,また,予備実験から性能評価ができています.手法の短所についても議論がされています。例えば誰もが疑問に思うであろうイヤフォンからの音楽再生時にも音声認識が可能であるのかという問題についても一定の回答を与えており、技術論文として十分な内容が含まれているように思います。

・論文自体の記述の質(分かりやすく明確に書かれているか)
論文の記述自体について、やや注釈が多く、特徴的な文章になっているところはあるかと思いますが、初めて読む読者にとっても提案法の技術的理解や取り組もうとしている問題について理解できる品質があると思います。

改善コメント

本手法においてS/N比向上のために中心的な役割を果たすANRで除去しきれなかった残留成分が音声認識に対して悪影響を及ぼす可能性はあるでしょうか.

例えば含まれる文章に提案手法が苦手とする音響成分が含まれており,音声認識がうまくいかない場合はあるでしょうか.それはどんな場合でしょうか.他言語への対応の部分で議論がありますが,日本語においてもうまくいかない場合があるのではないかと疑問に思いました.

記述をみのがしたかもしれませんが,本研究で対象とするささやき声はどんな音響的特徴(含まれる周波数成分など)を有しているでしょうか.