査読者1

[メタ] 総合的な採録理由

ピアノ学習者に対する遠隔指導手法として一定の新規性がある点,提案手法や実装を中心に論文の記述が明瞭である点が評価されました.一方,「EMSの性能や設計意図の記述不足」「タイミング制御手法の記述不足」「一部参考文献の不足」等が指摘されたため,ショート採録(条件付き)と判定します.

[メタ] 査読時のレビューサマリ

査読スコアは4,4,3,3となり,ボーダーライン上の論文です. 論文の良い点/悪い点をまとめると以下の通りです.
Positive
- 学習者に対する遠隔の指導の手法として一定の新規性がある(メタ,109,110)
- システムや実装の記述が明瞭である.(全員)
Negative
- EMSの性能や設計意図の記述が不十分である(メタ,110,117)
- イベントの同期やタイミング制御方法が不明である(メタ,110)
- 今後の課題の拡張像は飛躍があり不適切である(メタ,109)
- システムで指導する範囲と,口頭で指導する範囲が不明である(109)
総合すると,システムとして一定の新規性はあるものの,特にEMSの利用法やピアノ演奏支援手法としての設計等,有用性に関する課題があります. 採否判定会議での議論を経て,本論文は条件付きのショート採録と判断されました. 以下3点の条件に対応してください.
条件1. EMSの性能や設計意図を十分記述する.(メタ,110,117) やや重複する内容もありますが,関連する査読コメントを以下に抜粋します.記述個所等は著者にお任せします.もし,まだ考慮できていない点であるなら,今後の検討課題であることを明記してください. メタ: EMSの利用目的として,ユーザの打鍵を促す(EMSをトリガとしてユーザも指を動かそうとする)のか,あるいはその逆でユーザは何もしない(指の動く様子を観察する)のかが気になりました.演奏支援方法の設計思想にも関係しそうなので,記述いただけるとよいと思います. Review110: 「打鍵の強さに応じて与える EMS の強さを調節する.」とありますが、MIDIベロシティに比例してEMSの提示が強くなる、といった単純なマッピングのように読めます。この手法で「演奏時の手の形の効率的な伝達」や「EMS を用いて遠隔にいる指導者の指の 動きを学習者の指へ提示する」を達成できるか判断がつきませんでした。単純に強く押すべきか弱く押すべきかの提示は行えますが、それが指導者の(実際の)指の動きの提示と言えるかはやや疑問があります。(たとえば和音を演奏するときはあまりMCP関節は動かさないと考えられます) Review 117: 一方で,EMSによって与える刺激については,フィードバックの目的が明確でなく,なぜそのような実装であるのかの記述が不明瞭です. 論文中では指の動きや押す強さを提示すると書いてありますが,EMSの出力を256段階で制御できたときに,ピアノ演奏で必要な強弱とどのような対応になっているか,強弱をどの程度再現できるのかはシステムの設計に関わる部分であり,検討が必要であると考えます.
条件2. イベントの同期やタイミング制御方法を補足する.(メタ,110) メタ: MIDI情報をUDPで転送されているとのことですが,タイムスタンプは含んでいるのでしょうか?それとも,打鍵時にそのままMIDI情報を送るだけなのでしょうか?タイミング制御も非常に重要な研究だと思いましたので,どのように時系列を合わせているのか(あるいは合わせなくてもよいのか)気になりました. Review 110: MediaPipeでのハンドトラッキングとMIDIイベントの受信の同期はどのように行っているのか、論文中からは読み取れませんでした。カメラデバイスからのキャプチャし検出されるまでの遅延と、MIDIデバイスからのイベントの受信まで遅延は必ずしも一致しません。そのため、何らかの方法で同期する必要があると考えます。この同期ができていないと打鍵している指の判定が間違う可能性が高いため、この同期手法については言及すべきと思います。 条件3. 参考文献とその差分の説明を追加する.(メタ,110,委員会) メタ/Review110等で指摘された以下の参考文献等を引用し,提案手法との差分を端的に記述してください. メタ: UnlimitedHand: http://unlimitedhand.com/ https://h2l.jp/technology/ のbody sharingのビデオの後半に事例がいろいろ出てきます. 110: >たとえば以下の先行研究では、筋電センサを使用し熟練者の腕の動きを取得しそれに基づいたEMSによる提示を行う手法が示されています。 https://journal.ntt.co.jp/article/19169 >以下の先行研究では、指の各関節の角度にも触れられていますが、繰り返し打鍵においてほぼ同じ動作が繰り返されるという点に着目しています。 https://mocap.jp/wp-content/uploads/2020/01/%E3%83%92%E3%82%9A%E3%82%A2%E3%83%8E%E6%BC%94%E5%A5%8F%E3%81%AE%E5%88%9D%E6%9C%9F%E6%95%99%E8%82%B2%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E6%8C%87%E3%81%AE%E6%A7%8B%E3%81%88%E3%81%AB%E9%96%A2%E3%81%99%E3%82%8B%E8%80%83%E5%AF%9F.pdf 委員会: Synchronized Hand Difference Visualization for Piano Learning https://dl.acm.org/doi/fullHtml/10.1145/3532719.3543196 ※補足 なお,分量が不足するようでしたら,「今後の課題の拡張像は飛躍があり不適切である」という指摘がありますので,4.2.4章や4.3章を削除して頂ければと思います.

[メタ] その他コメント

総合点

4: どちらかと言えば採録

確信度

2: やや専門からは外れる

採否理由

概要:遠隔地間で,教師が生徒のピアノ練習を支援するために,教師側の手指の位置や打鍵情報を検出し,生徒側でHMDによるARと手指に対するEMS提示を組み合わせて再現する手法を提案,実装し,評価計画を示している. コメント: 楽器の演奏支援手法として,ARを用いた手法とEMSを用いた手法はこれまで複数提案されており,個々の要素技術としては新規性はありませんが,本提案では,現代的な開発環境(ライブラリ/ツールキット)を用いて,両者をうまくマージして遠隔でのピアノの教授支援を行う手法を提案・実装されています. 論文の記述の質は高く,参考文献も適切に引用されています. 一方,AR+EMSの組み合わせを想定した入出力装置自体はH2L incからUnlimitedHandとして製品化されており,この二つの技術の組み合わせ自体に大きな新規性があるとはいえません.(こちらも引用されるべきだと思います) - UnlimitedHand: http://unlimitedhand.com/ https://h2l.jp/technology/ のbody sharingのビデオの後半に事例がいろいろ出てきます. また,論文自体はよくかけていますが,EMSの実装が2ch(指二本分)しか行われていなかったり,評価実験が未実施である等,研究として発展途上と思われる部分も散見されます.(ただ,実装は技術的には拡張できそうで,評価実験も計画としては概ね妥当であるように思いました.) こうした点を総合的に判断して,4 Weak Acceptと判断しました. 以下,いくつか気になった点を記述します. - 論文の実装過程で,システムの性能がいくつか記述されていますが(「ハンドトラッキングにおけるフレームレートは20FPS 程度」「鍵盤の打鍵から指にEMS が与えられるまでの時間は約0.2 秒」等),このスペックが本研究の目的に照らしてどの程度十分なのかを簡潔に議論されるべきではないかと思います.長くなるようなら,議論などの章でまとめてもよいと思います. - MIDI情報をUDPで転送されているとのことですが,タイムスタンプは含んでいるのでしょうか?それとも,打鍵時にそのままMIDI情報を送るだけなのでしょうか?タイミング制御も非常に重要な研究だと思いましたので,どのように時系列を合わせているのか(あるいは合わせなくてもよいのか)気になりました. - EMSの利用目的として,ユーザの打鍵を促す(EMSをトリガとしてユーザも指を動かそうとする)のか,あるいはその逆でユーザは何もしない(指の動く様子を観察する)のかが気になりました.演奏支援方法の設計思想にも関係しそうなので,記述いただけるとよいと思います. - 「4.2.4 他の楽器への拡張」「4.3拡張したシステムの評価実験」は本論文の内容として必要ないように思いました.そもそもピアノ用のシステムが一部しか完成しておらず,最初の評価実験も行っていない状態でこうした先の先の議論に文面を割く必要があるとは思えませんでした.(手持ち型の弦楽器だとどこにカメラを付けるのか分からないなど,議論が発散しそうです)

この研究をよくするためのコメント

- 提案手法はリアルタイムに指導者が生徒に技能伝達する内容に現時点では特化しているように思いますが,遠隔コミュニケーションの特徴として手軽に情報を記録/非同期で再生できる点も重要だと思いますので,このような観点からの議論も今後進めていくとよいと思います.


査読者2

総合点

4: どちらかと言えば採録

確信度

2: やや専門からは外れる

採否理由

ピアノ演奏時にARハンドとEMSを利用することで、遠隔からの演奏指導を行うシステムを提案しており、学習者に対する遠隔の指導の手法として新規であると考えられます。 楽器の演奏は言葉だけで伝わりづらい手の動きや力の入れ具合など、直接対面での指導でも生じる課題が多々あると認識しています。対面以上にオンラインでは伝わりづらい課題が多く、その中で、ARハンドとEMSを利用し、指導しづらい課題の解決に取り組まれていることは有用であると考えます。 3章で提案システムについて丁寧に説明されており、システムの実装がわかりやすく記述されているのも評価できます。 他方で、3.5の指導のながれではフィードバックフェーズがあり、そこでは手の動き以外の技術的課題として運指、音の強弱、リズムの正確さなどを指導者が学習者にフィードバックすることが記述されており、提案システムで指導できる範囲と指導者が口頭で指導する範囲の整理が不明瞭であると見受けられます。 また、4章の今後の課題として4.2節で拡張していく将来像を記述されていますが、拡張の内容が飛躍しており、論文としてのまとまりが薄れてしまっているように見受けられます。 これらの結果から、一定の新規性や技術的貢献は認められるものの、論文としてのまとまりや提案システムの解決したい課題が不明瞭であると判断しました。

この研究をよくするためのコメント

今後の課題として拡張していく将来像を記述されていますが、まずはピアノ演奏指導のみについて課題を整理された方が論文として有用であると考えます。 (例えば、演奏指導がしやすい曲や演奏法、しづらい演奏法は何か。EMSチャンネル数の拡張とあるが、2チャンネルで指導できる範囲、10チャンネルで指導できる範囲はどこまでを想定しているのか。手の動きを評価の対象と考えているが、手の動き以外の技術的課題(論文内でもあるように、音の強弱やリズムの正確さなど)はEMSとARハンドでどこまで解決できるのか。)


査読者3

総合点

3: どちらかと言えば不採録

確信度

2: やや専門からは外れる

採否理由

本研究は、ピアノの遠隔指導において、ARによる指導者の手指の動きの提示と、EMSによる動かす指と強さを提示することで演奏時の手の動きの効率的な伝達と指導者の存在感の向上を目指したシステムの提案です。 従来研究のARだけ・EMSだけでの支援に対して、この2つを同期して提示する点が新規性として認められます。 一方、実装に関して、有用なシステムとなっているかが論文中の記述、参考動画からは判断がつきかねる部分がありました。 ○「打鍵の強さに応じて与える EMS の強さを調節する.」 とありますが、MIDIベロシティに比例してEMSの提示が強くなる、といった単純なマッピングのように読めます。 この手法で「演奏時の手の形の効率的な伝達」や「EMS を用いて遠隔にいる指導者の指の 動きを学習者の指へ提示する」 を達成できるか判断がつきませんでした。 単純に強く押すべきか弱く押すべきかの提示は行えますが、それが指導者の(実際の)指の動きの提示と言えるかはやや疑問があります。 (たとえば和音を演奏するときはあまりMCP関節は動かさないと考えられます) ○MediaPipeでのハンドトラッキングとMIDIイベントの受信の同期はどのように行っているのか、論文中からは読み取れませんでした。カメラデバイスからのキャプチャし検出されるまでの遅延と、MIDIデバイスからのイベントの受信まで遅延は必ずしも一致しません。そのため、何らかの方法で同期する必要があると考えます。 この同期ができていないと打鍵している指の判定が間違う可能性が高いため、この同期手法については言及すべきと思います。 ○EMSを使用し、ピアノ演奏の支援を行う先行研究がいくつか存在するようです。以下の先行研究では、筋電センサを使用し熟練者の腕の動きを取得しそれに基づいたEMSによる提示を行い、トレモロ演奏の習熟度を上げる手法が示されています。関連するようであれば、リファーするべきと思います。 https://journal.ntt.co.jp/article/19169 https://dl.acm.org/doi/abs/10.1145/3526113.3545666 https://dl.acm.org/doi/abs/10.1145/3478110 https://dl.acm.org/doi/abs/10.1145/3594738.3611373 これらのポイントから、条件付きでの採録が妥当と判断しました。 (EMSの設計意図・同期機構についての記述の追加、関連論文の引用追加)

この研究をよくするためのコメント

○図4の左手の小指や薬指など、実際には鍵盤とぎりぎり衝突が検出されていない指、複数の鍵盤と衝突している指、複数の指が鍵盤に衝突している、というケースがありそうです。このような場合にどのような結果となるでしょうか。 この精度は仮想ピアノと現実のピアノの位置合わせや、AR ハンドのサイズ 調整の精度に依存するようにも思います。 ○カメラは中央の鍵盤より左右奥の鍵盤の方が角度がつき歪みも出るため、一つのカメラからの情報で提案手法による衝突検出を行った場合の精度がどの程度か興味があります。予備調査としてこの衝突判定がどの程度正確かの評価を行うのも良いかもしれません。 ○「鍵盤の打鍵から指 に EMS が与えられるまでの時間は約 0.2 秒であっ た.また,指が動き始めてから最終的な指の形にな るまで,最大約 0.4 秒かかった. 」とありますが、この遅延に応じて提示を行い始めるタイミングを変えるなどの工夫が考えられます。そのような工夫の必要性の有無など、評価ができると良い知見になるように思います。 ○以下は感想ではありますが、このシステムが何を目的とするかによってEMSを用いた提示手段が変わると思います。 もし、本当にピアノを上達させること(熟練者の体の動きを伝えること)が目的であれば、指の形を提示する手法が最適であるか検討が必要そうに思います。 たとえば以下の先行研究では、指の各関節の角度にも触れられていますが、繰り返し打鍵においてほぼ同じ動作が繰り返されるという点に着目しています。 https://mocap.jp/wp-content/uploads/2020/01/%E3%83%92%E3%82%9A%E3%82%A2%E3%83%8E%E6%BC%94%E5%A5%8F%E3%81%AE%E5%88%9D%E6%9C%9F%E6%95%99%E8%82%B2%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E6%8C%87%E3%81%AE%E6%A7%8B%E3%81%88%E3%81%AB%E9%96%A2%E3%81%99%E3%82%8B%E8%80%83%E5%AF%9F.pdf

査読者4

総合点

3: どちらかと言えば不採録

確信度

3: 自身の専門分野とマッチしている

採否理由

システムによる演奏動作の取得に関しては,分かりやすく書かれています. 一方で,EMSによって与える刺激については,フィードバックの目的が明確でなく,なぜそのような実装であるのかの記述が不明瞭です.フィードバック機構の実装が指10本のうち2本であっても,EMSによるフィードバックの意図が説明されていればよいのではとは思いましたが,その説明があまりありません.また,このような練習支援システムを用いる場合,この点は新規性に関わるため,どちらかといえば不採録という意見です. 論文中では指の動きや押す強さを提示すると書いてありますが,EMSの出力を256段階で制御できたときに,ピアノ演奏で必要な強弱とどのような対応になっているか,強弱をどの程度再現できるのかはシステムの設計に関わる部分であり,検討が必要であると考えます.

この研究をよくするためのコメント

・対象者のレベルについても記載しておくとよりよいと思います. ・この研究のモチベーションとしては,遠隔での練習支援とのことでしたが,それ以外にも応用があるように思いました.今後研究を進めて論文としてまとめる際にはそのようなこの技術の応用についても述べられるとよいのではと思いました.