本論文は4名の査読者に査読され、いずれの査読者もWISSの登壇発表として採録するべきかという観点では賛成しています。したがってロング採録と判断されました。 しかしながら、認識するビートに個人差があるという点が本研究の大前提にあるにも関わらず、評価としてこの前提を反映していないような実験設計がなされている点には疑問の声が挙がりました。例えば「複数の解釈ができる楽曲に対して,それぞれのビート位置に高速に適応するかどうかをチェックする」ような実験が必要かと思います。前提と評価内容にねじれがあることから、WISS当日の議論が噛み合わなくなるのではないかといった懸念が査読者間の議論で挙がりました。 採録条件ではありませんが、そのようなねじれについて本文中で丁寧に議論するよう改訂することが望ましいです。また、当日も聴衆に対してその点が混乱なく伝わるよう工夫することを期待します。 以下に査読コメントの要点を抜粋します。 ## 論文として + よく書けている (R12, R13) + 提案手法の有効性がクリアに示されている (R12) ## 一般的な技術として + 高い技術と応用可能性がある (R4, R13) + 提案技術の有用性を拍節解析という一つのタスクで示したことは価値がある (R4) - 手法自体に新規性があるのかどうかが不明瞭である (R12, R13) ## 拍節解析手法として + 人手による部分的な修正がその曲全体へ効果を及ぼす研究はこれまでになく新しい (R13) - 既存手法の結果を手動で直すというやり方と比較してどうかという議論がない (ため、拍節解析手法としての有用性が不明である) (R14) - 楽曲の自己相関性によっては対応できないことが予想される (R14) - 修正してほしくないところまで修正されてしまう問題に関して、インタラクションの観点からの議論が不足している (R13) - ビートをユーザが訂正するインタラクションの既存研究への言及がない (R13) ## 評価実験の妥当性 - 正解に個人差があるという前提を踏まえると、「個々人が認識するビートを正解データにする」あるいは「複数の解釈ができる楽曲に対して,それぞれのビート位置に高速に適応するかどうかをチェックする」ような評価実験が必要である (R12, R14) - 実験においてタスク終了判定に疑問がある (R14) - 実験結果から結論への導出に強引な箇所がある (R14) - 実験説明に不十分な点がある (R12, R13)
6: 採録を強く推す
2: やや専門からは外れる
本研究では、特に楽曲に対して拍の情報を付与するタスク(拍節解析)を実施するための、深層学習による自動化技術とユーザからの対話的入力からの適応的な制御機構を組み合わせた新しい技術の提案と実証を行っている。深層学習による自動化技術の精度は様々なタスクで高くなっている一方で、ユーザ自身の感性に基づくことによってしかタスク達成状態を定義できないような、本質的に汎用自動化技術では解決できない問題が多く存在する。拍節解析もそのような汎用自動化技術では解決できない問題の一つであり、これをhuman-in-the-loopなアプローチによって解決しようとしている点は、大変意義深い研究であると思われる。 中野ら [5] の研究事例だけでなく、画像のアノテーションや編集伝播など、様々な解析・創作タスクにおいてこのようなhuman-in-the-loopなアプローチは研究されている。本研究で提案されているattention機構に基づく対話的なモデル適応手法は、拍節解析に限らず、様々なタスクにおいて転用可能な一般的なアイデアであると思われる。その意味で、この技術を提案しその実用性を一つのタスクで示したことは、大きな学術的貢献であると考えられる。 このような技術的な発想が面白い研究をWISSにおいて議論することは、WISS参加者にとって有意義であると思われる。したがって、採録を強く推薦する。
4: どちらかと言えば採録
2: やや専門からは外れる
ビートトラッキング研究の歴史をふりかえると,初期はSimon DixonのBeat Root(Dixon 2001)を始めとしてオンセットの検出結果に基づいた手法が多く用いられ,現在ではフレームのMFCC特徴量を直接学習する手法が盛んなように思えます.(Bock & Schedl 2012; Krebs et al. 2015; Durand et al. 2015) ジャンルにもよりますが,DNNを用いない時代の手法でも精度は80%近くであり,DNNの研究の場合,たとえば https://archives.ismir.net/ismir2016/paper/000186.pdf の評価によると,Ballroomデータセットにおいて90%を超える精度での推定に成功しています. こうした背景から考えられるのは,たとえばBockらの手法の結果を適用し「1割以下に収まっている修正箇所」を手動で直していくというやり方です.本提案については,これと比較してどうかという議論の必要性を感じます.特に,本手法は,ネットワークを更新することによって,適応の過程で精度が急激に低下したりしているようなので心配になります. 実験で「曲の再生時間より早くタスクを終了した」という記述に強い違和感を感じます.それはすなわち,ちゃんと確認をしていないことにほかならないのではないでしょうか.本当に真面目にタスクを遂行しようと思うなら,最初の生成結果を聞きながら修正を始めていき,その作業を最後まで終えた後,あらためて全体を通して聞き直し,システムで修正されたビートを確認するものだと思います.それで完璧だったとしてようやく楽曲の2倍程度の時間となるわけで,そう考えると「曲の再生時間より早くタスクを終了」というのは,あまりにもやる気がないというか,実験参加者の意識が雑なのではないかと思ってしまいます.6.2.2でこれについてこの不自然さに著者も気づいておきながら,「提案手法は効率的なエラー修正をおこなうことができたと結論付けることのできる結果を得た」と強引に導いているのが気になります. もし,楽曲の最初だけ聞くようなかたちで局所的に確認して正解しているのだとすると,楽曲の最初と後半が自己相関しやすい曲ほど精度が上がる反面,曲の後半でビートが劇的に変化する楽曲には対応できないのではないかと想像します.(楽曲のジャンルに左右されることかもしれません)
概要で「拍の捉え方や解釈は個人によって大きく異なり唯一の正解というものが存在しない」と述べておられることから考えると,正確にビートをトラッキングするシステムが目的というより,リズム音痴のようにずれていてもユーザの感覚にあったビートトラッキングを実現したい,という思想に思えます.もしそうだとすると,「個々人が認識するビートを正解データにする評価実験」が必要なように感じます.
5: 採録
3: 自身の専門分野とマッチしている
Human-in-the-loop(HITL)+オンライン学習は製品化されているものも多く,例えばCrowdFlower AIなどは,すでにHITLとオンライン学習を統合した環境を提供しています.本研究では,そのようなシンプルなアプローチを比較対象として,ビートトラッキングにおける人の修正を高速に伝播して効率的に個人適応を進める方式を提案した,という論文になっています. 基本的にはとてもよく書けている論文で,提案する手法の有効性もクリアに示されていると思いますので,読者に充分な価値を提供する論文であると感じました. 気になる点は下記です. ・DNNのオンライン学習を高速化する手法は多数提案されており,本研究で使用しているARSAの仕組みも含めて,手法自体に新規性があるのかどうかが不明瞭でした(シンプルに基本部分をロックして,どこかにオンライン学習用全結合層を入れる,というアプローチはよく使われるのではないでしょうか).手法自体に新規性を主張するのか,それとも手法自体の新規性は主張せずに,DNN+HITL+高速適応の仕組みをビートトラッキングに適用したらどうだったか,ということを検証する論文なのか,という点がクリアになっているとより主張点が分かりやすくなるのではないかと思います. ・論文で述べられているとおり,ビートトラッキングは曲や個人によって正解が異なる,といえると査読者も同意します.ところが実験条件では,その個人によって違う,というところが潰されており,個人によって違わず1つの正解が存在する,という条件で実験が行われています.であれば,HITLを使うのではなくて,モデル自体をもっとがんばって学習しておけばそもそもこういった煩雑な仕組みがいらないという話になってしまいそうです.正しい実験としては,複数の解釈ができる楽曲に対して,それぞれのビート位置に高速に適応するかどうかをチェックする,といったものが必要なのではないかと思います. ・実験の説明で「タップ指定のツールだけは連続して5 秒以上使用することを禁じた」とありますが,理由が説明されていません.
6: 採録を強く推す
3: 自身の専門分野とマッチしている
本論文は、音楽音響信号におけるビートトラッキング問題に人が介在するインタラクティブシステムの提案であり、深層学習(TCN)に基づく自動学習と、適応型実行時自己注意機構(ARSA)に基づくユーザ介入の実装を実現した。 ビートトラッキングに関しては、自動で高い性能が得られる深層学習手法が提案されているが、最後の修正のためには人が介在する必要があり、その人手による部分的な修正がその曲全体へ効果を及ぼす研究はこれまでになく新しい。ARSAを導入することで、単純にモデルをファインチューニングするだけよりも、性能が上がることを示した点で新規性があり、かつ有用である。 論文の記述の質は高く、正確に記述できていると感じた。 一点、実装上の議論として、以下のような疑問を感じた。 ・「単純にモデル適応をおこなった場合, 本当は修正してほしくないところまで修正されてしまう可能性」に関して、5.3節で述べる適応手法における対処法が述べられているが、インタラクションの観点からの対処方法が不明瞭であったので追記を望む。「修正が必要な可能性が高い場所」「そうでない場所」をユーザが全て指定する必要があるのか、それともこれも自動で拡張されうるのか。例えば、修正が終わった箇所を全てロックする必要がある場合、それなりの作業量になるように思う。ARSAの適応が楽曲全体に及ぶ場合、最後の修正で曲の最初の方も全て修正されうるのかどうかなどが不明であった。関連して、Human-in-the-loopの観点からの関連研究のみが述べられていたが、ビートをユーザが訂正するインタラクションとして[A]が提案されているので、引用して違いを明確にすべきと感じた。 [A] 後藤 他: "Songle: 音楽音響信号理解技術とユーザによる誤り訂正に基づく能動的音楽鑑賞サービス", 情報処理学会論文誌, Vol.54, No.4, pp.1363-1372, 2013. その他、以下の改善すべき問題点がある ・6章において、事前学習データが不明 ・手法の評価に用いているF1値の定義がない(±70msを正解とする?) ・参考文献にいくつかエラーがある([3]がおかしい、[5][6]の論文名が逆、[10]がおかしい) また、以下が改善されるとより良いと感じる ・ARSAが本論文(もしくは採択済みの国際会議論文)で初めて提案された手法なのか、既存手法なのかが分かりにくい ・図7について、色の違いだけでは、個別の被験者の推移を追いにくい
本論文では、楽曲に対して拍の情報を付与するタスク(拍節解析)を実施するための、深層学習による自動化技術とユーザの対話的入力に基づく適応的制御機構を組み合わせた技術的枠組みを提案している。認識の個人差ゆえに定義が難しい問題をhuman-in-the-loopなアプローチによって解決する点は面白い。また、提案技術には別の問題への応用可能性がある。以上よりロング発表での採択となった。WISSでは人間を組み込むことで問題解決を図るという思想についての議論も期待する。