査読者1

(Primary)レビューサマリ

歌声データに対して時間的なアノテーション (ビブラート, 表情, 声質など) をするために, ユーザが歌詞文字列をクエリとしてそれにアライメントされた歌声時間範囲を探索, アノテーション付与する手法を提案している. 従来法に比べてアノテーションコストが下がるのが明確であり, その実用性は高く評価できるため採録と判断する. 一方で,まだ発展途上であり, 実用性を考えると多くの疑問が残るのも事実である. 会議では実用性や発展可能性についての議論がなされることを期待する.

(Primary)採録時コメント

歌声データに対して時間的なアノテーション (ビブラート, 表情, 声質など) をするために, ユーザが歌詞文字列をクエリとしてそれにアライメントされた歌声時間範囲を探索, アノテーション付与する興味深い手法を提案している. 従来法に比べてアノテーションコストが下がるのが明確であり, その実用性は高く評価できる. 一方で,まだ発展途上であり, 実用性を考えると多くの疑問が残るのも事実であるが, WISSで議論をするには十分に面白い研究であり, 採録と判断する. 会議では実用性や発展可能性についての議論がなされることを期待する.

(Primary)論文誌として必要な改善点

無し

総合点   (1: 強く不採録~6: 強く採録)

3: どちらかと言えば不採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

3: 自身の専門分野とマッチしている

採否理由

この論文では, 歌声データに対して時間的なアノテーション (ビブラート, 表情, 声質など) をするために, ユーザが歌詞文字列 (ほぼ文節単位) をクエリとしてそれにアライメントされた歌声位置を探索, アノテーション付与する手法を提案している. 従来法に比べてアノテーションコストが下がるのが明確であり, その実用性は高く評価できる. 一方で技術的な新規性はそこまで高くなく, 従来の歌詞文字列クエリで楽曲検索してその場所にタグ付けを加える, という一連のユーザ操作をひとまとめのインタフェースとした, というインクリメンタルなものにとどまっている. アノテーションツールとしては優秀だとおもいますし有用ですが, 新しいユーザインタフェースとして提案するには, もう少し歌詞文字列と楽曲情報両方を利用していることによって労力がより省けるような仕組みが欲しいところです. 採択された際にはそうした可能性について議論していただけることを期待します.

[1] A Human-in-the-Loop System for Sound Event Detection and Annotation, Bongjun et a., 2018

改善コメント

ユーザがアノテーションしたデータをその場で学習に追加してして利用したり, 同じ歌詞で似ている楽曲特徴量のところは同じアノテーションを自動でコピーしてくれたり, あるいは歌詞として似ているところと音響特徴量として似ているところを同じタグが付ける可能性が高い場所として推薦[1]してくれて文字列と楽曲相互に行ったり来たりできたりすると面白そうです.

査読者2

総合点   (1: 強く不採録~6: 強く採録)

5: 採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

この研究では,新しい弱ラベル(時刻情報が含まれないラベル)として,歌詞ベースのラベリング手法を提案しています.
歌詞ベースラベルの特性分析のために,音楽のエキスパート6名がExcelで簡易に実現した提案手法を用いてアノテーションを行い,結果よりこの手法の良かった点と改善すべき点をまとめたうえで,アプリケーションを開発しています.
歌詞ベースのラベリングは,理解しやすく,幅広い人が利用可能そうであり,このような方法は新規かつアノテーションも行いやすそうと思いました.人は他者に説明する際にも,歌詞ベースで説明する場面がよくあることが考えられ,人の直観ともあっているのではないかと感じます.
一点気になったのですが,この歌詞ベースのアノテーションを行う目的が少し不明瞭に感じました.機械学習の学習データや,歌唱を含む音楽の特性分析に用いると記載がありましたが,このような歌詞ベースの新たなラベルが従来のラベルに加えられることで,どのようなことが可能になるのかについて,もう少し展望のような議論があるとより良いのではないかと思います.
記述の質は高く,関連研究もよくまとめられており,論文全体もよく構成されています.
以上の理由により,採録と判断しました.

改善コメント

採録コメントとも重複しますが,機械学習の学習データや,歌唱を含む音楽の特性分析に用いると記載がありましたが,このような歌詞ベースの新たなラベルが従来のラベルに加えられることで,どのようなことが可能になるのかについて,もう少し展望のような議論があるとより良いのではないかと思います.

査読者3

総合点   (1: 強く不採録~6: 強く採録)

3: どちらかと言えば不採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

概念として面白みがある一方で,まだ発展途上であり,実用性を考えると多くの疑問が残るため,以下に記載させていただきます.

- Lyrics-based Singing Annotatorの場合,時刻情報と関連するので強ラベルへの対応ができるものの,歌詞の時刻は手作業によって決定する必要がある.つまり,「時刻情報を埋め込むアノテーション作業が別途必要(or 既存手法による自動推定)」である.この点から,新しいデータベースを一から作成するという意味では,本手法は弱ラベル限定なので,あまり有用ではないと考えられる.強ラベルの場合は,既存データベース(歌詞の時刻が事前に付与されたもの.たとえばカラオケのデータ等)を拡張する際に利用できる程度です.

- 歌詞アノテーションは,あくまでもJ-Popのように,歌詞に意味を持たせることの多いものには適用できるものの,演歌や民謡のようにメロディが同じだけど歌詞が大きく異なるものには適用が難しいと考えられる(例えば「桃太郎」の曲はメロディは同じでも,歌詞がネガティブなものもある).また,英語の曲(例:マイケルジャクソンの曲など)には恩恵が少ないように感じる.

将来的には「機械学習で用いる」とありますが,上記のケースでは,音響特徴が完全に一致してしまうため,学習は収束しないと思います.また,機械学習のデータが「非公開」なので,うまくいくと主張されても,この部分は説得力がないと思いました.

- Excelだけでなく,Lyrics-based Annotatorにおける歌詞ラベルの提示も多すぎる印象で,システムの実装部分もまだ発展途上の印象が強いです.

改善コメント

上記にも記載していますが、弱ラベルとしては利用できるものの、新規性が薄く、強ラベルのような時刻情報を持つ作業は、ほぼ恩恵がない状態で、本手法のメリットの主張が薄いと思います。この部分をもう少し明確化するとよいかと思います。

査読者4

総合点   (1: 強く不採録~6: 強く採録)

5: 採録

確信度   (1: 専門外である~3: 自身の専門分野とマッチしている)

1: 専門外である

採否理由

歌詞を基準として音楽にアノテーションを付けるという新しいアイデアを出し、その入力を既存のExcelを活用して低コストで試してみて、出てきた課題を分析し、それを解決できるような独自UIのツールを作るという、インターフェイスデザインのお手本のような段取りが詰まった論文です。
一方で、歌詞単位のアノテーションが優れているという主張は、アノテーターへのインタビューでも単位の長い所や短い所があったとあるように、必ずしも支持されていないように読めます。
一般に、歌詞の文節の途中で歌唱表現が切り替わることも発生するように思われますが、歌詞の文節ごとにアノテーションしたい属性の値が切り替わることが多いのかについて、本論文から読み解くことができませんでした。

改善コメント

音楽データを人間が時間分割する基準として歌詞を利用するという発想が本論文の肝だと思われますので,歌詞の文字列だけを見て文節推定するよりも更に妥当な分割方法がないかの議論は深めたいと感じました.
例えば,歌声と歌詞のアラインメントを取った上で,文節情報も重みの参考にしながら,歌声の間や,歌い方の質が切り替わるタイミングなどをスコア化して歌詞を分割できると,よりアノテーターがしっくりくる単位でアノテーションが付けられるのではないか,といったような議論ができそうです.
また,歌詞は音声の時間分割範囲を表すということであれば,クリッカブルな歌詞のところで,歌詞を範囲選択することで,その時間範囲でループ再生ができてもよいように感じます.
また,歌詞を範囲選択することで,その領域にラベルを一括で設定できたり,あるいは範囲選択した状態でコピー&ペーストすると,同じような進行のメロディのところにラベルをコピーできるようにできないかなど,議論はいろいろなところに広がりそうです.