AS 2024秋

音響学会2024秋個人的メモ

研究って難しいなと言う気持ち。

1-6-2 (10:30~10:45)
音声特徴を制御可能な潜在変数をもつ HSMM 構造化アテンションに基づく音声合成
◎藤本 崇人,橋本 佳,南角 吉彦,徳田 恵一(名工大)... (16)

Fastspeech: 音響モデルとボコーダーに分かれる、2段パイプライン型

元の論文:

継続特徴量分音響特徴量を予測する

今の論文:

↑の音響特徴量が潜在変数になる。そこに音声の特徴が入ってくる

 

1-6-3 (10:45~11:00)
音素埋め込みスキップ接続を用いた継続長拡張に頑健な音声合成
◎小椋 忠志,岡本 拓磨,大谷 大和(NICT),戸田 智基(名大/NICT),河井 恒(NICT)... (16)

音素の継続長を無理やり変更すると凄い不自然になる。これはエンコーダーの出力特徴量が過去と未来の音素成分も含むから

←これ、100%は分かっていない。エンコーダーの出力は音素ごと?

SOTAな音声合成モデルは継続長を予測して、それぞれに音響特徴量を予測してそれをHIFI-GANにかけるものなのかな?(参考文献を読みたい

 


1-6-4 (11:00~11:15)
話者匿名化したデータを用いる多話者テキスト音声合成
〇HUANG Wen-Chin(名古屋大学),△WU Yi-Chiao(Meta),戸田 智基(名古屋大学)... (17)

学習時の話者は匿名化されてるけど、めっちゃ色んな声で喋れる音声合成がしたい

音声合成って評価が難しいんだなぁ。この指標だとこのモデルが良くて、この指標だとこのモデルが...みたいなのがめっちゃある。主観評価だから?

 

1-6-5 (11:15~11:30)
複雑な感情音声合成のための潜在空間でのデータ拡張
☆野﨑 雄斗,△加藤 大地,△廣岡 聖司(東京大院),△金崎 朝子(東京工業大)... (17)

9感情を判断するのはむずいらしい


1-6-6 (11:30~11:45)
感情音声合成のためのアラインメント手法の比較
◎蓮実 拓也,白旗 悠真,Welly Naptali,山本 龍一(LINE ヤフー),Eunwoo Song(NAVER Cloud),
健太郎(LINE ヤフー),Jae-Min Kim(NAVER Cloud)... (17)
継続長をどう予測するかという話?
専門家が付けると一番良い。外部のアライナー使ってもそんな変わってないような?
擬似的な継続長を強制アライナーを使って予測する手法の論文を後で読みたい

1-Q-33 (13:00~15:00)
トピックモデルを用いた教師なし学習による HuBERT の意味表現向上
◎前角 高史(LINE ヤフー),△Jiatong Shi,△Xuankai Chang(カーネギーメロン大学),
藤田 悠哉(LINE ヤフー),渡部 晋治(カーネギーメロン大学)... (44)

HubertにCLSトークンとか追加して、意味的な情報も含めて学習?

 

1-Q-37 (13:00~15:00)
クロスリンガルベンチマークと類似度分析による音声 SSL モデルの言語情報分析
◎芦原 孝典,デルクロア マーク,井島 勇祐(NTT)... (45)

SSL


1-Q-38 (13:00~15:00)
音声コーパス構築のための仮定を追加した発話区間検出法の提案と基礎評価
☆俣野 文義,小口 純矢,森勢 将雅(明治大)... (46)

VADのSOTAはpyannoteとかではなくrVADとからし

1話者が1回話すだけっていう仮定を置いて、めっちゃ精度が高いVADができた

 

1-Q-40 (13:00~15:00)
FIR 型深層波形生成モデルを用いた F0 制御可能な End-to-End 音声合成の検討
〇大谷 大和,岡本 拓磨(NICT),戸田 智基(名古屋大/NICT),河井 恒(NICT)... (46)

ケプストラム全体を動かす?yみたい

 

1-Q-45 (13:00~15:00)低次元音響パラメータを用いた End-to-End ニューラルフォルマント合成の検討
☆小林 清流,小坂 哲夫(山形大院・理工学研),能勢 隆(東北大院・工学研)... (47)

小林さんめっちゃ好感持てて仲良くなれた。

F0(やその倍音?)を除いて、周波数横軸power縦軸で周波数のピークを順番にF1,F2,F3...としてそれをフォルマントと呼ぶ

VT4という分析合成のモデルがあるこれが有名かつ音響パラメーターを制御できないっぽい?WORLDとかはできる

Hifi-GANを変更して、音声の発生過程をちゃんと考えたソースフィルタモデルではF0制御性が高い

大体の言語はF1,F2ぐらいまでで完結しているが、東北のとある方言はF3まで使う、みたいな話があるらしい。凄い。

 

 

1-Q-46 (13:00~15:00)
キャラクター画像からの音声合成のための音声・顔画像ペアデータセット構築に関する検討
☆菊池 遥斗,能勢 隆,伊藤 彰則(東北大)... (48)

Face to Speechというタスクがあって結構有名

最初の論文的なものがあり、評価は全部それでやってる

主観評価をやってるっぽい?この人が言ってそうか的な

リップシンクとかの評価はまだやってないっぽい。

能勢先生が発表していて、いい人なんだなと思う

 

 

音声合成はかつて東工大に凄い人がいて、戸田研究室とかはその分派らしい。東北大も?

 

2-6-3 (10:00~10:15)
プロ声優が発話した様々な発話スタイルの統計解析 ☆蟹江 世莉奈,俣野 文義,小口 純矢,森勢 将雅(明治大)... (76)
ずんだもんのコーパスってこんな感じなんだ~と思った
基本周波数、スペクトル重心、フォルマントを音響特徴量として扱っていた

2-6-5 (10:45~11:00)
マルチコーパス学習に基づくドメインロバスト音声感情認識の検討
☆林崎 由,能勢 隆,駒形 晃太,伊藤 彰則(東北大)... (77)

CREAMD-Dで学習してCREMA-Dで評価したら73.3%の精度、違うデータ(CaFE)だと25.9。データセットに凄い影響を受ける

 

演技感情コーパスと、普通感情コーパスに分けられるっポイ

演技感情:CaFE、EmoDB、CREMA-Dあたり

音声’品質’の違いが最大の理由である可能性が高いらしい。

感情認識については言語による影響はあまりない。っていうのが一般的らしい。おもろいね


2-6-6 (11:00~11:15)
感情認識ベンチマーク構築に向けた人間・機械の感情認識能力の比較分析
☆駒形 晃太,能勢 隆,林崎 由,伊藤 彰則(東北大学)... (77)

話者ラベル、聞き手ラベル、がある

話者ラベル:発話する人が付けたらベル

RAVDESS:話者ラベルと聞き手ラベルがある

CREAMAD:話者ラベルと聞き手ラベルがある

IEMOCAP: 聞き手のラベルだけがある


-1-12 (15:30~15:45)子音や母音の時間長が歌声の印象評価に与える影響
☆北原 玲奈,△久保田 新菜,深澤 実紅,志々目 樹,戸田 菜月,竹本 浩典(千葉工大),高橋 純(大阪芸大)... (64)
オペラ歌手とかは子音を長めに発音したりしてるらしい。聞き取りやすい?

2-Q-30 (15:00~17:00)
訛り制御音声合成のための話者類似度を利用した擬似同一話者による訛りあり・なしペアデータ作成の検討
☆高橋 玲,能勢 隆,伊藤 彰則(東北大)... (102)
データを作りましたという話だった。

訛り音声と普通音声はテキストが一致していなくてもいいらしい(ペアデータじゃなくても良い

音素の長さとかで訛り具合を評価する方法があるらしい

2-Q-35 (15:00~17:00)
ワーピングを用いた電気式人工喉頭音声変換システムに適した発話例生成
☆宮下 敦志,戸田 智基(名古屋大院・情報学研)... (103)

人工喉頭というハードウェアがあるらしい

 

3-6-2 (10:45~11:00)
言語非依存な口真似データセット構築と口真似のみからの Transformer による効果音合成
☆滝沢 力(京産大院),△平井 重行(京産大・情報理工学部)... (108)

効果音を生成したい。

操作可能性が高い感じで生成したい。

口真似で効果音生成

口真似でやり易そうなのが爆発音

 


3-6-3 (11:00~11:15)
J-CHAT: 音声言語モデルのための大規模日本語対話音声コーパス
◎中田 亘,関 健太郎,谷中 瞳,齋藤 佑樹(東大院・情報理工),高道 慎之介(慶大/東大),猿渡 洋(東大院・情報理工)... (108)

研究は完成されてるので言うことない

セリフの著作権著作隣接権(歌だと)、肖像権、個人情報


3-6-4 (11:15~11:30)
UTMOSv2: 自然性 MOS 予測におけるスペクトログラム特徴量と SSL 特徴量の統合的利用
☆馬場 凱渡(東大・工),中田 亘,齋藤 佑樹,猿渡 洋(東大院・情報理工)... (108)

メルスペクトログラムは画像として解釈してImagenetを使って特徴量を取り出すらしい


3-6-5 (11:30~11:45)合成音声の大規模主観比較評価からの絶対品質推定 ◎安田 裕介,戸田 智基(名古屋大学)... (109)

歌声の評価は自然性ではなく品質になってきているらしい

機械の方が音痴な人間より自然?