お名前.comのドメインでgoogle workspaceでメールする
Google側で最初MXではなくTXTの何かを出す必要がある。
MXが表示されてるページでポチポチ触ってたらTXTのページにたどり着いた
多分ここの2023年4月以降のご登録のやり方が正しい。
数時間はかかるとか出てきた。とりあえず放置。
音響学会2024秋個人的メモ
研究って難しいなと言う気持ち。
1-6-2 (10:30~10:45)
音声特徴を制御可能な潜在変数をもつ HSMM 構造化アテンションに基づく音声合成
◎藤本 崇人,橋本 佳,南角 吉彦,徳田 恵一(名工大)... (16)
Fastspeech: 音響モデルとボコーダーに分かれる、2段パイプライン型
元の論文:
継続特徴量分音響特徴量を予測する
今の論文:
↑の音響特徴量が潜在変数になる。そこに音声の特徴が入ってくる
1-6-3 (10:45~11:00)
音素埋め込みスキップ接続を用いた継続長拡張に頑健な音声合成
◎小椋 忠志,岡本 拓磨,大谷 大和(NICT),戸田 智基(名大/NICT),河井 恒(NICT)... (16)
音素の継続長を無理やり変更すると凄い不自然になる。これはエンコーダーの出力特徴量が過去と未来の音素成分も含むから
←これ、100%は分かっていない。エンコーダーの出力は音素ごと?
SOTAな音声合成モデルは継続長を予測して、それぞれに音響特徴量を予測してそれをHIFI-GANにかけるものなのかな?(参考文献を読みたい
1-6-4 (11:00~11:15)
話者匿名化したデータを用いる多話者テキスト音声合成
〇HUANG Wen-Chin(名古屋大学),△WU Yi-Chiao(Meta),戸田 智基(名古屋大学)... (17)
学習時の話者は匿名化されてるけど、めっちゃ色んな声で喋れる音声合成がしたい
音声合成って評価が難しいんだなぁ。この指標だとこのモデルが良くて、この指標だとこのモデルが...みたいなのがめっちゃある。主観評価だから?
1-6-5 (11:15~11:30)
複雑な感情音声合成のための潜在空間でのデータ拡張
☆野﨑 雄斗,△加藤 大地,△廣岡 聖司(東京大院),△金崎 朝子(東京工業大)... (17)
9感情を判断するのはむずいらしい
1-6-6 (11:30~11:45)
感情音声合成のためのアラインメント手法の比較
◎蓮実 拓也,白旗 悠真,Welly Naptali,山本 龍一(LINE ヤフー),Eunwoo Song(NAVER Cloud),
橘 健太郎(LINE ヤフー),Jae-Min Kim(NAVER Cloud)... (17)
継続長をどう予測するかという話?
専門家が付けると一番良い。外部のアライナー使ってもそんな変わってないような?
擬似的な継続長を強制アライナーを使って予測する手法の論文を後で読みたい
1-Q-33 (13:00~15:00)
トピックモデルを用いた教師なし学習による HuBERT の意味表現向上
◎前角 高史(LINE ヤフー),△Jiatong Shi,△Xuankai Chang(カーネギーメロン大学),
藤田 悠哉(LINE ヤフー),渡部 晋治(カーネギーメロン大学)... (44)
HubertにCLSトークンとか追加して、意味的な情報も含めて学習?
1-Q-37 (13:00~15:00)
クロスリンガルベンチマークと類似度分析による音声 SSL モデルの言語情報分析
◎芦原 孝典,デルクロア マーク,井島 勇祐(NTT)... (45)
1-Q-38 (13:00~15:00)
音声コーパス構築のための仮定を追加した発話区間検出法の提案と基礎評価
☆俣野 文義,小口 純矢,森勢 将雅(明治大)... (46)
VADのSOTAはpyannoteとかではなくrVADとからしい
1話者が1回話すだけっていう仮定を置いて、めっちゃ精度が高いVADができた
1-Q-40 (13:00~15:00)
FIR 型深層波形生成モデルを用いた F0 制御可能な End-to-End 音声合成の検討
〇大谷 大和,岡本 拓磨(NICT),戸田 智基(名古屋大/NICT),河井 恒(NICT)... (46)
ケプストラム全体を動かす?yみたい
1-Q-45 (13:00~15:00)低次元音響パラメータを用いた End-to-End ニューラルフォルマント合成の検討
☆小林 清流,小坂 哲夫(山形大院・理工学研),能勢 隆(東北大院・工学研)... (47)
小林さんめっちゃ好感持てて仲良くなれた。
F0(やその倍音?)を除いて、周波数横軸power縦軸で周波数のピークを順番にF1,F2,F3...としてそれをフォルマントと呼ぶ
VT4という分析合成のモデルがあるこれが有名かつ音響パラメーターを制御できないっぽい?WORLDとかはできる
Hifi-GANを変更して、音声の発生過程をちゃんと考えたソースフィルタモデルではF0制御性が高い
大体の言語はF1,F2ぐらいまでで完結しているが、東北のとある方言はF3まで使う、みたいな話があるらしい。凄い。
1-Q-46 (13:00~15:00)
キャラクター画像からの音声合成のための音声・顔画像ペアデータセット構築に関する検討
☆菊池 遥斗,能勢 隆,伊藤 彰則(東北大)... (48)
Face to Speechというタスクがあって結構有名
最初の論文的なものがあり、評価は全部それでやってる
主観評価をやってるっぽい?この人が言ってそうか的な
リップシンクとかの評価はまだやってないっぽい。
能勢先生が発表していて、いい人なんだなと思う
音声合成はかつて東工大に凄い人がいて、戸田研究室とかはその分派らしい。東北大も?
2-6-3 (10:00~10:15)
プロ声優が発話した様々な発話スタイルの統計解析 ☆蟹江 世莉奈,俣野 文義,小口 純矢,森勢 将雅(明治大)... (76)
ずんだもんのコーパスってこんな感じなんだ~と思った
基本周波数、スペクトル重心、フォルマントを音響特徴量として扱っていた
2-6-5 (10:45~11:00)
マルチコーパス学習に基づくドメインロバスト音声感情認識の検討
☆林崎 由,能勢 隆,駒形 晃太,伊藤 彰則(東北大)... (77)
CREAMD-Dで学習してCREMA-Dで評価したら73.3%の精度、違うデータ(CaFE)だと25.9。データセットに凄い影響を受ける
演技感情:CaFE、EmoDB、CREMA-Dあたり
音声’品質’の違いが最大の理由である可能性が高いらしい。
感情認識については言語による影響はあまりない。っていうのが一般的らしい。おもろいね
2-6-6 (11:00~11:15)
感情認識ベンチマーク構築に向けた人間・機械の感情認識能力の比較分析
☆駒形 晃太,能勢 隆,林崎 由,伊藤 彰則(東北大学)... (77)
話者ラベル、聞き手ラベル、がある
話者ラベル:発話する人が付けたらベル
RAVDESS:話者ラベルと聞き手ラベルがある
CREAMAD:話者ラベルと聞き手ラベルがある
IEMOCAP: 聞き手のラベルだけがある
-1-12 (15:30~15:45)子音や母音の時間長が歌声の印象評価に与える影響
☆北原 玲奈,△久保田 新菜,深澤 実紅,志々目 樹,戸田 菜月,竹本 浩典(千葉工大),高橋 純(大阪芸大)... (64)
オペラ歌手とかは子音を長めに発音したりしてるらしい。聞き取りやすい?
2-Q-30 (15:00~17:00)
訛り制御音声合成のための話者類似度を利用した擬似同一話者による訛りあり・なしペアデータ作成の検討
☆高橋 玲,能勢 隆,伊藤 彰則(東北大)... (102)
データを作りましたという話だった。
訛り音声と普通音声はテキストが一致していなくてもいいらしい(ペアデータじゃなくても良い
音素の長さとかで訛り具合を評価する方法があるらしい
2-Q-35 (15:00~17:00)
ワーピングを用いた電気式人工喉頭音声変換システムに適した発話例生成
☆宮下 敦志,戸田 智基(名古屋大院・情報学研)... (103)
人工喉頭というハードウェアがあるらしい
3-6-2 (10:45~11:00)
言語非依存な口真似データセット構築と口真似のみからの Transformer による効果音合成
☆滝沢 力(京産大院),△平井 重行(京産大・情報理工学部)... (108)
効果音を生成したい。
操作可能性が高い感じで生成したい。
口真似で効果音生成
口真似でやり易そうなのが爆発音
3-6-3 (11:00~11:15)
J-CHAT: 音声言語モデルのための大規模日本語対話音声コーパス
◎中田 亘,関 健太郎,谷中 瞳,齋藤 佑樹(東大院・情報理工),高道 慎之介(慶大/東大),猿渡 洋(東大院・情報理工)... (108)
研究は完成されてるので言うことない
3-6-4 (11:15~11:30)
UTMOSv2: 自然性 MOS 予測におけるスペクトログラム特徴量と SSL 特徴量の統合的利用
☆馬場 凱渡(東大・工),中田 亘,齋藤 佑樹,猿渡 洋(東大院・情報理工)... (108)
メルスペクトログラムは画像として解釈してImagenetを使って特徴量を取り出すらしい
3-6-5 (11:30~11:45)合成音声の大規模主観比較評価からの絶対品質推定 ◎安田 裕介,戸田 智基(名古屋大学)... (109)
歌声の評価は自然性ではなく品質になってきているらしい
機械の方が音痴な人間より自然?
内容はスライドに含まれている内容+私の思考に留める。この記事もまぁ...あまり拡散とかはしないでもらった方がいいのかな
私はアファーマティブアクションを実質的に実行しているのはかわりに受験に落ちる受験生だと思っており、この人達をこの記事では「担い手」と呼んでいます。担い手たちが犠牲となることでアファーマティブアクションは成立していますが、残念ながらこの人達は今深い悲しみを感じています。そして、この人達は「不合格者」として大学から排除された存在になり、大学に全く無関係な存在になってしまうのでその悲しみを表明する場すらありません。本当にこのままでいいのでしょうか。
自分の分野(自然言語処理)大学の教員や、大学の首脳部、学生達はアファーマティブアクションに賛成の意向を示している方が多いですが、これはあまりにも酷いなと思います。私も1学生としては自分の大学がより良い場所になることは嬉しいですが、私たちはただ利益を受けるだけのポジションにいます。代わりに損失を被る人たちと向き合ってきたのでしょうか。アファーマティブアクションを「アファーム」しているのは我々ではありません。
また、この中で教員や首脳部はより重い責任があります。アファーマティブアクションの意思決定はあなた達によって行われましたが、意思決定権は利益を得る人ではなく損失を被る人にある必要があります。今あるのはアファーマティブアクションではなく、ただの押しつけです。
私が感じる問題点は主に「意思決定権が担い手側にあるべき」という事と、「担い手を忘れない、大学から排除しない」という事です。
アファーマティブアクションに参加するかどうかの意思決定を大学受験者それぞれに行う為に、追加合格の仕組みを用いると良いと思います
今の大学入試は私立を中心として「追加合格」という仕組みがあります。これがどのようなものかというと、ボーダーラインにいる受験者に大学当局が電話をかけ、入学の意思があるか確認し、枠が充足するまで確認を続けるというものです。アファーマティブアクションで用いられるのはこれを逆にし追加で不合格を出すという仕組みです。
一般枠の暫定的な合格者に対して下位から順番に電話をかけ、アファーマティブアクションに参加する者を不合格とします。不合格となった分を、アファーマティブアクションの合格枠とします。
勲章を授与する、学内のイベントに招く、金銭を与える、大学首脳部への参政権を与える等。
いくらでもやりようはあるので、やろうとするかしないかという問題です。
アメリカのには「忘れられた人達」と呼ばれる人がおり、問題になっているそうです。 大学入試制度改革は非常にアメリカよりさらに危険な構造を孕んでいると思います。何故なら、代わりに犠牲になる人が大学コミュニティから排除されており、完全に「忘れられる」からです。担い手達の活躍を忘れない、民主的な大学であってほしいです。
応用音響学でお勧めされていたので読んでみた。凄い分かりやすかった。
読んでいて、つっかかったところ(重要な部分だったので戻ってきて読んだ場所、分かりにくくてもっと調べたところや、凄いのでもっと知りたいと思ってもっと調べたところ)をとりあえずメモ
モーラは長さ、音節は発音のまとまりを表すらしい
モーラは等時性を持つ。音節は人間の認識に近い?(言語学的存在っぽい)
がっこうはモーラだと4だが、音節だとがっ/こうで2
よく出てくる図は横軸が時間、縦軸が周波数で、振幅(パワー)を色の明るさによってあらわす
信号がどういう周期の成分から成り立っているかを見る
一つの音素がどれぐらいの長さになるか予測する。どれぐらいの精度があるんだろう?
F0予測とかもそうだが、コンテキストラベルのテキストの情報から継続長やF0を予測する
全ての言語特徴量。例えば、直近のモーラの位置とか、単語の活用の型とか、前後の音素とか
「質問」はこのフルコンテキストラベルから情報を取り出すことを指す
スペクトル包絡を予測してそこから信号処理で音声を作り出すのではなく、波形を1次元の数値列としてそのまま予測
teacher-forcingはできる(学習時に答えをそのまま使うことはできる)が、LSTMのためこれまでの状態を表す変数を用いることになるから並列はできない
アテンションが継続長予測の代わりをする
データセットは24時間ほどらしい
随時更新
3秒
世界観を崩さないアニメのAI吹き替えをやっております。
10秒
アニメ作品の世界観を崩さないAI吹き替えというものをやっております。世界観を崩さないというのはどういうことかと言うと、元のキャラクターの雰囲気を保った翻訳、元の声優さんの特徴を保った音声合成をやっています。
30秒
アニメ作品の世界観を崩さないAI吹き替えというものをやっております。世界観を崩さないというのはどういうことかと言うと、元のキャラクターの雰囲気を保った翻訳、元の声優さんの特徴を保った音声合成をやっています。
また、吹き替えは非常に丁寧な作業を通して製作されています。発話タイミングのフレーム単位での認識や、口の動きの映像認識、発話の長さの微細な調整などができるシステムを構築しています。
100秒
アニメ作品の世界観を崩さないAI吹き替えというものをやっております。世界観を崩さないというのはどういうことかと言うと、元のキャラクターの雰囲気を保った翻訳、元の声優さんの特徴を保った音声合成をやっています。
→作品のデモを見せる
また、吹き替えは非常に丁寧な作業を通して製作されています。発話タイミングのフレーム単位での認識や、口の動きの映像認識、発話の長さの微細な調整などができるシステムを構築しています。
→ソフトウェアのデモを見せる
僕の発表は金曜の9:40~ Aホールであります。よろしくお願いします~
HUBERT特徴量を入力として、テキストを出力するモデルを学習。そのモデルの事前学習にLLMを用いる。モデルは音声認識タスクで事前学習→対話タスクで学習という順序で利用
rinnaも同じようなことをしているらしい。音声認識で学習したモデルが事前学習済みモデルとして利用されることもあるのかな?
https://rinna.co.jp/news/2023/12/20231207.html
なぜこんなことが起こるの?→モデルの構造が変化しているのではないかと仮説を立てた。実際、重みの刈込のみで、暗記モデルから汎化モデルに移動してるっぽかった
先行研究的には、ランダムに動いて、いい所に落ちたみたいな話
構造の定義については100%理解できてないが「重みの絶対値に基づいた刈
り込み」を行って判断をしているため、モデルのどのニューロンを使っているかを構造と思っているのかなと考えた。
キャラクタ性を評価したい
既存研究:新しいキャラクターが出てくるたびに新しくモデルを訓練
→対照学習で構築したモデルで学習不要に
このurlを相澤先生は参考にしてるっぽい
BERT系とGPT系に分かれる
epoch making1埋め込み
文脈語ベクトル 共起行列巨大
maskを予測するor次の単語を予測する←行列は小さくなる
epoch making 2 2017~
未知語、多義語の問題が解かれる
<unk>で代替→サブワード
語義の曖昧性(多義語
LSTMで文脈とかを見るようになった
epochmaking3 生成モデル
何をエンジニアリングするかが変わる
今自然言語処理の人たちは何をしてるか
コーパス整備
Chinchilla scalling law
20トークンが1パラメータ
Token Crisis
サイズ: LLama 3 15兆
質の良さ:Phi 60億
tokenizer
token(subword)に分割する
どれぐらいのサイズの辞書が良いのかは、Empericalに決めている
GPT-4oは感じが追加されてる(subwordになってない)っぽい
評価
web上から作ったデータを評価に使えない
生成モデルの評価は難しい
答えを評価するのは難しい
llama3の構築データはllama2でクリーニング
文としてはでたらめだが、述語論理に従う文を生成し、学習する。
知識は増えないが、推論能力を上げることが出来る
optimizerを特別なものにして、知識の忘却を抑えている
LLMの重みを使って単語に対する分類問題を解きたい × 分類問題は後ろの文脈情報も効く、ということらしい
今のパラメタ数はネズミに相当、LLama3はCommonCrawlの全スナップショットを使い果たした、llama3の再現にはTSUBAMEのすべてを使っても112日かかる
Transformer:
類義語を考慮、曖昧性問題を解消(相澤先生も言ってたので昔は重要な議題だった?) 長距離依存を扱いやすい
データについて
スケーリング則やChinchila則などあったが、結局モデルのパラメータをデカくするのはつらいので、提案されていた最適なパラメータ、データ比率ではなく、小さいモデルを多めのデータで訓練するのが流行り
事前学習は1epochでやるのがよいという通説はKomatsuzaki 2019という論文にまとまって要るっぽい
P21
Transformer++
アーキテクチャ面では経験則っぽい細かい調整が色々ある
P24
データの重複除去:結構愚直にやってる?その他クラスタリングとか
P29
トークン単位でのフィルタリング。学習すべきっぽいtokenのみの損失を用いる
P30
サブワード。日本語は3tokenになって、byte毎に扱われてるっぽい
→意味が消えてる
モデルの学習には色々経験則アリ
P41
Alpacaとか、styleだけ賢くなってる可能性あり
P43
ファインチューニングでは知識を獲得できない
アラインメント
P55
RLHFの問題点が分かりやすくまとまってた。いい
P79
文脈内学習におけるバイアス除去
面白そうだが聞いたときよく分からんかった
自分の発表
映像機械翻訳について、性格や関係性の情報の有効性を評価するためのデータセットを作っています。
詳細はこちら
https://www.youtube.com/watch?v=6RoORvg9MdE&list=PLqjMTEW_Z7cSCem-xFO6WMZbcbvkJd0s6&index=4
ポスター
感情認識は、Valence,Arousal,Dominanceと呼ばれる3つの軸で行う。この3次元での認識は有名であるそうで、既にこの3次元用の感情認識で学習したモデルがあり、モデルはそれを使っているらしい
SelfCheckGPTという、いくつもの出力をさせてその中でBERTScoreが中心に位置しているものを答えとする、という研究があり、その拡張らしい。SelfCheckGPTが気になった
指示語がある文は、共参照解析をして指示語が指していた文を持ってきて、その文をプロンプトに入れると精度が上がりそう
会議翻訳が対象だが、どうも前後の対話をプロンプトに沢山いれても、あんまり精度は変わっていないっぽい
BERTに単語当てタスクを解かせる。似たような問題を4つ用意し、その4回でめっちゃ発火していたニューロンにその単語の知識が入っているとみなす。そのニューロンの値を2倍にしたり0にしたりすると、知識がそこに埋まっていた感がある挙動が起きる。
その論文の日本語版?
ニューロンは数個~20個とからしい
RLHFの報酬モデルは多様であったほうがいい。(先行研究
ラベルなしデータについて、報酬モデルが違う予測になるように学習(ラベルアリは当然全員が同じ方向に学習するが)
賢い
発表
ユーザーがどこを追っているか、手で付けてるデータセットがあるらしい
その他
会場にあったしゃぶしゃぶの店がまじでおいしかったです。