お名前.comのドメインでgoogle workspaceでメールする

お名前.comのドメインgoogle workspaceでメールする


Google側で最初MXではなくTXTの何かを出す必要がある。
MXが表示されてるページでポチポチ触ってたらTXTのページにたどり着いた

多分ここの2023年4月以降のご登録のやり方が正しい。

数時間はかかるとか出てきた。とりあえず放置。

help.onamae.com

AS 2024秋

音響学会2024秋個人的メモ

研究って難しいなと言う気持ち。

1-6-2 (10:30~10:45)
音声特徴を制御可能な潜在変数をもつ HSMM 構造化アテンションに基づく音声合成
◎藤本 崇人,橋本 佳,南角 吉彦,徳田 恵一(名工大)... (16)

Fastspeech: 音響モデルとボコーダーに分かれる、2段パイプライン型

元の論文:

継続特徴量分音響特徴量を予測する

今の論文:

↑の音響特徴量が潜在変数になる。そこに音声の特徴が入ってくる

 

1-6-3 (10:45~11:00)
音素埋め込みスキップ接続を用いた継続長拡張に頑健な音声合成
◎小椋 忠志,岡本 拓磨,大谷 大和(NICT),戸田 智基(名大/NICT),河井 恒(NICT)... (16)

音素の継続長を無理やり変更すると凄い不自然になる。これはエンコーダーの出力特徴量が過去と未来の音素成分も含むから

←これ、100%は分かっていない。エンコーダーの出力は音素ごと?

SOTAな音声合成モデルは継続長を予測して、それぞれに音響特徴量を予測してそれをHIFI-GANにかけるものなのかな?(参考文献を読みたい

 


1-6-4 (11:00~11:15)
話者匿名化したデータを用いる多話者テキスト音声合成
〇HUANG Wen-Chin(名古屋大学),△WU Yi-Chiao(Meta),戸田 智基(名古屋大学)... (17)

学習時の話者は匿名化されてるけど、めっちゃ色んな声で喋れる音声合成がしたい

音声合成って評価が難しいんだなぁ。この指標だとこのモデルが良くて、この指標だとこのモデルが...みたいなのがめっちゃある。主観評価だから?

 

1-6-5 (11:15~11:30)
複雑な感情音声合成のための潜在空間でのデータ拡張
☆野﨑 雄斗,△加藤 大地,△廣岡 聖司(東京大院),△金崎 朝子(東京工業大)... (17)

9感情を判断するのはむずいらしい


1-6-6 (11:30~11:45)
感情音声合成のためのアラインメント手法の比較
◎蓮実 拓也,白旗 悠真,Welly Naptali,山本 龍一(LINE ヤフー),Eunwoo Song(NAVER Cloud),
健太郎(LINE ヤフー),Jae-Min Kim(NAVER Cloud)... (17)
継続長をどう予測するかという話?
専門家が付けると一番良い。外部のアライナー使ってもそんな変わってないような?
擬似的な継続長を強制アライナーを使って予測する手法の論文を後で読みたい

1-Q-33 (13:00~15:00)
トピックモデルを用いた教師なし学習による HuBERT の意味表現向上
◎前角 高史(LINE ヤフー),△Jiatong Shi,△Xuankai Chang(カーネギーメロン大学),
藤田 悠哉(LINE ヤフー),渡部 晋治(カーネギーメロン大学)... (44)

HubertにCLSトークンとか追加して、意味的な情報も含めて学習?

 

1-Q-37 (13:00~15:00)
クロスリンガルベンチマークと類似度分析による音声 SSL モデルの言語情報分析
◎芦原 孝典,デルクロア マーク,井島 勇祐(NTT)... (45)

SSL


1-Q-38 (13:00~15:00)
音声コーパス構築のための仮定を追加した発話区間検出法の提案と基礎評価
☆俣野 文義,小口 純矢,森勢 将雅(明治大)... (46)

VADのSOTAはpyannoteとかではなくrVADとからし

1話者が1回話すだけっていう仮定を置いて、めっちゃ精度が高いVADができた

 

1-Q-40 (13:00~15:00)
FIR 型深層波形生成モデルを用いた F0 制御可能な End-to-End 音声合成の検討
〇大谷 大和,岡本 拓磨(NICT),戸田 智基(名古屋大/NICT),河井 恒(NICT)... (46)

ケプストラム全体を動かす?yみたい

 

1-Q-45 (13:00~15:00)低次元音響パラメータを用いた End-to-End ニューラルフォルマント合成の検討
☆小林 清流,小坂 哲夫(山形大院・理工学研),能勢 隆(東北大院・工学研)... (47)

小林さんめっちゃ好感持てて仲良くなれた。

F0(やその倍音?)を除いて、周波数横軸power縦軸で周波数のピークを順番にF1,F2,F3...としてそれをフォルマントと呼ぶ

VT4という分析合成のモデルがあるこれが有名かつ音響パラメーターを制御できないっぽい?WORLDとかはできる

Hifi-GANを変更して、音声の発生過程をちゃんと考えたソースフィルタモデルではF0制御性が高い

大体の言語はF1,F2ぐらいまでで完結しているが、東北のとある方言はF3まで使う、みたいな話があるらしい。凄い。

 

 

1-Q-46 (13:00~15:00)
キャラクター画像からの音声合成のための音声・顔画像ペアデータセット構築に関する検討
☆菊池 遥斗,能勢 隆,伊藤 彰則(東北大)... (48)

Face to Speechというタスクがあって結構有名

最初の論文的なものがあり、評価は全部それでやってる

主観評価をやってるっぽい?この人が言ってそうか的な

リップシンクとかの評価はまだやってないっぽい。

能勢先生が発表していて、いい人なんだなと思う

 

 

音声合成はかつて東工大に凄い人がいて、戸田研究室とかはその分派らしい。東北大も?

 

2-6-3 (10:00~10:15)
プロ声優が発話した様々な発話スタイルの統計解析 ☆蟹江 世莉奈,俣野 文義,小口 純矢,森勢 将雅(明治大)... (76)
ずんだもんのコーパスってこんな感じなんだ~と思った
基本周波数、スペクトル重心、フォルマントを音響特徴量として扱っていた

2-6-5 (10:45~11:00)
マルチコーパス学習に基づくドメインロバスト音声感情認識の検討
☆林崎 由,能勢 隆,駒形 晃太,伊藤 彰則(東北大)... (77)

CREAMD-Dで学習してCREMA-Dで評価したら73.3%の精度、違うデータ(CaFE)だと25.9。データセットに凄い影響を受ける

 

演技感情コーパスと、普通感情コーパスに分けられるっポイ

演技感情:CaFE、EmoDB、CREMA-Dあたり

音声’品質’の違いが最大の理由である可能性が高いらしい。

感情認識については言語による影響はあまりない。っていうのが一般的らしい。おもろいね


2-6-6 (11:00~11:15)
感情認識ベンチマーク構築に向けた人間・機械の感情認識能力の比較分析
☆駒形 晃太,能勢 隆,林崎 由,伊藤 彰則(東北大学)... (77)

話者ラベル、聞き手ラベル、がある

話者ラベル:発話する人が付けたらベル

RAVDESS:話者ラベルと聞き手ラベルがある

CREAMAD:話者ラベルと聞き手ラベルがある

IEMOCAP: 聞き手のラベルだけがある


-1-12 (15:30~15:45)子音や母音の時間長が歌声の印象評価に与える影響
☆北原 玲奈,△久保田 新菜,深澤 実紅,志々目 樹,戸田 菜月,竹本 浩典(千葉工大),高橋 純(大阪芸大)... (64)
オペラ歌手とかは子音を長めに発音したりしてるらしい。聞き取りやすい?

2-Q-30 (15:00~17:00)
訛り制御音声合成のための話者類似度を利用した擬似同一話者による訛りあり・なしペアデータ作成の検討
☆高橋 玲,能勢 隆,伊藤 彰則(東北大)... (102)
データを作りましたという話だった。

訛り音声と普通音声はテキストが一致していなくてもいいらしい(ペアデータじゃなくても良い

音素の長さとかで訛り具合を評価する方法があるらしい

2-Q-35 (15:00~17:00)
ワーピングを用いた電気式人工喉頭音声変換システムに適した発話例生成
☆宮下 敦志,戸田 智基(名古屋大院・情報学研)... (103)

人工喉頭というハードウェアがあるらしい

 

3-6-2 (10:45~11:00)
言語非依存な口真似データセット構築と口真似のみからの Transformer による効果音合成
☆滝沢 力(京産大院),△平井 重行(京産大・情報理工学部)... (108)

効果音を生成したい。

操作可能性が高い感じで生成したい。

口真似で効果音生成

口真似でやり易そうなのが爆発音

 


3-6-3 (11:00~11:15)
J-CHAT: 音声言語モデルのための大規模日本語対話音声コーパス
◎中田 亘,関 健太郎,谷中 瞳,齋藤 佑樹(東大院・情報理工),高道 慎之介(慶大/東大),猿渡 洋(東大院・情報理工)... (108)

研究は完成されてるので言うことない

セリフの著作権著作隣接権(歌だと)、肖像権、個人情報


3-6-4 (11:15~11:30)
UTMOSv2: 自然性 MOS 予測におけるスペクトログラム特徴量と SSL 特徴量の統合的利用
☆馬場 凱渡(東大・工),中田 亘,齋藤 佑樹,猿渡 洋(東大院・情報理工)... (108)

メルスペクトログラムは画像として解釈してImagenetを使って特徴量を取り出すらしい


3-6-5 (11:30~11:45)合成音声の大規模主観比較評価からの絶対品質推定 ◎安田 裕介,戸田 智基(名古屋大学)... (109)

歌声の評価は自然性ではなく品質になってきているらしい

機械の方が音痴な人間より自然?

 

 

 

 

 

 

 

 

 

 

SNLP2024メモ

内容はスライドに含まれている内容+私の思考に留める。この記事もまぁ...あまり拡散とかはしないでもらった方がいいのかな

MoE

  • MoE、こんなアーキテクチャ的に実装されてたのか~
  • 思ったほどExpartじゃなくね。MoEの思想自体はシンプルだが、実装は全体的に結構複雑
  • あと、割り当てが一つじゃなくて0.33ずつ使う、みたいなことするから言うほど軽くない

Tuning Language Models by Proxy

  • 生成の系列は先頭の方が影響を受けているっていうのがおもろい話だった

Embedding

  • 合成データでembeddingを作る話
  • そもそも、embeddingはGPTに内包されていないし、embeddingだけで価値があるので作る必要は全然あるよな~という気分。GPT時代にもやることがあってなんか羨ましい
  • 合成データからembedding作るのも普通にできるっぽいな~

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs

  • 相転移とか言う話そういえばあったな
  • 相転移は文法能力と関係してるんじゃね←この仮説がめっちゃ良くて面白い。
  • UASやBlimpの様子はこの仮説を指示しているように見える。というかここまででもう良くないか
  • 制御してみたみたいな話はあまり刺さらなかった。まぁどう使うかは後の人が考えるでしょう

Mission impossible

  • 自分はseedの話が気になった。どういうことだこれ。
  • determisticのルールにseedが使われているとすれば、学習しやすいルールとしにくいルールがあるってことなのかな?
  • それとも、ばらつきが大きいと言うだけで平均したらこれらの間に収まるねって話? ←よく読んだらrandomseed5回の平均を取ってるからやっぱルールの話?
  • チョムスキーの話をしている。自分は謎に包まれていた
  • L4D2でゾンビと共に居たことしかわからんw最早ゾンビだ

Quantifying the redundancy between prosody and text

  • いやーこれも良かった。神藤さんともっと話さないと
  • Prosodyは結構包括的な概念でトーンだけでなくpitchとかエナジーとかすべて含んでいるらしい

Dubbing in Practice: A Large Scale Study of Human Localization With Insights for Automatic Dubbing

  • ←私の発表論文。やっぱこれが一番いい。チョムスキーとかどうでもいいのでどう計算機で吹き替えを作るかを一緒に考えないか。計算機での吹き替えが実現した世界はきっと美しいんだが。

Vision Transformers Need Registers

  • 自分の発表のコメントに返信していたらちゃんと聞けなかった。今度ちゃんと読もう

MotionGPT: Human Motion as a Foreign Language

  • Motionを擬似単語へ変換するって言う事をするらしい。そんな感じなのか~。そのアイディアは色んな事に使えるのかもな
  • 渡邉先生と懇親会で話せたのが良かった。弊研究室にもミクのフィギュアが鎮座しています。歌詞の話とかもいつか聞きたいな

Language is primarily a tool for communication rather than thought

  • 音声の母音の分布の話で、そんな考え方もあるのか~と思ってた
  • 言語をつかさどる部分が欠損してても思考はできるって話は面白い

What Do Language Models Learn in Context? The Structured Task Hypothesis

  • in-context learningは勾配降下やってるみたいな風潮あったが、最近はそれが終わったらしい。関数の組み合わせなんじゃねって話らしい

Lost in the Middle: How Language Models Use Long Contexts

  • 最初とか最後に話が入っていると説きやすいらしい。ところで、この記事は最後の方が適当ですね

担い手達の悲哀(入試について)

  • 私はアファーマティブアクションが世の中に良い影響を与えると思っていて賛成していますが、現在は担い手達に「アファーム」されていないと認識しています
  • この記事は主に東大、東工大の大学入試制度が対象です
  • 私は3年間の浪人生活*を送り、大学に入りました。私の周りには大学に不合格になった経験がある人や今も大学受験をしている人が非常に多く、意見がバイアスされている可能性が高いです。
  • 記事は更新される可能性があります

アファーマティブアクションの担い手達

私はアファーマティブアクションを実質的に実行しているのはかわりに受験に落ちる受験生だと思っており、この人達をこの記事では「担い手」と呼んでいます。担い手たちが犠牲となることでアファーマティブアクションは成立していますが、残念ながらこの人達は今深い悲しみを感じています。そして、この人達は「不合格者」として大学から排除された存在になり、大学に全く無関係な存在になってしまうのでその悲しみを表明する場すらありません。本当にこのままでいいのでしょうか。

自分の分野(自然言語処理)大学の教員や、大学の首脳部、学生達はアファーマティブアクションに賛成の意向を示している方が多いですが、これはあまりにも酷いなと思います。私も1学生としては自分の大学がより良い場所になることは嬉しいですが、私たちはただ利益を受けるだけのポジションにいます。代わりに損失を被る人たちと向き合ってきたのでしょうか。アファーマティブアクションを「アファーム」しているのは我々ではありません。

また、この中で教員や首脳部はより重い責任があります。アファーマティブアクションの意思決定はあなた達によって行われましたが、意思決定権は利益を得る人ではなく損失を被る人にある必要があります。今あるのはアファーマティブアクションではなく、ただの押しつけです。

代替案

私が感じる問題点は主に「意思決定権が担い手側にあるべき」という事と、「担い手を忘れない、大学から排除しない」という事です。

代替案1:意思決定権について

アファーマティブアクションに参加するかどうかの意思決定を大学受験者それぞれに行う為に、追加合格の仕組みを用いると良いと思います

今の大学入試は私立を中心として「追加合格」という仕組みがあります。これがどのようなものかというと、ボーダーラインにいる受験者に大学当局が電話をかけ、入学の意思があるか確認し、枠が充足するまで確認を続けるというものです。アファーマティブアクションで用いられるのはこれを逆にし追加で不合格を出すという仕組みです。

一般枠の暫定的な合格者に対して下位から順番に電話をかけ、アファーマティブアクションに参加する者を不合格とします。不合格となった分を、アファーマティブアクションの合格枠とします。

代替案2:忘れない、排除しない

勲章を授与する、学内のイベントに招く、金銭を与える、大学首脳部への参政権を与える等。

いくらでもやりようはあるので、やろうとするかしないかという問題です。

最後に

アメリカのには「忘れられた人達」と呼ばれる人がおり、問題になっているそうです。 大学入試制度改革は非常にアメリカよりさらに危険な構造を孕んでいると思います。何故なら、代わりに犠牲になる人が大学コミュニティから排除されており、完全に「忘れられる」からです。担い手達の活躍を忘れない、民主的な大学であってほしいです。

  • 注: 担い手は一般に男性だけではありません。浪人した女性を多くの大学は「対象外or対象であっても合格が困難」にしています

Pythonで学ぶ音声合成を読んで

 

応用音響学でお勧めされていたので読んでみた。凄い分かりやすかった。

読んでいて、つっかかったところ(重要な部分だったので戻ってきて読んだ場所、分かりにくくてもっと調べたところや、凄いのでもっと知りたいと思ってもっと調べたところ)をとりあえずメモ

 

https://www.amazon.co.jp/Python%E3%81%A7%E5%AD%A6%E3%81%B6%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90-%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E5%AE%9F%E8%B7%B5%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA-%E5%B1%B1%E6%9C%AC%E9%BE%8D%E4%B8%80/dp/4295012270

 

モーラの定義 

モーラは長さ、音節は発音のまとまりを表すらしい

モーラは等時性を持つ。音節は人間の認識に近い?(言語学的存在っぽい)

がっこうはモーラだと4だが、音節だとがっ/こうで2

スペクトログラム

よく出てくる図は横軸が時間、縦軸が周波数で、振幅(パワー)を色の明るさによってあらわす

信号がどういう周期の成分から成り立っているかを見る

 

音素継続長モデル

一つの音素がどれぐらいの長さになるか予測する。どれぐらいの精度があるんだろう?

F0予測とかもそうだが、コンテキストラベルのテキストの情報から継続長やF0を予測する

フルコンテキストラベル

全ての言語特徴量。例えば、直近のモーラの位置とか、単語の活用の型とか、前後の音素とか

「質問」はこのフルコンテキストラベルから情報を取り出すことを指す

 

Wavenet

スペクトル包絡を予測してそこから信号処理で音声を作り出すのではなく、波形を1次元の数値列としてそのまま予測

 

Tacotronのデコーダ

teacher-forcingはできる(学習時に答えをそのまま使うことはできる)が、LSTMのためこれまでの状態を表す変数を用いることになるから並列はできない

アテンションが継続長予測の代わりをする

Tacotron, Wavenetの学習

データセットは24時間ほどらしい

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自分のプロジェクトを3秒、10秒、30秒、100秒で言う

随時更新

3秒

世界観を崩さないアニメのAI吹き替えをやっております。

 

10秒

アニメ作品の世界観を崩さないAI吹き替えというものをやっております。世界観を崩さないというのはどういうことかと言うと、元のキャラクターの雰囲気を保った翻訳、元の声優さんの特徴を保った音声合成をやっています。

30秒

アニメ作品の世界観を崩さないAI吹き替えというものをやっております。世界観を崩さないというのはどういうことかと言うと、元のキャラクターの雰囲気を保った翻訳、元の声優さんの特徴を保った音声合成をやっています。
また、吹き替えは非常に丁寧な作業を通して製作されています。発話タイミングのフレーム単位での認識や、口の動きの映像認識、発話の長さの微細な調整などができるシステムを構築しています。

100秒
アニメ作品の世界観を崩さないAI吹き替えというものをやっております。世界観を崩さないというのはどういうことかと言うと、元のキャラクターの雰囲気を保った翻訳、元の声優さんの特徴を保った音声合成をやっています。
→作品のデモを見せる

また、吹き替えは非常に丁寧な作業を通して製作されています。発話タイミングのフレーム単位での認識や、口の動きの映像認識、発話の長さの微細な調整などができるシステムを構築しています。

→ソフトウェアのデモを見せる

 

 

 

 

JSAI2024参加記録

僕の発表は金曜の9:40~ Aホールであります。よろしくお願いします~

 

28日、火曜日

[1G3-GS-6-04] 連続表現を用いたSpeech-to-Text対話モデルの構築

HUBERT特徴量を入力として、テキストを出力するモデルを学習。そのモデルの事前学習にLLMを用いる。モデルは音声認識タスクで事前学習→対話タスクで学習という順序で利用

rinnaも同じようなことをしているらしい。音声認識で学習したモデルが事前学習済みモデルとして利用されることもあるのかな?
https://rinna.co.jp/news/2023/12/20231207.html

 

[1B4-GS-2-03] 宝くじ仮説の観点からの Grokking の理解

Grokking:暗記→汎化が起きたという現象

なぜこんなことが起こるの?→モデルの構造が変化しているのではないかと仮説を立てた。実際、重みの刈込のみで、暗記モデルから汎化モデルに移動してるっぽかった

 

先行研究的には、ランダムに動いて、いい所に落ちたみたいな話

構造の定義については100%理解できてないが「重みの絶対値に基づいた刈
り込み」を行って判断をしているため、モデルのどのニューロンを使っているかを構造と思っているのかなと考えた。

 

[1I5-OS-31b-01] 対話システムのための対照学習によるキャラクタ性の評価

キャラクタ性を評価したい
既存研究:新しいキャラクターが出てくるたびに新しくモデルを訓練

→対照学習で構築したモデルで学習不要に

データセットは発話の生成からアノテーションまで全て人手

5/29 水

[2A2-PS-2-01] 進化する大規模言語モデル

このurlを相澤先生は参考にしてるっぽい



BERT系とGPT系に分かれる

 

epoch making1埋め込み

文脈語ベクトル 共起行列巨大

maskを予測するor次の単語を予測する←行列は小さくなる

 

epoch making 2 2017~

未知語、多義語の問題が解かれる

<unk>で代替→サブワード

 

語義の曖昧性(多義語

LSTMで文脈とかを見るようになった

 

epochmaking3 生成モデル

何をエンジニアリングするかが変わる

自然言語処理の人たちは何をしてるか

コーパス整備

Chinchilla scalling law
20トークンが1パラメータ

Token Crisis

サイズ: LLama 3 15兆

質の良さ:Phi 60億

 

tokenizer

token(subword)に分割する

どれぐらいのサイズの辞書が良いのかは、Empericalに決めている

GPT-4oは感じが追加されてる(subwordになってない)っぽい

 

評価

web上から作ったデータを評価に使えない
生成モデルの評価は難しい
答えを評価するのは難しい

llama3の構築データはllama2でクリーニング

 

 

5/30 木曜

[3Xin2-64] 帰納的に多様な巨大論理推論コーパスによりLLMの汎用論理推論能力を向上させる

文としてはでたらめだが、述語論理に従う文を生成し、学習する。

知識は増えないが、推論能力を上げることが出来る

optimizerを特別なものにして、知識の忘却を抑えている

 

[3Xin2-26] 大小の言語モデルに基づく双方向な表現獲得
スライド:

大規模言語モデルの開発 - Speaker Deck



LLMの重みを使って単語に対する分類問題を解きたい × 分類問題は後ろの文脈情報も効く、ということらしい

 

[3B5-TS-1-01] 大規模言語モデルの開発

今のパラメタ数はネズミに相当、LLama3はCommonCrawlの全スナップショットを使い果たした、llama3の再現にはTSUBAMEのすべてを使っても112日かかる

 

Transformer:

類義語を考慮、曖昧性問題を解消(相澤先生も言ってたので昔は重要な議題だった?) 長距離依存を扱いやすい

 

データについて

スケーリング則やChinchila則などあったが、結局モデルのパラメータをデカくするのはつらいので、提案されていた最適なパラメータ、データ比率ではなく、小さいモデルを多めのデータで訓練するのが流行り

 

事前学習は1epochでやるのがよいという通説はKomatsuzaki 2019という論文にまとまって要るっぽい

 

P21

Transformer++

アーキテクチャ面では経験則っぽい細かい調整が色々ある

 

P24 

データの重複除去:結構愚直にやってる?その他クラスタリングとか

 

P29

トークン単位でのフィルタリング。学習すべきっぽいtokenのみの損失を用いる

 

P30

サブワード。日本語は3tokenになって、byte毎に扱われてるっぽい

→意味が消えてる

 

モデルの学習には色々経験則アリ

 

P41

Alpacaとか、styleだけ賢くなってる可能性あり

 

P43

ファインチューニングでは知識を獲得できない

 

アラインメント
P55
RLHFの問題点が分かりやすくまとまってた。いい

 

P79
文脈内学習におけるバイアス除去

面白そうだが聞いたときよく分からんかった

 

 

 

 

 

 

5/31

自分の発表

映像機械翻訳について、性格や関係性の情報の有効性を評価するためのデータセットを作っています。

詳細はこちら

https://www.youtube.com/watch?v=6RoORvg9MdE&list=PLqjMTEW_Z7cSCem-xFO6WMZbcbvkJd0s6&index=4

 

ポスター

[4Xin2-74] 音声感情認識システムを用いた対話データの分析
感情認識をして、対話の中でどっちの話者が今支配的なのか等を分析した

感情認識は、Valence,Arousal,Dominanceと呼ばれる3つの軸で行う。この3次元での認識は有名であるそうで、既にこの3次元用の感情認識で学習したモデルがあり、モデルはそれを使っているらしい

 

[4Xin2-66] 外部知識なし/モデル内部秘匿/低温度固定状況でのデータ拡張を用いたサンプリングによる日本語LLMの幻覚検知

SelfCheckGPTという、いくつもの出力をさせてその中でBERTScoreが中心に位置しているものを答えとする、という研究があり、その拡張らしい。SelfCheckGPTが気になった

 

[4Xin2-93] 会議翻訳における文脈情報を考慮した少数ショット学習

指示語がある文は、共参照解析をして指示語が指していた文を持ってきて、その文をプロンプトに入れると精度が上がりそう

会議翻訳が対象だが、どうも前後の対話をプロンプトに沢山いれても、あんまり精度は変わっていないっぽい

 

[4Xin2-45] 事前学習済み日本語BERTモデルにおける概念知識

BERTに単語当てタスクを解かせる。似たような問題を4つ用意し、その4回でめっちゃ発火していたニューロンにその単語の知識が入っているとみなす。そのニューロンの値を2倍にしたり0にしたりすると、知識がそこに埋まっていた感がある挙動が起きる。
その論文の日本語版?
ニューロンは数個~20個とからし

[4Xin2-13] 悲観的なRLHF

RLHFの報酬モデルは多様であったほうがいい。(先行研究
ラベルなしデータについて、報酬モデルが違う予測になるように学習(ラベルアリは当然全員が同じ方向に学習するが)

賢い

発表

[4N3-GS-6-04] Bregman Divergenceによる低品質なテキストにおけるロバストな事前学習

データセットがノイジーな場合、KL-Divergence を損失とする場合よりロバストに機能する

 

[4N3-GS-6-05] 拡散過程に基づくモデルによるトレースからユーザの意図を反映したキャプション生成への取り組み

ユーザーがどこを追っているか、手で付けてるデータセットがあるらしい

 

その他

会場にあったしゃぶしゃぶの店がまじでおいしかったです。