JSAI2024参加記録

僕の発表は金曜の9:40~ Aホールであります。よろしくお願いします~

 

28日、火曜日

[1G3-GS-6-04] 連続表現を用いたSpeech-to-Text対話モデルの構築

HUBERT特徴量を入力として、テキストを出力するモデルを学習。そのモデルの事前学習にLLMを用いる。モデルは音声認識タスクで事前学習→対話タスクで学習という順序で利用

rinnaも同じようなことをしているらしい。音声認識で学習したモデルが事前学習済みモデルとして利用されることもあるのかな?
https://rinna.co.jp/news/2023/12/20231207.html

 

[1B4-GS-2-03] 宝くじ仮説の観点からの Grokking の理解

Grokking:暗記→汎化が起きたという現象

なぜこんなことが起こるの?→モデルの構造が変化しているのではないかと仮説を立てた。実際、重みの刈込のみで、暗記モデルから汎化モデルに移動してるっぽかった

 

先行研究的には、ランダムに動いて、いい所に落ちたみたいな話

構造の定義については100%理解できてないが「重みの絶対値に基づいた刈
り込み」を行って判断をしているため、モデルのどのニューロンを使っているかを構造と思っているのかなと考えた。

 

[1I5-OS-31b-01] 対話システムのための対照学習によるキャラクタ性の評価

キャラクタ性を評価したい
既存研究:新しいキャラクターが出てくるたびに新しくモデルを訓練

→対照学習で構築したモデルで学習不要に

データセットは発話の生成からアノテーションまで全て人手

5/29 水

[2A2-PS-2-01] 進化する大規模言語モデル

このurlを相澤先生は参考にしてるっぽい



BERT系とGPT系に分かれる

 

epoch making1埋め込み

文脈語ベクトル 共起行列巨大

maskを予測するor次の単語を予測する←行列は小さくなる

 

epoch making 2 2017~

未知語、多義語の問題が解かれる

<unk>で代替→サブワード

 

語義の曖昧性(多義語

LSTMで文脈とかを見るようになった

 

epochmaking3 生成モデル

何をエンジニアリングするかが変わる

自然言語処理の人たちは何をしてるか

コーパス整備

Chinchilla scalling law
20トークンが1パラメータ

Token Crisis

サイズ: LLama 3 15兆

質の良さ:Phi 60億

 

tokenizer

token(subword)に分割する

どれぐらいのサイズの辞書が良いのかは、Empericalに決めている

GPT-4oは感じが追加されてる(subwordになってない)っぽい

 

評価

web上から作ったデータを評価に使えない
生成モデルの評価は難しい
答えを評価するのは難しい

llama3の構築データはllama2でクリーニング

 

 

5/30 木曜

[3Xin2-64] 帰納的に多様な巨大論理推論コーパスによりLLMの汎用論理推論能力を向上させる

文としてはでたらめだが、述語論理に従う文を生成し、学習する。

知識は増えないが、推論能力を上げることが出来る

optimizerを特別なものにして、知識の忘却を抑えている

 

[3Xin2-26] 大小の言語モデルに基づく双方向な表現獲得
スライド:

大規模言語モデルの開発 - Speaker Deck



LLMの重みを使って単語に対する分類問題を解きたい × 分類問題は後ろの文脈情報も効く、ということらしい

 

[3B5-TS-1-01] 大規模言語モデルの開発

今のパラメタ数はネズミに相当、LLama3はCommonCrawlの全スナップショットを使い果たした、llama3の再現にはTSUBAMEのすべてを使っても112日かかる

 

Transformer:

類義語を考慮、曖昧性問題を解消(相澤先生も言ってたので昔は重要な議題だった?) 長距離依存を扱いやすい

 

データについて

スケーリング則やChinchila則などあったが、結局モデルのパラメータをデカくするのはつらいので、提案されていた最適なパラメータ、データ比率ではなく、小さいモデルを多めのデータで訓練するのが流行り

 

事前学習は1epochでやるのがよいという通説はKomatsuzaki 2019という論文にまとまって要るっぽい

 

P21

Transformer++

アーキテクチャ面では経験則っぽい細かい調整が色々ある

 

P24 

データの重複除去:結構愚直にやってる?その他クラスタリングとか

 

P29

トークン単位でのフィルタリング。学習すべきっぽいtokenのみの損失を用いる

 

P30

サブワード。日本語は3tokenになって、byte毎に扱われてるっぽい

→意味が消えてる

 

モデルの学習には色々経験則アリ

 

P41

Alpacaとか、styleだけ賢くなってる可能性あり

 

P43

ファインチューニングでは知識を獲得できない

 

アラインメント
P55
RLHFの問題点が分かりやすくまとまってた。いい

 

P79
文脈内学習におけるバイアス除去

面白そうだが聞いたときよく分からんかった

 

 

 

 

 

 

5/31

自分の発表

映像機械翻訳について、性格や関係性の情報の有効性を評価するためのデータセットを作っています。

詳細はこちら

https://www.youtube.com/watch?v=6RoORvg9MdE&list=PLqjMTEW_Z7cSCem-xFO6WMZbcbvkJd0s6&index=4

 

ポスター

[4Xin2-74] 音声感情認識システムを用いた対話データの分析
感情認識をして、対話の中でどっちの話者が今支配的なのか等を分析した

感情認識は、Valence,Arousal,Dominanceと呼ばれる3つの軸で行う。この3次元での認識は有名であるそうで、既にこの3次元用の感情認識で学習したモデルがあり、モデルはそれを使っているらしい

 

[4Xin2-66] 外部知識なし/モデル内部秘匿/低温度固定状況でのデータ拡張を用いたサンプリングによる日本語LLMの幻覚検知

SelfCheckGPTという、いくつもの出力をさせてその中でBERTScoreが中心に位置しているものを答えとする、という研究があり、その拡張らしい。SelfCheckGPTが気になった

 

[4Xin2-93] 会議翻訳における文脈情報を考慮した少数ショット学習

指示語がある文は、共参照解析をして指示語が指していた文を持ってきて、その文をプロンプトに入れると精度が上がりそう

会議翻訳が対象だが、どうも前後の対話をプロンプトに沢山いれても、あんまり精度は変わっていないっぽい

 

[4Xin2-45] 事前学習済み日本語BERTモデルにおける概念知識

BERTに単語当てタスクを解かせる。似たような問題を4つ用意し、その4回でめっちゃ発火していたニューロンにその単語の知識が入っているとみなす。そのニューロンの値を2倍にしたり0にしたりすると、知識がそこに埋まっていた感がある挙動が起きる。
その論文の日本語版?
ニューロンは数個~20個とからし

[4Xin2-13] 悲観的なRLHF

RLHFの報酬モデルは多様であったほうがいい。(先行研究
ラベルなしデータについて、報酬モデルが違う予測になるように学習(ラベルアリは当然全員が同じ方向に学習するが)

賢い

発表

[4N3-GS-6-04] Bregman Divergenceによる低品質なテキストにおけるロバストな事前学習

データセットがノイジーな場合、KL-Divergence を損失とする場合よりロバストに機能する

 

[4N3-GS-6-05] 拡散過程に基づくモデルによるトレースからユーザの意図を反映したキャプション生成への取り組み

ユーザーがどこを追っているか、手で付けてるデータセットがあるらしい

 

その他

会場にあったしゃぶしゃぶの店がまじでおいしかったです。