はじめに
言語処理学会2023でまだ心に残っていることを書いたお気持ち日記です
- 自分の考えを述べる部分が多いのでご承知おき下さい
- 「公開資料以外の話をどこまで書いてよいか分からない」(そもそも書く意味もない?)
- 「自分のためのメモ的な意味合いもある」
- 研究内容について私の発言が正しくない可能性が十分にあります。
- 私の発表についてはまた後日書こうと思います。
1日目:チュートリアル
音声合成は次にどこに向かうのか
- なぜ音声合成は発展したのか
- 音声特徴というもの作ってから音声波形を作っていたがそれが難しかった→そこが深層学習で成長した(?)
お気持ち
- 何か、機械翻訳で「p(y|x)p(y)」とやってた時の話と近いなぁと思った
- 英語の発表とか合成音声にさせてほしい
構文文法の基本的な考え方:言語使用から創発する言語知識のありようを探る
- 構文文法
- まず意味の構造のようなものを表す構文が存在し、動詞はそこに当てはめられている?
- swimは7つの構文を持つ(SV~SVOOまで)
- 単語の意味は言葉の中になく人の頭の中にある (?)
お気持ち
- 百科事典的意味観(「単語の意味は言葉の中になく人の頭の中にある?」)は、単語のベクトルがエージェントごとで違うみたいな感じかな
- 逆にencoderとdecoderのembeddingは同じなのが自然かも
- 構文も意味なら、その表現はベクトルかも
- 正直事前知識が無さ過ぎるせいかよく分からなかった部分大
- 言語学の人たちってこんな感じなんやな~感
スポンサーイブニング
- みらい翻訳さん
- 企業向けの翻訳がメインとのこと
- 社内向け文章とかで特に需要があるらしい
- NTTdocomoさん
- 人手評価と和文英訳の採点スコアの相関が気になった
2日目
自分の分野と近い五藤さんが一緒に回ってくれました。ありがとうございます。
緊急パネル:ChatGPTで自然言語処理は終わるのか?
お気持ち
- なんで日本語で動いているのか凄く不思議で知りたくなった。これがこの学会参加して感じたナンバーワンお気持ち。
- モデルの第二言語獲得(?)ということを研究している人もいるらしい。
B2:機械学習(2)
BERTを用いたData Augmentation手法の改善とJGLUEによる評価
- 一単語抜き出してきて、その単語をMLMで予測させ文章を再構築する
お気持ち
これでも結構文章の意味が変わってしまうことはある気がしていて、なかなかDAって難しいのかなと思った。
C4:埋め込み表現(2)
面白い話多くてアツかった
正準角および部分空間に基づく BERTScore の拡張
- 文類似度を計算するときに部分空間を用いる
お気持ち
なんか凄そう
king - male + female ->queenみたいな話を真とすると凄くうまくいきそう
この辺まずはうまくいくことが大事?
ガウス埋め込みに基づく文表現生成
- 文埋め込みにガウス分布
お気持ち
- なんか凄そう
- 文埋め込みの空間ってどうやって広がってるんだ(?)
C5:含意・言い換え(2)
リフレーミングに基づいた言い換え生成のための単言語パラレルコーパスの構築とその分析
柔らかいジャンプ付き編集距離に向けて
お気持ち
- 「言い換え」で全く同じ意味を表すものを生成するものって少ない?
- 機械翻訳とかで自動評価って大事なんだ~と思った
3日目
C6:教育応用(2)
文法誤りにおける一般誤りの分離可能性と解説文生成への応用
お気持ち
全てが完璧で驚いた
C7:教育応用(3)
お気持ち 発話の話とかも多く、教育応用といっても色々あるんだなという気持ちになった。
B4会
近くのお店でみんなでご飯を食べた。幹事の方々には本当に感謝。
名刺持っていけば良かったなぁと思った。
@Mt_B00Ksのpositional-encodingの話が面白かった 一埋め込み由来の成分が自己注意機構内にも存在するのか 追記 * W^{A}全体で注意を考えれば十分なのでは?って思ってなんで特異値分解してクエリとキーに分解するのか疑問だったけど、今日(4/5)に論文を読んでようやく気付いた?これ周波数として位置埋め込みと同じものが出てきたから凄いってことなのか(それはそう) * じゃあ、下の方の層でも直に埋め込みを入れたほうがいい? * 単に隣とかに注意すればいいならなんでこの周波数がでてくるんだろう。「入力がそうだから」?だとするとモデルってあんまり学習してなくてパラメーターとか減らせるのかも。
招待講演1:社会における分散的ベイズ推論としての記号創発~集合的予測符号化としての言語観~谷口 忠大 先生 (立命館大学)
本人がおっしゃっていたことでもあるが、マジでエイリアンという感じだった。
記号(言葉)はより良い表現学習の結果らしい。(それはそう?)
A9:機械学習(4)
マルチヘッドニューラル N-gram による自己注意機構の代替
- 局所的な情報抽出に強いマルチヘッドニューラルN-gram機構を導入
お気持ち
- 質問もされていたのだが、Attentionの計算量ってどれぐらいなんだろう
- 「そこは機械が自然に学習してくれる~」と思うとすべて線形層で良くなってしまうので、こういう研究が大事(?)
異言語間対話を支援する日英雑談対話誤訳検出
お気持ち
問題設定が興味深かった
4日目
P11:生成(5)
Retrieval, Masking, and Generation:マスクされた解説文を活用した文法誤り解説文生成
- 解説文を検索し、一部をmaskしてそのmaskを予測する
お気持ち
解説文生成の人たちがやっていることが分かりやすくまとまっていた気がする。
マスクモジュールと生成モジュールに分割するのが何故なのかよくわからなくて、質問したが分かりきらなかった記憶。
自分と近い分野なのに、見過ごしそうになってた。教育応用以外もちゃんと確認しないとダメだな。
Q11:埋め込み表現(3), 意味解析(3)
単語ベクトルの平行四辺形を特徴づける図形距離
- 四つの単語ベクトルに対して中点の距離を算出し、平行四辺形らしさを算出
- (単語ベクトルについてよく言われてる奴が成り立つなら平行四辺形になる)
- 現実の単語で分析
お気持ち
面白いなぁと思った。
分散表現をあまり良く知らないのだが、共起行列以外でも平行四辺形になるような性質があるんだろうか。(この研究とはあまり関係ないが、共起行列と意味表現の関係について勉強しないとなと思った)
D12:形式言語学
A^{n}B、A^{n}B^{n} + 後者を少し変えた自然言語っぽい(形式)言語の4つを用意して、モデルがこの文法を理解できるか見る
Transformerはめっちゃこれが苦手らしい(逆にRNNやLSTMはこれらより良い)
お気持ち
面白いなぁと思った
Transformerって謎だなぁという気持ちに
- positional encoderについての言及が無いのが気になった
- 記号のブール値+位置を表す値が与えられれば理論上この問題は解けるはず?
- とすると位置を表す情報がどうあつかわれてるかがめっちゃ大事そうではある?
終端記号を増やすとできなくなるのは、データ量とかモデルのサイズの問題なのではないかなぁという浅慮が生えた
新米の会
Discordのグループのオフ会。
1次会では@satoshi10958083さんの話を隣で聞いてた。「そもそも誤り訂正って何なんだ?そもそも平易化ってなんなんだ?」って思った。(いい感じの定義作り出したら勝ちみたいな大喜利(?)ゲームが一番大事な問題なのかなぁと少し思った) データの作り方はそれに依存してしまうしな。
2次会では@silviasetitechさんに粘着して(すいません)「誤り訂正をぶっちゃけどう思うか」みたいな話を聞かせて貰った。やっぱポスターとかの前では出てこない議論ってありますよね?
2次会ではボカロ好きの人が多く、趣味の話でも盛り上がった。
5日目:ワークショップ
以下、お気持ちのみです。
ワークショップ1:日本語言語資源の構築と利用性の向上
資源として見る実験プログラム
Checkpointの話が面白かった。
凄い好きな話。
日本語BigBirdの構築
Bigbirdについて一切知らなかったのでそこが勉強になった。
パネル(総合討論)
言語資源についていろいろ語られていたが、やっぱ現実世界と絡む話なので大変そうだなぁと思った。
ワークショップ2:深層学習時代の計算言語学
招待講演
最初の質問が印象的だった。質問は「みなさんは、お金になるから言語学をやるんですか?(A)、面白いから言語学をやるんですか?(B)」というもの。自分は言語処理で言語の壁を攻撃したいというモチベがあって言語処理をやり始めたので、「お金になる==役に立つ」ならAかなぁと思ったが凄い少数派。
詳細をどれだけ話していいか分からないのでふんわり書くが、「今の言語処理でできるのはここまで感」みたいな言葉が途中出てきてそれが印象的だった。
最後に
研究室に配属されたのが10月だったためか、締め切り直前は私もストレスを感じていましたし、先輩方や教授方など多くの人々に迷惑をかけての参加でした。沖縄に行く前も他の人の論文に目が眩むような思いで、参加することが適切なのかと疑問に感じていました。
しかし、学会に参加することで、様々な言語処理の世界を目にすることができ、本当に良い経験になりました。良い経験どころか、もし参加していなかったら今頃どうなってたんだろうなと恐ろしいです。自分の研究のあり方にあまり疑問を持たずに研究を進めてしまっていたかもしれません。少なくとも私にとっては、参加することが非常に有意義でした。後輩にも、言語処理学会に参加することを強く勧めます。
学会で私の研究についてアドバイスをくれた方々、学会で面白い研究を見せてくれた方々、そして沢山の指摘を下さった宮尾研の先輩方や教授方には、心から感謝しています。ありがとうございました。