英語帝国を打倒しよう

言語の壁に計算機で挑もう!

LLMについて学び直す3週間

週3日ぐらい取れそうなので、一日1つぐらいでやっていきたい

  1. とりあえず作ってみる→ LLM構築タイムアタック - yasagurenlp’s diary

  2. transformerの並列計算について。何をどう並列化してるんだっけ -> 入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary

  3. hfのgenerate関数、train関数の引数全部読んでみた

  4. モデルごとにクラスが分かれてるけど、これが何してるか。headとか云々とかも

  5. デコーダーのbackwardの仕組みよく分かってない気がする。とりあえず、decoder-baseモデルをpytorchで書いてみる

  6. LLM計算量。オーダー、理論値、実測値など。空間+時間両方やる

  7. token数、入る入らないとか、拡張できるとか。何?

  8. model parallelを実装してみる重みがどこに載って、どう計算が流れてる?

  9. attentionの可視化って何してる?

  10. 文脈の埋め込みとか。chat-GPTとか前に話したことをどうやって覚えてるんでしたっけ....