LLMについて学び直す3週間 - 英語帝国を打倒しよう

週３日ぐらい取れそうなので、一日１つぐらいでやっていきたい

とりあえず作ってみる→ LLM構築タイムアタック - yasagurenlp’s diary
transformerの並列計算について。何をどう並列化してるんだっけ -> 入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary
hfのgenerate関数、train関数の引数全部読んでみた
モデルごとにクラスが分かれてるけど、これが何してるか。headとか云々とかも
デコーダーのbackwardの仕組みよく分かってない気がする。とりあえず、decoder-baseモデルをpytorchで書いてみる
LLM計算量。オーダー、理論値、実測値など。空間＋時間両方やる
token数、入る入らないとか、拡張できるとか。何？
model parallelを実装してみる重みがどこに載って、どう計算が流れてる？
attentionの可視化って何してる？
文脈の埋め込みとか。chat-GPTとか前に話したことをどうやって覚えてるんでしたっけ....