週3日ぐらい取れそうなので、一日1つぐらいでやっていきたい
とりあえず作ってみる→ LLM構築タイムアタック - yasagurenlp’s diary
transformerの並列計算について。何をどう並列化してるんだっけ -> 入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary
hfのgenerate関数、train関数の引数全部読んでみた
モデルごとにクラスが分かれてるけど、これが何してるか。headとか云々とかも
デコーダーのbackwardの仕組みよく分かってない気がする。とりあえず、decoder-baseモデルをpytorchで書いてみる
LLM計算量。オーダー、理論値、実測値など。空間+時間両方やる
token数、入る入らないとか、拡張できるとか。何?
model parallelを実装してみる重みがどこに載って、どう計算が流れてる?
attentionの可視化って何してる?
文脈の埋め込みとか。chat-GPTとか前に話したことをどうやって覚えてるんでしたっけ....