目標

自習室みたいなところでバイトを始めた。そこにいれば何しててもいいらしい。→なーんか、今日、暇だな.....人も来ないし.....→LLM作るか

とりあえず、話すようになれば何でもいいかな

タイムライン

14:30 スタート GPU：家のPC（RTX3090） CC-100が良さそうか？よく分からん。日本語で話してほしいななんか開かないといけないページが多いので、大量の画面の環境構築

15:00 とりあえずGPT-neoXの環境構築。データの形式とかについてreadmeになんも書いてないところがめんどくせぇ。 prepare_data.pyを読むか→意外に面倒そうやんけ....

こんな感じのこと書いてあったから、とりあえずc4でやってみるか。ただ、デフォルトでやろうとすると多分日本語だけにできないな....全言語ダウンロードするのめんどくさそうだし.... DATA_DOWNLOADERS = { "pass": "pass", "enron": Enron, "pile_subset": PileSubset, "pile": Pile, "github": Github, "arxiv": ArXiv, "europarl": EuroParl, "freelaw": FreeLaw, "nih": NiH, "pubmed": PubMed, "books1": Books1, "books3": Books3, "hackernews": HackerNews, "openwebtext2": OpenWebText2, "stackexchange": StackExchange, "ubuntu_irc": UbuntuIRC, "youtube_subtitles": YoutubeSubtitles, "c4": C4, "c4_openwebtext": C4OpenWebText, "enwik8": Enwik8, }

15:30 eleutherが作るものってなんか秘密結社っぽくてかっこいい下のenではなくja版のファイルないかなーって思って探すけど、enしかねぇ。英語帝国に従順な秘密結社だった....

class C4(DataDownloader):
    name = "c4"
    urls = [
        f"https://the-eye.eu/eleuther_staging/c4/en/c4-train.{i:05}-of-01024.json.gz"
        for i in range(1024)
    ]