英語帝国を打倒しよう

言語の壁に計算機で挑もう!

投資以外(Non-Equity)でお金が出るプロジェクト支援へのポインタ

僕らのような自分らのソフトウェアプロジェクトを事業化したいと思っている人が受けられる支援について最近調べていて、見つけたものを後続の人のためにまとめている。あくまでリンクがあることに意味がある記事なので、詳細は各支援先のHPをよく参照しよう…

SXSW2024参加録

東大の産学協創推進本部がSXSWというイベントでの展示を支援してくれる「Todai To Texas」に採択され展示を行いました。 SXSW会場の様子 我々のチーム「DubGuild」のページ SXSWとは SXSWは、世界100カ国以上から約40万人が参加する大規模なアメリカの展示会…

学会行ったら現地のオタクが香港のメイド喫茶に連れて行ってくれた件

自然言語の国際会議「PACLIC37」は香港のPolyU(香港理工大学)という大学で開催された。会議が終わった後日本人と話していると、日本語に気付いたのか謎のラブライブの缶バッチを付けた人(以降、Aさん)が話かけてきた。 なんでも、Aさんはアニメ好きで日本語…

加藤先生の発言かどうかを分類するbotを作った

弊学の加藤真平先生の発言かどうかを判定する、真平偽平ジャッチャーをGPTsで作成しました。 https://chat.openai.com/g/g-9KwM7oFfJ-shinpei-sensei-judger

国際学会に行くので名刺とウェブページを作る

* ウェブページ githubpagesで作るか~となった。とりあえずこれを参考にした。どうもthemeというボタンがgithubのpagesから消えているっぽく、古い記事はあんまり参考にならなかった。 https://www.youtube.com/watch?v=D9CLhQdLp8w * 名刺 デフォルトは9.1…

入力と出力から辿るtransformer(計算量等)

はじめに transformerの仕組みについてはほとんど勉強したことが無く、どうも理解が怪しかったので改めて勉強し直すことにしました。特に気になっていたのは、並列化と推論時の計算量です。それぞれ以下のような話をしていた時に顕在化しました。 友人Aとの…

OverleafでLuaTeXで日本語を使う

Tex弱者なので、世の中にはもっと良い情報があるかもしれないが一応....overleafはデフォルトのプロジェクトだと日本語を上手くコンパイルできない。で、ググると最初の方にコンパイラをpdflatexからlatexにし、latexmkrcを作成して云々....という様な記事が…

LLMについて学び直す3週間

週3日ぐらい取れそうなので、一日1つぐらいでやっていきたい とりあえず作ってみる→ LLM構築タイムアタック - yasagurenlp’s diary transformerの並列計算について。何をどう並列化してるんだっけ -> 入力と出力から辿るtransformer(計算量等) - yasaguren…

LLM構築タイムアタック

目標 自習室みたいなところでバイトを始めた。そこにいれば何しててもいいらしい。→なーんか、今日、暇だな.....人も来ないし.....→LLM作るか とりあえず、話すようになれば何でもいいかな タイムライン 14:30 スタート GPU:家のPC(RTX3090) CC-100が良さ…

Vscodeのinteractive環境

右上のクリックからでは新しいvenvを追加できないみたい 以下の記事が参考になった。python interpreterから設定。bin/python3をファイルとして指定する qiita.com

Huggingfaceで使う環境変数一覧

大学のクラスタでhuggingfaceのtokenがアクセス権限ない所に保存されようとするので困った→環境変数のHF_HOMEを変えればOKだった便利な時代になりましたね。

Python自体のバージョンとパッケージのバージョンの依存関係

Pythonのバージョンの依存 これまで理解が曖昧過ぎたので、今日出会ったトラブルと知ったことだけでもまとめる。 トラブル 大学のPCでpip install huggingface_hubしてもあんまりバージョンが新しくならない。(0.5.0にしかならない)が、github等を見ると0.1…

久しぶりにOSから環境を構築して、詰まったこと

ハードウェア SSDを指すところの上の金属を止めるナットが抜けて、秋葉原にヘキサゴンソケットを買いに行くことになった。名前初めて知った これはバエ写真....ではなく、抜けたナットを取り外せなくなって困っている写真 ヘキサゴンソケット OSのブート nou…

文字列比較とDFT

文字列比較とDFT フーリエ変換についてこれまでほぼ知らなかったのだが、大学の渋谷先生の講義で遂に出会ったので書いておく。講義資料はこちらで、ここからの引用も多い。 個人的に気づきだったこと ハミング重みは多項式の積の係数っぽくなる。 逆DFTは関…

【Slack】リアクションが押されたらDeepLで自動翻訳してくれるアプリを作成

初めに 研究室に留学生が多く、Slackに翻訳botを入れたいなぁと思っていました。そこで、Slackでリアクションを押すとDeepLが翻訳してくれるものを作りました。(他にも、generalチャンネルを全部英語に直して流すチャンネルなど、翻訳系の機能を作ったのです…

m2scorerを(100倍位)高速化してみた

まとめ 単語数をVとして、V^3からV^2ぐらいへ高速化した。 バグを見つけるなどして、定数倍の高速化にも努めた。 m2scorer_python3_fastで公開している。 m2scorerとは Grammalyのような、文法的に誤った文を文法的に正しい文に直すタスクがあり、文法誤り訂…

言語処理学会2023参加記録

はじめに 言語処理学会2023でまだ心に残っていることを書いたお気持ち日記です 自分の考えを述べる部分が多いのでご承知おき下さい 「公開資料以外の話をどこまで書いてよいか分からない」(そもそも書く意味もない?) 「自分のためのメモ的な意味合いもあ…