ブックマーク / zenn.dev/hellorusk (3)

  • 【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

    昨日公開された GPT-4o は性能だけでなく処理速度の点からも注目を集めています。その速度に寄与しているのは、モデルの処理速度の改善だけでなく、日語処理の改善も大きく関わっていると考えられます。 実際、OpenAIのサイトによれば、日語は平均して 1.4 倍の効率で(1.4倍少ないトークンで)表せるようになったとされています。 これは、GPT-4o が GPT-4 に比べて日語をより 語彙 (vocabulary) に含むようになったからです。語彙とは LLM における自然言語の処理の最小単位で、1つの語彙が1つの数値トークンに変換され、それがモデルに突っ込まれるという仕組みです。 ところで、GPT-4o では 『風吹けば名無し』 という文字列を 1 つの語彙として扱うのをご存知でしょうか。 このツイートで紹介されているように、GPT-4o では、ネットで多数出現するこういったフレ

    【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる
  • Wiki.js + Heroku を使って、無料で高機能の情報共有 wiki を簡単に作る

    背景: GitHub wiki への不満 私の所属する研究室では、メンバー全員が1つの GitHub Organization に所属しており、情報共有はその Organization 上のリポジトリの GitHub wiki で行われています。 研究室がコンピュータサイエンス系であることもあってメンバーは GitHubMarkdown に慣れており、普段 GitHub wiki を使っていて困ることはそんなになかったのですが、それでも時々不満が出ることがありました。 不満として多いのは、色々記事を書いているうちに全体構造がよくわからなくなってしまうという点にあると思います。GitHub wiki ではディレクトリ構造を持てないので、全ての情報がリンクを経由してアクセスされることになり、段々と整理がつかなくなってしまいます。 複数のリポジトリにそれぞれ wiki を書くこともできます

    Wiki.js + Heroku を使って、無料で高機能の情報共有 wiki を簡単に作る
  • フリーで使える日本語の主な大規模言語モデル(LLM)まとめ

    ありがとうございます! 実は私人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。 来年3月の言語処理学会年次大会(NLP2023)での続報をお待ちください!このモデルに関する論文が公開される予定です(一応それを待ってからこの記事にも掲載します)。 (私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 )

    フリーで使える日本語の主な大規模言語モデル(LLM)まとめ
  • 1