地平線まで行ってくる。[B!]新着記事・評価 - はてなブックマーク

『地平線まで行ってくる。』

メモ：ArXivで最近のトレンドをNotebookLMで眺める - 地平線まで行ってくる。
10 users
bwgift.hatenadiary.jp

先日、副産物で得られた論文のアブスト集をNotebookLMに入れてみたら快適でした。もともとデータセット作成のテストだった*1のですが、使えそうなのでそこだけ切り出します。今回の手順は、 ArXivから任意のキーワードで検索しアブストを入手する。 50000文字以下になるように分割してNotebookLMに投入できるmarkdown形式にする。ついでに、gemini-flashを使ってまとめも作成する。出来たmarkdownをNotebookLMに投入して好きなように使う。です。簡単です。 Gemini-flashでまとめさせると、Promptを完全に制御できるので比較的思い通りの結果が得られます。ところが、試してみるとNotebookLMでは文書がどういう性格（もしくは素性）のものかが、正確に伝わりません。論文リストだけしかないテキストなので、そりゃなんなのか分からないのでしょう
- テクノロジー
- 2024/11/03 10:58

Colabでgemma2-2b-jpnをArXivから作ったデータセットでファインチューニングしてみる。 - 地平線まで行ってくる。
8 users
bwgift.hatenadiary.jp

gemma2-2b-jpn、日本語軽量モデルが登場。LLM-jpからも日本語が得意な軽量モデルが登場。楽しみになってきました。素人が少ないリソースで、独自データセットでファインチューニングすることもできるようになってきました。引き続き、以前の挑戦に再トライしました。 bwgift.hatenadiary.jp データセット作成対象論文は、ArXivのAPIを利用して"time series machine learning"のワードで検索した結果である、4500本の論文から無作為に1000件抽出したものとしました。得られたabstractからinstruct用データセットを作りました。まず、質問(question), 回答(answer), 理由(reason)を分析を実施しました。分析には、ローカルLLM（EZO-Common-9B-gemma-2-it-GGUF)を量子化をせずに用
- テクノロジー
- 2024/10/06 22:01
- 学習

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx