川o・[B!]新着記事・評価 - はてなブックマーク

🍷 FineWeb2 Edu Japanese - 高品質な教育向け日本語データセット - A Day in the Life
3 users
secon.dev

🍷 FineWeb2 Edu Japanese: 高品質な教育向け日本語データセットを、公開しました。 https://huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese 以下の内容は、上記ページの日本語訳です。本データセットは、FineWeb2 の日本語データ（376M件）のうち、教育向けコンテンツと判断した120M件（約89.3Bトークン）の文章をフィルタしたものです。以下のサブセットも提供しています。 default: 約120M件（1.2億件）のデータ・約89.3Bトークン sample_10BT: default からランダムサンプリングした約10Bトークンのデータ small_tokens: トークン数が512以下の短い文章のみから構成されるデータ small_tokens_cleaned: small_tok
- テクノロジー
- 2025/02/20 16:00

100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開 - A Day in the Life
54 users
secon.dev

なお、StaticEmbedding 日本語モデル学習などの技術的なことは記事の後半に書いているので、興味がある方はどうぞ。利用方法利用は簡単、SentenceTransformer を使っていつもの方法で文章ベクトルを作れます。今回はGPUを使わず、CPUで実行してみましょう。なお SentenceTransformer は 3.3.1 で試しています。 pip install "sentence-transformers>=3.3.1" from sentence_transformers import SentenceTransformer model_name = "hotchpotch/static-embedding-japanese" model = SentenceTransformer(model_name, device="cpu") query = "美味しいラー
- テクノロジー
- 2025/01/21 08:55
- embeddings
- 文章
- 日本語
- AI
- cpu
- あとで読む
情報検索モデルで最高性能(512トークン以下)・日本語版SPLADE v2をリリース - A Day in the Life
25 users
secon.dev

2024年は情報検索技術に興味を持ち、情報検索関連のモデル作りを趣味で行っている @hotchpotch (セコン)です。Transfomer は割と適当にやっても、いい感じに学習してくれるので、楽しいですね。というわけで、日々部屋でご家庭用GPUを回し、以前公開した情報検索に特化したモデル・日本語版SPLADE v1をさらに良い感じに学習させた、日本語版SPLADEのv2(japanese-splade-v2) を公開しました。JMTEB retrieval (情報検索タスク)のベンチマークスコアも、RAGでよく使う文章長の 512 トークン以下なら、かなりの高スコアでトップとなっており、モデルパラメータ数・性能を考えると、バランスの良い検索用モデルに仕上がったかなと思っています。なおこの記事は、情報検索・検索技術 Advent Calendar 2024 24日目の記事となってます
- テクノロジー
- 2024/12/24 06:13
- 日本語
- search
- 学習
- あとで読む
- AI
日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life
15 users
secon.dev

結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。入力文に対して異なるマスクを適用する新しいワークフローエンコーダーとデコーダーで非対称な構造を採用エンコーダーとデコーダーで異なるマスク率を使用これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって
- テクノロジー
- 2024/10/30 10:33
- 検索
- あとで読む
高性能な日本語SPLADE（スパース検索）モデルを公開しました - A Day in the Life
3 users
secon.dev

このように、クエリの文脈を理解し、元の文に含まれていない「燃料」や「効果」といった関連語も重要な単語として抽出しています。また、各単語には重要度を示すスコアが付与されています。なお「は」など、全く関係なさそうかつノイズになりそうな単語も含んでいますが、このような単語は他の出力にも多く含まれるため、無視できる程度のノイズになっていることが多いため、検索にうまくヒットさせることができるのです。同様に、文章に対しても行うことができます。このクエリと文章のスパースベクトルの内積をスコアとすることで、どれだけ関連しているのかを計算を行えます。性能は？冒頭で述べたように、SPLADEモデルは多くの日本語情報検索タスクで優れた性能を示しています。JMTEB(retrieval)や JQaRA, JaCWIR でのベンチマーク結果は以下です。単語特徴量が結果に色濃く出るタスクでは、軒並み高性能な結果
- テクノロジー
- 2024/10/07 12:28
- search
- 学習
- 検索
日本語 Reranker 作成のテクニカルレポート - A Day in the Life
3 users
secon.dev

CrossEncoder の学習方法 CrossEncoder は、単純な回帰タスクである。query text[SEP]passage text といったSEPトークン等で区切ったテキストを、正例は1.0 負例は0.0としてラベル付けし学習させる。具体的な学習コード例としては、SentenceTransformers の CrossEncoder 学習サンプルが分かりやすい。また、複数の負例(ハードネガティブ)を正例と同一バッチで学習させることで性能が大きく向上する。この学習方法については、FlagEmbedding の reranker trainerが参考になる。学習用データセット学習には、質問と正例・負例のデータセットが必要である。1件につき、positive(正例)1個とhard-negative(負例)15個を1セットとし、1グループ=16個として学習に用いた。以下のデー
- テクノロジー
- 2024/04/02 07:27
日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Life
32 users
secon.dev

なお、今回作ったRerankerの技術的な話は、日本語 Reranker 作成のテクニカルレポートに記載しているので、興味のある方はそちらをご覧ください。そもそも Reranker とは？ Reranker とは、名前の通り再ランク付け(rerank)するもので、質問文に対して関連する順に文章を並べ替えます。文ベクトル(文章のembeddings)で類似度を測って並べ替えするものと何が違うのか？と思われるかもしれませんが、実際、文ベクトル類似度でも同じように並べ替えが可能です。しかしながら、大きく二つの点で異なります。 Reranker は再ランク性能が高い文ベクトルは、質問文と文章を同じベクトル空間上の表現として類似度を測ります。そのため大規模なデータに対しても事前に文章のベクトルを算出しておくことで、効率的な計算が可能です。しかしながら、Reranker は再ランクに特化してお
- テクノロジー
- 2024/04/02 07:27
- llm
- ai
- あとで読む
書籍 Human-in-the-Loop 機械学習を読み終えて - データセントリックの示唆に富む書籍 - A Day in the Life
3 users
secon.dev

昨今、生成AI・LLMの台頭により、「良質なデータ」をどう集める・作るかの話をより身近で聞くようになった。LLMに学習させるデータは元より、身近な課題を解決するためにも課題解決のためのタスクを定義し、そのためにデータを分析し作成することが、社会課題解決には当たり前に求められる。これらの課題解決には、新しいモデルを自ら考える必要がないことも多く、タスク定義とデータを集め学習させるだけで、十分な性能を発揮することも多い。いわゆるデータセントリックなデータに焦点を集めた考え方である。ただ、世の中にはモデルやアルゴリズムといったモデルセントリックな話は数多くあれど、データは基本公開されているなんらかのデータセットに対して評価するといった内容はほとんど。しかしながら、この書籍Human-in-the-Loop 機械学習では、データに焦点を集め解説を行なっているという、稀な書籍である。どんな内容
- テクノロジー
- 2024/02/26 12:50
OpenAIの新embeddings,text-embedding-3-smallをRAGタスクで評価する - A Day in the Life
6 users
secon.dev

先日、OpenAI から新しい embeddings モデルである、text-embedding-3-smallとtext-embedding-3-largeが公開された。text-embedding-3-smallは、古いembeddingsモデルのada-v2よりも価格は1/5に、かつ性能は向上しているとのこと。 OpenAIの記事によると、MTEBの評価は少々スコアが上がり、特筆すべきはMIRACLの方は大幅にスコアの向上が見られる。MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)は名前の通り、多言語での情報検索タスクで、このスコアが大幅に上がったということは、日本語での情報検索タスクの精度向上にも期待が持てる。 Wikipedia Q&A の RAG タスクで評価というわけで早速評
- テクノロジー
- 2024/01/29 12:12
LangChain の LangChain Expression Language (LCEL) を理解する - A Day in the Life
6 users
secon.dev

LCEL は LangChain の chain を簡単に構築するための方法です。2023 年後半から開発が盛んに進んでおり、現在(2024 年1月)は LangChain のコードを記述するには、基本 LCEL を使って書く(以前の書き方もできますが)ことが推奨されています。LCEL のメリットについてはオフィシャルドキュメントの LCELを参考すると良いでしょう。しかしながら、LCEL を書き始めると、オフィシャルドキュメント通りに書けば動くけど、ちょっとでもアレンジして書こうとするうまく動かなくなったりします。これは一重に LCEL の挙動を理解していなからなのですが、オフィシャルドキュメントやチュートリアルでは、LLM+RAG のコードなど、LCEL 使うとこんなにシンプルに書けるんだ、というコードは多くのっているのですが、LCEL の挙動についてはあまりのっておらず、のっていて
- テクノロジー
- 2024/01/11 12:20
ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価 - A Day in the Life
3 users
secon.dev

この記事は、Kaggle Advent Calendar 2023の21日の記事である。長いトークンを扱えるLLMの登場などの背景もあり、LLM出力の精度を上げる手法として Retrieval-Augmented Generation(RAG)の重要性の高まりを感じる。例えば Kaggle コンペLLM Science Examでは、上位解放の全てでRAGが使われている。RAGのコア要素の一つである、質問文などの対象文章をうまく表現した文章を取得する検索方法として、主な方法にBM25等のキーワードベースの検索や文の特徴量(embeddings)からのベクトル検索がある。本記事では、この日本語のベクトル検索のみを使って、AI王〜クイズAI日本一決定戦〜第1回コンペティション(すでに終了済み)の課題を解き、どれぐらいのスコアが出るのかを確認する。また、複数の日本語embeddingsへ
- テクノロジー
- 2023/12/21 08:31
Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life
45 users
secon.dev

なお、評価に使ったコードはこちらの eval_xxx というコードである。 https://github.com/hotchpotch/youri-7b-stf-qa-context-jaqket/ Supervised Fine-tuning Trainer(SFT) を使った学習 STFは手軽な方法で指示に対して特定フォーマットの出力(Instruction Tuning)を学習させることができる方法である。学習のさせ方も簡単で、例えば ### 指示: 今日の天気は何ですか？ ### 入力: 本日は大雨ですね。 ### 応答: 大雨のような例文を用意する。例では「### 応答:」以降がうまく出力されるように学習して欲しいデータである。この時、例文と「### 応答:」だけ与えれば、よしなに学習してくれる。実際の学習時には、「応答:」以降を推論し、望ましい回答である「大雪」のtokenの
- テクノロジー
- 2023/12/15 07:59
- LLM
- あとで読む
- AI
- 人工知能
- 学習
- 勉強
RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life
43 users
secon.dev

この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana
- テクノロジー
- 2023/12/04 08:47
- LLM
- RAG
- 自然言語処理
- あとで読む
- 検索
ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life
6 users
secon.dev

最近、文をembeddingsといった特徴ベクトルに変換するユースケースが増えている。そのベクトルから類似ベクトルを探す時に、数千ベクトルならほぼ何も考えなくともよく、数万ベクトル〜になると検索速度を高速化するためHNSW等のANNの近似最近傍探索アルゴリズムを使い、そして数百万ベクトル〜になってくると現実的なデータサイズ収めるために量子化等々を組み合わせた最適化を行うことが多いだろう。これら類似ベクトル検索のための最適化(HNSW・IVFといったアルゴリズムや量子化)では、検索速度、データサイズ(メモリに乗るか)、精度、三つのトレードオフが発生する。これらトレードオフを踏まえた最適化戦略を考えるのだが、最適化時の正確さの計測結果として recall@10 や recall@100 が掲載されていることを多く見かける。例えばChoose the k-NN algorithm for yo
- テクノロジー
- 2023/11/27 09:45
- search
- 検索
- python
CTranslate2 で手軽に Transformers の推論速度を1.6 ~ 約2倍にする - A Day in the Life
3 users
secon.dev

CTranslate2という Python と C++で書かれた高速推論用ライブラリがあり、いつか試そうと思っていたのだけど、モデルを変換する必要があったため億劫になって試していなかった。しかし hf_hub_ctranslate2 という、何もやらずにも透過的に HuggingFace のモデルを CTranslate2 で推論できる形式に変換して利用できるライブラリを知ったので試してみたところ、とても簡単に GPU で推論が 1.6 倍速に、CPU で1.9倍速になり、かつ精度もほぼ変わらなかったので、もっと早く使うべきだった、のでメモ。 CTranslate2 とは CTranslate2(以下CT2) とは、GitHub プロジェクトページの概要に書かれている "CTranslate2 is a C++ and Python library for efficient infere
- テクノロジー
- 2023/11/24 08:16
Apple Silicon GPU(mps) の embeddings 変換パフォーマンス - A Day in the Life
4 users
secon.dev

RTX 4090 が圧勝(そりゃそうだろう)、というのは置いておいても、T4 の60%の速度が M2 GPU 10 コアで出ている。M3 Max はGPU 40コアモデルもあって、速度が線型増加すると仮定すると、M3 Max GPU 40コアならRPSは130ぐらい。RTX4090 の 1/3ぐらいの速度になって、ラップトップPCのGPUとしてはかなり速い。T4の倍以上の速度は出そう。 M2 の Embeddings の変換は実用的な速度か？と言われると用途によりそう。すごく遅くはないが、早くもない。ただ、M2 CPU で変換するよりは GPU は3倍は速いし、HuggingFace Transformers なら device を "mps" にするだけで使えるので、Mac で使う場合は当たり前に GPU を使っていきたい。M3 Max なら大体の用途で、そこそこ実用的な速度が出るんじゃ
- テクノロジー
- 2023/11/10 12:17
Weekly AI News 始めました - クラスタリングとGPTを使った、まとめ自動生成 - A Day in the Life
8 users
secon.dev

AI関連の話題が引き続き多い昨今、今週どんなことが話題になったのだろう？ぐらいの頻度で知れると結構便利なんじゃないかなーと、毎週配信するメルマガ(substack)を始めました。内容は全自動で作成しています。例えば、2023年7月28日から遡って約一週間分のAIニュースまとめは以下の感じです。 https://ainewsdev.substack.com/p/weekly-ai-news-1 完璧とまでは言わないまでも、そこそこ話題になったものをいい感じで集められているのではないでしょうか。興味がある方はご登録 or フィードリーダーなどで購読ください。なお、メルマガタイトルは Weekly Kaggle News のリスペクトです。と、広報だけではあれなので、内部の実装の話でも。以前リンクを張った資料と、とりわけ大きく変えているわけでは無いのですが、ざっくりと書くと multilin
- テクノロジー
- 2023/07/31 09:52
- ai
- tech
- web
- news
gzip + kNN のテキスト分類で BERT 超え論文 "Low-Resource" Text Classification: A Parameter-Free Classification Method with Compressors を実装し試す - A Day in the Life
3 users
secon.dev

最近公開された論文 “Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors (Jiang et al., Findings 2023) は、gzip で圧縮したデータの長さを活用し、テキスト分類課題で BERTよりも優れたパフォーマンスを発揮すると述べています。面白そうだったので、自分でこの方法を実装して試してみました。その結果、実際に livedoor ニュースコーパスを用いたテキストのカテゴリー分類では、日本語 BERTよりも優れた結果が出ました。どんな手法なのかやっていることはシンプルで、まずNCD(Normalized compression distance)を算出します。例では圧縮アルゴリズムに gzip を使っています。個々のデータxとyを圧
- テクノロジー
- 2023/07/21 06:01
LoRA のもう一つの大きなメリット、GPUメモリ共有しつつ別のタスク処理モデルへ即時に切り替える方法 - A Day in the Life
39 users
secon.dev

低ランク行列を追加することで、大元のモデルを維持しつつ少ないコストで学習できる LoRA(Low-Rank Adaptation of Large Language Models)。先日、日本語でも大規模パラメータモデル cyberagent/open-calm-7b や rinna/japanese-gpt-neox-3.6b 等々がリリースされたり、HuggingFaceからはtransformersでLoRAを簡単に実現できるライブラリ、peft がリリースされたことで、試したことがある方も多いと思います。ただ、LoRAのメリットについて主に学習の話が殆どで、もう一つの大きなメリットであるLLMのベースモデルのメモリを共有しつつ、複数のタスクをこなす方法の紹介は見かけたことがなかったので、それをpeftで行う方法についてのお話です。なお、LoRAとは何か？というお話は、輪講資料
- テクノロジー
- 2023/05/31 19:22
- AI
- GPU
- LLM
- 自然言語処理
- 機械学習
- 文章
RubyKaigi 2023 Day 3 / 2023年5月13日 - A Day in the Life
8 users
secon.dev

引き続きホテル大和田に宿泊。朝の散歩二日目も気持ちが良いなぁ。周りどこ見ても山々、という景色も素晴らしい。 RubyKaigiで、Rubyistのキーボードを並べるちょっとしたイベントがあったので覗いてみると、どれもこれも面白くて新しいキーボード欲しくなるなぁ。日本のカスタムキーボードの先駆けの一人であるT氏からまず使ってみるならMODEのキーボードあたりが良いんじゃ無い、と言われ興味を持つ。カスタマイズが必要なので、ちょっと調べてから買ってみたい。 RubyKaigiはちゃんと技術の話が多くていいね、と言われハッとする。たしかにセッショントークはどこかの企業でなんたらを導入して云々、みたいな話はほとんどなくて、基本Rubyにまつわるテクニカルな話だなぁ。トークは基本Rubyの話をしていて、エモい話や他コミニュケーションの話は合間の休憩やトークセッションが終わった後、という絶妙なバランス
- テクノロジー
- 2023/05/15 15:00
fastText で量子化し、実用的な 1.7MB のテキスト分類器を作る - A Day in the Life
10 users
secon.dev

英語記事をAI関連 or AI関連でない、というテキスト分類器を fastText + 量子化で作ったら、ファイルサイズ1.7MBで実用的なモデルができてしまって驚き、というお話をメモ記事に。1.7MB ですよ!! AI Newsでは、AI関連 or AI関連でないのテキスト分類にAI News の公開と、裏側の OpenAI の活用話で書いた通り、OpenAIのtext-embedding-ada-002で1536次元のベクトルにしたものをlightGBMで学習させたものを使っている。この方法の問題は、すべての記事の判定に必ず OpenAI の API を通す必要があり、長文記事が沢山あると日によっては一日あたり数十円がかかってしまっている。月にすると500~1000円はかかってそうで、チリツモヤマトテナデコである。というわけで、そろそろデータも溜まってきたしと、OpenAIのAPIに
- テクノロジー
- 2023/05/09 21:51
- AI
SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life
45 users
secon.dev

LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの？と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。私の経験では
- テクノロジー
- 2023/04/29 22:25
- AI
- 文章
- 機械学習
- 検索
- あとで読む
AI News の公開と、裏側の OpenAI の活用話 - A Day in the Life
79 users
secon.dev

AI News という、AI・データサイエンス(DS)・機械学習(ML)関係の話題を集め、AIで3行に要約して配信するサイトを公開しました。twitter @AINewsDev や Atomフィードでも配信しています。数日前から運用していて、手前味噌ですが便利に情報集めに使えています。また英語記事も日本語で要約されるので便利です。なぜ作ったのか以前、 @syou6162 さん作の ML-News で、ML系の情報を便利に読ませてもらっていたのですが、Twitter API の有料化の話が出た前後で閲覧できないようになってしまったようでした。そのため、DS・ML系の話題を追いかけるのが大変になって、そのうち同じようなサイトを作ろうかな、と思っていた所でChatGPT(GPT4)というふつうに便利なLLMが登場しました。その後は御存知の通り、それらの話題が大量に溢れ、情報過多で見きれない
- テクノロジー
- 2023/04/24 14:40
- AI
- ChatGPT
- あとで読む
- GPT
- LLM
- 文章
- 人工知能
- データ
はてなグループ終了に寄せて - A Day in the Life
4 users
secon.dev

「セカンドライフ、はてなグループのディレクターやらへん？」 2006年、鉢山オフィスの会議室に呼び出された。当時のはてなでは、基本パブリックスペースでの会議が主だったので、何なんだろうと思った。会議室では、jkondo *1がいて、上記のようなことを言われた。曰く、はてなグループはとても価値があるサービスだと思っていて、jkondo は様々なサービスを、naoya んはブックマークをやってるし、きっと伸びるサービスだから、ディレクター(今で言うプロダクト責任者)を secondlife がやらないか、とのことだった。その時、私は即答で「えー、面白く無さそうだからやりません！」といった回答をしたと思う*2。はてなでは印象的な出来事がいくつもあったのだけど、この出来事は今でも覚えている。今でこそ当たり前に使われている Qiita::Team, Kibela といった、日本の様々な企業が導入し
- 学び
- 2023/01/23 01:39
ファインチューンせずに高速に学習できる RAPIDS SVR (SVC) の紹介と MARC-ja の評価 - A Day in the Life
6 users
secon.dev

先日参加した Kaggle コンペFeedback Prize - English Language Learningで知った手法、RAPIDS SVR (SVC) が高速に学習でき、回帰や分類タスクでは有益な手法の一つと感じたので、どのようなものかを紹介する。実際にこのコンペの上位解法では、RAPIDS SVR の手法が使われていた。また RAPIDS SVC を使って日本語評価データセットのJGLUEのクラス分類データセットの MARC-ja を評価する。評価につかった実装はGitHub 上で公開している。なおこの記事は、Kaggle Advent Calendar 2022の13日目の記事だ。 SVR (SVC) とは? SVR はサポートベクタ回帰(Support Vector Regression)で、SVC はサポートベクタ分類(Support Vector Classif
- テクノロジー
- 2022/12/13 11:40
Kaggle コンペ Feedback Prize - English Language Learning でチーム参加15位金メダル取得で、Kaggle Master へ - A Day in the Life
9 users
secon.dev

Kaggle のコンペティション、Feedback Prize - English Language Learningが終わり、約2650チーム中15位で金メダル取得となった。これで合計金メダル2つ、銀メダル1つを取得し、Kaggle Competitions Master の条件を満たし、コンペを始めた当初目指していた Master の称号を年内にとることができた。自分一人ではこの結果にはならなかったと思うので、チームメンバーの@masakiaota氏、@olivineryo氏に感謝だ。 Public LBではコンペ終了時に8位/2700チームの成績で金メダル圏内だったが、Public LB がLB全体の26%のデータでのスコア。スコア表示も小数点以下第二位まででLBのスコア表示がざっくりとしており、かつ我々のCVではかなり悪いスコアがPublic LB上ではやたら上位になったりとCV・
- テクノロジー
- 2022/11/30 11:20
- あとで読む
AIで画像の美しさを評価する LAION Aesthetics - A Day in the Life
5 users
secon.dev

画像の美しさ、というのは主観が多分に含まれるものなので、コンピュータが評価するタスクとしては難しいのかな、と思っていたのだけどLAION-AESTHETICS を読んでびっくり、だいぶきちんと評価できてそう。実際にLAION Aesthetics V2でデータセットをスコア付した結果(リンク先ページは大量の画像ロードが走って遅いので注意)ではこんな感じ。例えばスコアが1.5～1.75の画像だととなる。またスコア7～7.25の画像ではという感じになる。おーすごい、それっぽい。そしてこのスコアを学習・導出しているものも複雑なディープラーニング処理ではなく、単純なMLP(5つの線型層+Dropoutで、活性化関数を挟まない)というのもすごい。 LAION-Aesthetics V1 V1 では SAC というStable Diffusion等が生成した画像とプロンプトを約24万枚のデータセッ
- テクノロジー
- 2022/09/20 17:48
- image
Kaggle の Feedback Prize - Predicting Effective Arguments コンペでソロ参加銀メダル(43位)だった - A Day in the Life
3 users
secon.dev

本日終了したKaggleのコンペ、Feedback Prize - Predicting Effective Argumentsにソロで参加し、1566チーム中43位銀メダルを獲得した。暫定順位なので、確定順位はちょっと変わる可能性がある。前回始めて参加したコンペではチームメンバーに恵まれ、たまたま金メダルだった。その中でKaggleの面白さを知って、次も参加したい、ただ個人だとモチベーションが無くなりそうなのでできたらチームで、と思っていたのだけど、今回はチーム組まず(というか知り合いが少ないので組めず、が正しいが…)でのコンペスタート。チーム参加だと実力がなくても場合によって金メダルも採れてしまう(前回の自分の成績)ことがわかったので、ソロ参加でどれぐらいの成績が残せるか、ということにもチャレンジ。当初はモチベーションが続かないのではと懸念があったけど、最初に作ったベースラインが銀
- テクノロジー
- 2022/08/24 10:14
Kaggleコンペ初参加でチームに恵まれ金メダル(8位)だった - A Day in the Life
3 users
secon.dev

今日(2022/06/21)の朝9時がKaggleのコンペ終了の時間。結果は即座に表示されるので、チームメンバーと見守る。結果はPublic LB(サンプルで抽出されたスコア)順位と変わらずの1975チーム中8位で金メダル。Kaggleコンペ初参加でチームに恵まれた幸運の結果であった。チームの解法は英語では公開されていて、日本語でも別途公開されると思うので、ここでは解法ではなく主に初参加の感想を。40日ぐらい前に特許と自然言語処理処理コンペであるU.S. Patent Phrase to Phrase Matchingをやらない？とAota氏に誘ってもらい始める。Kaggleは初学者用の本を読んで練習用タイタニックコンペをやった程度の知識だったので、より具体的な進め方やチームで大切にする時の考え方を教えてもらう。ツールとしては情報共有にNotion(主にboardでkanban)を使い
- テクノロジー
- 2022/06/22 12:02

はてなブックマーク

はてなブックマーク

『川o・-・）＜2nd life』

🍷 FineWeb2 Edu Japanese - 高品質な教育向け日本語データセット - A Day in the Life

100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開 - A Day in the Life

情報検索モデルで最高性能(512トークン以下)・日本語版SPLADE v2をリリース - A Day in the Life

日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

高性能な日本語SPLADE（スパース検索）モデルを公開しました - A Day in the Life

日本語 Reranker 作成のテクニカルレポート - A Day in the Life

日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Life

書籍 Human-in-the-Loop 機械学習を読み終えて - データセントリックの示唆に富む書籍 - A Day in the Life

OpenAIの新embeddings,text-embedding-3-smallをRAGタスクで評価する - A Day in the Life

LangChain の LangChain Expression Language (LCEL) を理解する - A Day in the Life

ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価 - A Day in the Life

Q&A + RAG に特化したLLMをSFTで学習させ4bit量子化モデルを作り、GPT3.5以上の性能を7Bモデルで達成する - A Day in the Life

RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life

ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life

CTranslate2 で手軽に Transformers の推論速度を1.6 ~ 約2倍にする - A Day in the Life

Apple Silicon GPU(mps) の embeddings 変換パフォーマンス - A Day in the Life

Weekly AI News 始めました - クラスタリングとGPTを使った、まとめ自動生成 - A Day in the Life

gzip + kNN のテキスト分類で BERT 超え論文 "Low-Resource" Text Classification: A Parameter-Free Classification Method with Compressors を実装し試す - A Day in the Life

LoRA のもう一つの大きなメリット、GPUメモリ共有しつつ別のタスク処理モデルへ即時に切り替える方法 - A Day in the Life

RubyKaigi 2023 Day 3 / 2023年5月13日 - A Day in the Life

fastText で量子化し、実用的な 1.7MB のテキスト分類器を作る - A Day in the Life

SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life

AI News の公開と、裏側の OpenAI の活用話 - A Day in the Life

はてなグループ終了に寄せて - A Day in the Life

ファインチューンせずに高速に学習できる RAPIDS SVR (SVC) の紹介と MARC-ja の評価 - A Day in the Life

Kaggle コンペ Feedback Prize - English Language Learning でチーム参加15位金メダル取得で、Kaggle Master へ - A Day in the Life

AIで画像の美しさを評価する LAION Aesthetics - A Day in the Life

Kaggle の Feedback Prize - Predicting Effective Arguments コンペでソロ参加銀メダル(43位)だった - A Day in the Life

Kaggleコンペ初参加でチームに恵まれ金メダル(8位)だった - A Day in the Life

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『川o・-・）＜2nd life』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません