サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ブラックフライデー
ho.lc
LLM のファインチューニングにおいて入力トークン列の packing と Attention 計算の効率化は、長いトークン列を扱う際に特に重要です。この記事では、長さの異なる入力トークン列を packing によってコンパクトにまとめて、追加の変換処理を行うことなく、Flash Attention のオリジナルの論文実装である flash-attn パッケージにある varlen (variable-length) interface である flash_attn_varlen_func 関数にシームレスにつなげて Attention 計算する実装を紹介します。 本記事の要点は以下のとおりです: Padding vs Packing LLM の訓練時において、ミニバッチ内の入力トークン列の padding は、長さが異なる複数のトークン列をまとめて扱うための一般的な手法です。しかし、pa
「KaggleコンペのためのVScode拡張があれば、開発効率を大きく改善できるのになあ…」と長年考えていたので、開発してVisual StudioのMarketplaceにリリースしました。この拡張機能によって何ができてどう便利なのか紹介します。 この拡張機能で何ができるのか VScode拡張のFastKaggleは、Kaggleコンペのための開発フローを単純化します。 たとえば ショートカットキー入力をトリガーとして、ただちにデータセットやノートブックをKaggleにアップロードしてくれる機能を提供します。これによってTerminalを開いてコマンドを入力する手間を省くことができます。Kaggleコマンドの使い方を覚える必要もありません。 デモ動画1: ショートカットキー Ctrl+Shift+U で現在開いているノートブックを更新する。Ctrl+Shift+K でノートブックのNon
ということです。 モチベーションはコードベースの大規模化 Kaggle の solution は大規模化していくことがあります。例えば icecuber による ARC 1st place solution は Kaggle notebook 上でソースコードをデータセットとしてアタッチして、その中にある Makefile で C++ のプログラムをコンパイルして、外部プロセス呼び出しによってコンパイルされたバイナリを実行します。 Jupyter Notebook はプログラムを書く開発環境としては機能が不十分です。VS Code と異なり Github Copilot もありませんし、Linter, Formatter なども十分に使えません。小さな使い捨ての実験コードであれば Notebook でも大きな問題にはなりません。しかし Kaggle コンペティションの最終的なソリューション
Gemmaの情報をキャッチアップする目的で Google 主催の Gemma Developer Day in Tokyo に参加した。Google CEO である Sundar Pichai の登場や、日本語向けGemma2モデルの新発表というサプライズも含め、参加者からはたくさんの様々な種類の刺激をいただきました。メモしていた内容をちょっと整理して公開します。 What’s new in Gemma 2 最初の発表は Google DeepMind の Product Management Director である Tris Warkentin から Gemma2 の紹介。そして日本語版 Gemma 2 2B モデルの新発表。これに加えGemma関連のコミュニティコンペティションを立ち上げることの新発表。 今回発表された日本語版Gemma2 2Bモデルは、彼らの実験において 日本語のほ
PIGEON: Predicting Image GeolocationsPlanet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not gen
2011年2月16日に Kaggle アカウントを取得して10年が経過した。長い間 Kaggle Ranking 世界 1 位を目指してきたが、この目標やモチベーションが大きく変化してきたと感じたため、一区切りつけるためにもこの10年+αを振り返る。今の目標は対象を問わずアルゴリズムで資産を最大化すること。エンジニアリングを駆使してデータからアルファを探し、システム化して運用する。実利的で定量評価できる最高に楽しいタスクです(記事では触れません)。 競技プログラミングからKaggleを始めるまで Kaggle ができる前は ICPC や ICFP Programming Contest といった競技プログラミング系のコンテストに参加していた。ICPC ではアジア地区会津大会 2007、アジア地区東京大会 2008 に出場したが大敗して悔しくて仕方がなかった。コードゴルフも嗜む程度に遊んでい
SpaceNet Challenge Round5 で優勝したのでコンテストで用いた解法について紹介します。 要約 単純な Semantic segmentation タスクではなく、道路ネットワークをグラフ構造として抽出して、ルーティングへの応用を想定したグラフ構造に対する評価指標が用いられた。 未知の都市に対してもロバストな推定ができるように、取得できるすべての都市で検証セットを作成した。 既存の手法 CRESIv2 のエラー分析を行い、道路ネットワーク抽出に特化した後処理を開発した。 コンテストの背景と課題 SpaceNet Challenge は CosmiQ Works, MAXAR, Intel, AWS, Capella Space, TopCoder, IEEE GRSS が協賛および主催するコンテストのシリーズです。第五回目となる SpaceNet Challenge R
I won the overall contest and also all the 4 city level prizes on the SpaceNet Challenge Round 2. This blogpost describes my winning solution on the public challenge hosted by Topcoder Marathon Match. Summary Adding OpenStreetMap layers into the input of U-Net model significantly improves F-score. For training a deep neural network model, the computational time on p2.xlarge (Tesla K80) is two time
Determinants, their applications to Markov processes, and a random walk proof of Kirchhoff's matrix tree theoremKirchhoff's matrix tree theorem is a well-known result that gives a formula for the number of spanning trees in a finite, connected graph in terms of the graph Laplacian matrix. A closely related result is Wilson's algorithm for putting the uniform distribution on the set of spanning tre
このページを最初にブックマークしてみませんか?
『Kohei Ozaki (smly) | ho.lc』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く