knokのブックマーク - はてなブックマーク

Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

こんにちは！ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構（以下「NEDO」）が公募した「ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。以降、本LLMプロジェクトをGENIAC（Generative AI Accelerator Challenge）と表記します。開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点（執筆時）では存在していません。 GENIACの計算資源提供の

knok 2024/04/21

リンク

社内用語集を気軽に質問できるSlackBotを作ってみた (RAGの応用アプリ) - ABEJA Tech Blog

こんにちは！株式会社 ABEJA で ABEJA Platform 開発を行っている坂井（GitHub : @Yagami360）です。 LangChain を使用すれば、RAG [Retrieval Augment Generation] を使用した LLM アプリケーションを簡単に作成できるので便利ですよね。今回 LangChain での RAG を使用して、LLM が学習に使用していない特定ドメインでの用語を応答する Slack ボットをさくっと作ってみたので共有します。本コード一式は、以下の GitHub レポジトリに保管しています。 github.com 使い方コード解説アーキテクチャ RAG の仕組みヒューマンインザループによる継続的品質改善まとめ We Are Hiring! 使い方事前準備として｛用語集スプレッドシートの作成・Slack アプリの初期設定・各種

knok 2024/02/09

最近はnotionのAsk AIで割とそれっぽいことができている

リンク

機械学習におけるEDAって結局何するの？ - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている服部です。「EDAって結局何したらいいの？」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日本語では言います。データの特性だったりデータから何が言えるかを把握するための分析であり、JohnTukey氏により1960~70年頃に統計学の分野で提唱されたようです。今では機械学習の分野でも、「まずEDAをしてからモデルを作ろう」と言われる場面をよく見かけ、EDAをすることは当たり前になってきています。 en.wikipedia.org 本記事のモチベーション EDAに関する情報もたくさん調べると出てきますが、EDAのためのPythonライ

knok 2024/01/03

リンク

実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog

はじめにこんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラインライブラリって実はあまりない…？と思ったので、今回は機械学習パイプラインライブラリを個人で開発してみている話をします。なお、本記事では機械学習パイプラインを「データの加工・モデルの学習・推論を一連のワークフローとして実行出来るツール」とし、データ収集やデプロイ、分布シフトの監視などの工程については言及しないものとします。また、比較的小規模なプロジェクトの検証段階で利用することを前提とします。開発したパイプラインのライブラリは以下のリポジトリでバージョン0.0.1として公開しましたので、実装の詳細はリポジトリをご参照ください。ドキュメントとかも

knok 2023/07/28

リンク

GPTでKey作品の名言から文章を生成してみた - ABEJA Tech Blog

目次目次はじめにそもそもGPTとは日本語データセットで学習されたGPT 入力文章 GPTによる生成コード出力結果 ChatGPTで生成まとめ ABEJAについてはじめに本記事はABEJAアドベントカレンダー2022の13日目の記事です。こんにちは！カスタマーサクセス統括部データサイエンスグループでインターンをやらせていただいている村尾(@MURA_omura)です。私は高専の専攻科生で、現在GANsを用いた音声生成に関する研究に取り組んでいます。高専といえばYouTubeで100万人の登録者がいるかっつーさんや、生活に技術を取り込むのが上手なラムダ技術部さんが有名です。 1年半ほど前からKey作品にはまっていて、この間Summer Pockets REFLECTION BLUEを購入しました！ Kye作品は泣ゲーで知られていて、「CLANNADは人生」というフレ

knok 2022/12/14

日本語でのWikipedia以外のコーパスがだいたいCommonCrawlかOSCARぐらいしかないからなあ…非huggingfaceなgpt-2(自力web crawlコーパスあり)の方がこういう用途には合っていそう https://github.com/tanreinama/gpt2-japanese/blob/master/report/corpus.md

リンク

GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

1. はじめに 2. 並列学習環境を調べる並列学習方法を調べるネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築するコンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Docker を build 6. つまずいたポイント学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

knok 2022/08/03

リンク

ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog

1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアーキテクチャの工夫 5 学習したGPTのアウトプット例 5.1 失敗モデルたちの作品集 5.2 完成モデルの出力例 5.3 少しFine-tuningした結果 6. 最後に 6.1 採用メッセージ 6.2 ABEJAで学習したGPTモデルの今後について 1. はじめにこんにちは、ABEJAの服部です。昨日、ABEJAが主催しているABEJA SIX2022でも発表がありましたが、NVIDIA社の

knok 2022/07/28

データセットはWikipedia, CC100, OSCAR, mC4。アーキテクチャのコードベースはGPT-neoX

リンク

Deepでポン！Deep Learningによるホモグラフィ推定技術の調査（コード有り） - ABEJA Tech Blog

はじめにはじめにホモグラフィ推定とは特徴量ベースの手法特徴点の抽出・特徴量の計算 LIFT: Learned Invariant Feature Transf orm [1] SuperPoint: Self-Supervised Interest Point Detection and Description [2] LoFTR: Detector-Free Local Feature Matching with Transf ormers [3] 対応関係の計算 Learning to Find Good Correspondences [4] Neural-Guided RANSAC: Learning Where to Sample Model Hypotheses [5] 画像マッチングベースの方法 Deep Image Homography Estimation [7] C

knok 2022/05/11

まあでもSIFTの特許きれたの割と最近だし…

リンク

実務で必須！２変数の関連性を正しく評価できるよう関連知識をまとめてみた - ABEJA Tech Blog

こんにちは、ABEJAの真壁孝嘉（@Takayoshi_ma）です。変数Aと変数Bにどれくらいの関連性があるの？このデータから何が言える？みたいなニーズって至る所にあるかと思います。その時に活用される様々な数学的指標たち、（自分含め）名前を知ってるだけだと危険だよなあって場面が近頃多い気がしたので、改めてメモ的な意味でブログを書いてみました。前半に（ピアソンの積率）相関係数に関する注意点を列挙したのち、後半にそれ以外の数学的指標の概要を列挙していこうと思います。尚、このブログで度々登場する相関係数とはピアソンの積率相関係数を表すこととします。相関係数の注意点相関係数の概要相関関係と因果関係は異なる概念無相関であることと、独立であることは異なる概念相関係数は外れ値に影響されやすい選抜効果相関係数の標準誤差標本相関係数は母相関係数の不偏推定量ではない 2つの指標の関連度を測る

knok 2022/04/15

リンク

画像データに対するActive learningの現状と今後の展望 ~最新の教師なし学習を添えて~ - ABEJA Tech Blog

1, はじめにこんにちは, Researcher Intern の中野です. 新型コロナウイルスが世界中で猛威をふるい、個人の生活スタイルのみならず社会全体に変革が迫られているのを感じます。医療従事者の方々には頭が上がりませんが, 機械学習のコミュニティでもKaggleのコンペ, SIGNATEのコンペ等, なんとか状況の改善に貢献しようという動きが見られます. このような直近の例にも見られるように, 機械学習はデータを扱うあらゆる分野での応用が考えられます. 自分も, 大学での専攻は物質プロセス工学（材料工学系）なのですが, 材料工学に機械学習を応用するマテリアルズインフォマティクスという分野での研究を行っています. 軽く内容を紹介させていただくと, 研究では新素材の製造プロセスを, ガウス過程回帰に基づいたActive Learning アプローチを用いて, 低コストかつ高速に最適

knok 2020/05/13

リンク

Go vs Rust : 特徴量DBに適するのはどっち！？ (2020-04-14 実験追記) - ABEJA Tech Blog

ABEJA で Research Engineer をやっている中川です．普段は論文読んだり，機械学習モデルを実装したり，インフラを構築したりしています．今回のブログでは，Insight for Retail の一機能として提供しているリピータ分析に用いる特徴量DBの改善に向けた言語選定について紹介します． ※ たくさんの方々からのコメントありがとうございます．いただいた観点をベースに「2020-04-14 追記」以下に実験を追加しました．モチベーションリピート分析では，任意の特徴量をクエリに最も類似した特徴量を数100msec以内に検索する必要があり，一般的なデータベースでは実現することが難しいという課題がありました．そこで，われわれは python で独自のインメモリデータベースを実装し運用してきました．このデータベースがサービスの成長に合わせて限界を迎えつつあるので，アルゴリズム

knok 2020/04/09

やはりネイティブバイナリ吐けるのは強い

リンク

ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog

こんにちは、Research Internの荒尾(@karolis_ml)です。日進月歩の勢いで研究が進んでいる深層学習ですが、教師あり学習でもっとも大事なデータのアノテーション、応用分野ではまだまだ大変ですよね。例えば、犬の写真から犬種を判断する分類器を作ろうとして教師データが必要になったとき、あなたは以下の画像にどんなラベルをつけるでしょうか? 出典: Pixabay 犬好きの方は正しくアラスカンマラミュート、そうではない方は似た有名犬種であるシベリアンハスキーと答えられたことでしょう。マラミュートの茶色い目(かわいい)や小さめの尖った耳(かわいい)を見分けて正しくラベル付けをするのは、決して簡単ではありません。このようなアノテーションの分野に関して当ブログでは以前、Bounding BoxやSegmentationの効率化についての研究サーベイを行いましたが、この犬種分類のような

knok 2019/07/29

リンク

効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

どうも緒方@conta_です。みなさんAI頑張ってますか？きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。＊下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

knok 2019/05/23

画像系ばかりだけど参考になる

リンク

双曲空間でのMachine Learningの最近の進展 - ABEJA Tech Blog

ABEJAでReseacherをしている白川です。以前、Poincaré Embeddingsという双曲空間への埋め込み手法をご紹介しました。当時、木構造データを5次元の空間に精度良く埋め込めるということで話題になったのですが、その後双曲空間での機械学習手法が多数研究・提案され、双曲空間での機械学習についての理解をバージョンアップする必要があるなと感じたので、最近の研究の進展を中心に理論背景含めてご紹介したいと思います。 tech-blog.abeja.asia Tl;dr 本記事で伝えたいのは、論文の各論というより、各種論文で共通/独自に主張されている下記のような内容です。木なら2次元で十分双曲空間では指数写像/対数写像が明示的に計算され空間全体に拡張されるので取扱が容易 Gyrovector space: 双曲空間における線形代数のような代数構造 Riemann幾何とGyrove

knok 2019/01/25

すごそう(小並感

リンク

より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog

ABEJAでリサーチャーをしている白川です。皆さん、アノテーションしていますか？私はしています。アノテーション、自分でやるのは大変ですよね。 AIというとモデルの学習に注目されがちですが、もしかしたら、アノテーションはAI開発においてモデル開発以上に重要で注意の必要なプロセスかもしれません。今回はなぜアノテーションがそれほど重要なのか、良いアノテーションとはどのようなアノテーションなのかについて、機械学習的にアプローチしてみたいと思います。アノテーションを機械学習で解析するの、楽しいですよ。なお、本記事に関連して、2018年7月1日に開催されるccse2018というカンファレンスでもお話させていただく予定です。記事内では触れられなかった内容についてもお話させていただくかもしれないので、ご興味ある方はチェックしてみてください。この記事を読むとわかることアノテーションはAIの開発・

knok 2018/06/26

リンク

CVPR2018 1000本ノック！（なお37本） - ABEJA Arts Blog

はじめまして。ABEJAでリサーチャーをやっている藤本です。今年もCVPRの季節がやってきました。CVPRとはコンピュータビジョンに関するトップカンファレンスです。毎年規模が大きくなってきており、今年は3300の論文投稿があり、979件がacceptされました。また、21のチュートリアル、48のワークショップ、115以上の企業展示と様々なイベントが行われています。今年度のCVPR2018の開催は6月なのですが、プログラム自体は４月に公開済みですので、今回のブログの記事では、オーラル発表予定の論文のうちarxivで公開されている内容について一気に紹介します。論文の動向 Deep learningについて Deep Learningに関連する論文は毎年増え続けており、今年度についてはacceptされた論文979件のうちarxivで459件が公開されており、なんと424件（頑張って数えました

knok 2018/04/18

リンク

スポットインスタンスを効率的に管理するSpotinstを使おう - ABEJA Tech Blog

みなさん、AWSのスポットインスタンスは使っていますか？スポットインスタンスを使えばオンデマンドインスタンスの約70-80%引きでEC2を利用でき、大きなコスト削減が出来ます。しかし、スポットインスタンスは価格変動が起きるとインスタンスが停止したりするリスクがありますよね？その辺りのリスクをヘッジしてくれるのがSpotinstというサービスになります。 Spotinstは価格変動によるリスクヘッジだけじゃないメリットがたくさんあるので紹介したいと思います。 Spotinstは何個かサービスがあるのですが、その中のElastigroupという機能を主に説明していきます。結論先に結論書いておきます。かなり安いから使わない理由は無いです。Pricingの項目を参照ください。 Elastigroupとは spotinst.com トレンド分析 Elastigroupは独自の予測アルゴリ

knok 2018/02/27

リンク

deep learning machine learning nips2017 - ABEJA Tech Blog

ABEJAの白川です．先日カリフォルニアのロングビーチで開かれたNIPS2017へ出席してきました．論文レベルの技術的な話題については1月にNIPS論文読み会を開催する予定ですので詳細はそちらに譲ることにして，ここではごくごく大雑把なオーバービューを私見偏見交えてご紹介したいと思います．パラレルトラックのため聴講できなかった講演がだいぶありますので，かなり聴講バイアスがかかっていることをご容赦ください．また，新しめの流行にフォーカスしています． Summary 史上最大規模のNIPSだった Bayesian Deep Learningが非常に流行っていた Optimal Transportは実用的な道具 Meta Learningが流行している非ユークリッド的なDeep Learningに対する注目史上最大規模のNIPS 今回のNIPSは参加者数7844人，投稿された論文数は324

knok 2017/12/15

リンク

異空間への埋め込み！Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog

ABEJAでResearcherしている白川です。今回ご紹介するのは、Poincaré Embeddings [1]という手法です。その内容に驚愕し、個人的に調べたり実装したり勉強会でお話したりしていたところ、最近運良く自分の実装をredditで取り上げてもらえたので、これを機にその驚愕の内容を共有できればと思います。正直、自分の中ではまだ煮詰まりきっていない技術なので、現況の共有はしますが、ところどころ私の憶測や展望、期待が入り混じっていることをご容赦ください。 www.reddit.com Poincaré Embeddingsは大雑把に言えばword2vecを異空間で実現する技術で、双曲空間（Hyperbolic Space）という、おなじみのEuclide空間（2点$x,y$の間の距離を$\sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (

knok 2017/08/31

ユークリッド空間より良いとのこと

リンク

機は熟した！グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 - ABEJA Tech Blog

はじめまして。ABEJAでResearcherをやらせていただいている白川です。先日、化合物の物性推定をDeep Learningをつかって従来手法より300,000倍高速に処理するという論文がでました（[1], [2]）。この論文の手法は、Graph Convolutionというグラフ上に定義されたConvolution演算がベースとなっています。物性推定に限らず、グラフ解析全般を Deep Learning で上手にこなせるようになれば、Deep Learningのアプリケーションの幅がぐっと拡がり、さらなるイノベーションが起きそうな予感がします。 ICMLやNIPSなどの機械学習系の主要国際会議でも数年前からGraph Convolutionについての論文がちらほら出現しはじめており、とくに最近その勢いが増してきている印象があります。個人的にも最近（前から？）にわかにグラフづいてい

knok 2017/04/27

リンク

はてなブックマーク

タグ

ブックマーク / tech-blog.abeja.asia (20)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス