タグ

ブックマーク / tech-blog.abeja.asia (30)

  • Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

    こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。 以降、LLMプロジェクトをGENIAC(Generative AI Accelerator Challenge)と表記します。 開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点(執筆時)では存在していません。 GENIACの計算資源提供の

    Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog
    misshiki
    misshiki 2024/04/22
    “Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習です。”
  • 機械学習におけるEDAって結局何するの? - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日語では言います。 データの特性だったりデータから何が言えるかを把握するための分析であり、JohnTukey氏により1960~70年頃に統計学の分野で提唱されたようです。 今では機械学習の分野でも、「まずEDAをしてからモデルを作ろう」と言われる場面をよく見かけ、EDAをすることは当たり前になってきています。 en.wikipedia.org 記事のモチベーション EDAに関する情報もたくさん調べると出てきますが、EDAのためのPythonライ

    機械学習におけるEDAって結局何するの? - ABEJA Tech Blog
    misshiki
    misshiki 2023/12/25
    “EDAの目的: データとモデルをつなげる すごく抽象的ですが、EDAの目的はこういうことだと私は考えています。”
  • 機械学習の落とし穴 リーク問題について - ABEJA Tech Blog

    はじめに リークって何? リークの例 テーマ概要 使用できるデータ,手法 例 例1.運用時に使えない情報を使ってしまう 例2.更新された情報を使ってしまう その他例 リークを回避するためには? ドメイン知識をもとにした確認 データを正しく理解する 重要特徴量からの判断 特徴量作成後の可視化 自分がやったことを信用しすぎない まとめ We Are Hiring! はじめに こちらは、ABEJAアドベントカレンダー2023の13日目の記事です。 こんにちは!ABEJAでデータサイエンティストをしております松村です。2021年の入社時から地元広島からフルリモートで働いており、早いものでもうすぐ3年が経過します。 今回は、データサイエンティスト誰もが一度は直面するリーク問題について考えてみました! リークって何? 「機械学習におけるリークとは何か?」について一言で言うと、来使うことのできない情報

    機械学習の落とし穴 リーク問題について - ABEJA Tech Blog
    misshiki
    misshiki 2023/12/18
    “比較的極端な例を挙げて、リークとその回避策についてまとめ。完璧には防げないが、アンチパターンを意識すること、リークしていないかの確認プロセスを挟むことで、発生リスクを一定抑えることはできそう。”
  • LangChainを使わない - ABEJA Tech Blog

    TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ

    LangChainを使わない - ABEJA Tech Blog
    misshiki
    misshiki 2023/12/13
    ブコメの意見も含めて自分向けまとめ。LangChainは開発スピードや最新論文の再現もが速いが、コードの品質がいまいちで製品への組み込みに不向き。だから製品向けには自作した方がいい。
  • AIだってブラフを張れる 不完全情報に対処する強化学習 - ABEJA Tech Blog

    はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning(arXiv: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning)で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージェントが対戦相手に勝つことを目的として学習を行います。一方でDeepNashでは相手に勝つことを直接目指すのではなく、ナッシュ均衡を目指します。ナッシュ均衡を目指すことで相手がどんな手を打ったとしても

    AIだってブラフを張れる 不完全情報に対処する強化学習 - ABEJA Tech Blog
    misshiki
    misshiki 2023/12/11
    “強化学習とゲーム理論を組み合わせることで不完全情報ゲームを攻略するDeepNashについて紹介”内容に関係ないが、グラフに空目していて何だろうと思ったがブラフだった。内容は良い。
  • 【AI倫理・法務に関わる人必見!】AIに関する国内外のルールメイキングの状況 (2023年12月版) - ABEJA Tech Blog

    今日は、法務・コンプライアンス・AI倫理担当の古川が担当させていただきます。 これで4回目のアドベントカレンダーです。筆者の経歴などは過去の記事で書きましたので省略します。若干追加するならば、Global Partnership On AI(GPAI)というOECDが運営するAIの適切な利活用に関する取り組みの日の専門家委員を1月からやっております。GPAIを通じてAI倫理だとか責任あるAIの国際的な様々な取り組みに関与させていただいています。 今年も去年に従って「AI倫理ニュース振り返り2022年」を書こうと思ったのですが、より興味が高いであろう国内外のルールメーキングの状況をお話しします。といっても、EU、US、日だけですが。 1.EU EUはAI法案が非常に重要です。2021年にAI法案をリリースしています。その後、議会による修正案が出ています。基的にはこの議会の修正版までが一

    【AI倫理・法務に関わる人必見!】AIに関する国内外のルールメイキングの状況 (2023年12月版) - ABEJA Tech Blog
    misshiki
    misshiki 2023/12/04
    “国内外のルールメーキングの状況をお話しします。といっても、EU、US、日本だけですが。”
  • コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学習の例(マルチインスタンス学習) LightGBMで弱教師あり学習がしたい! PU分類 問題設定 解き方 LightGBMの実装 実験 Partial Label Learning 問題設定 解き方 LightGBMの実装 実験 マルチインスタンス学習 問題設定 解き方 LightGBMの実装 実験 おわりに はじめに 機械学習を行うためには、一般的に、大量の入力データと、それら一つ一つに対応した正確なラベルが必要です。 例えば、犬との画像分類を行う場合には、それぞれの画像一つ一つに犬かのラベルがついていてほしいですね。 一方で場合に

    コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog
    misshiki
    misshiki 2023/09/05
    “3つの弱教師あり学習の設定・解き方と、そのLightGBMでの実装法を紹介”
  • ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog

    こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。 強化学習の基礎事項 強化学習のモデル化 環境のマルコフ性とマルコフ決定過程(MDP) 価値関数 強化学習手法の分類 価値ベースの強化学習手法 方策ベースの強化学習手法と方策勾配法 アクター・クリティック手法 TRPO [Tr

    ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog
    misshiki
    misshiki 2023/07/28
    前半はGPT3.5を説明したので、この後半では強化学習回りを説明してからInstructGPT→ChatGPTを説明。
  • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

    こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 記事の対象読者としては、以下のようになりま

    ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
    misshiki
    misshiki 2023/07/28
    “対象読者: ChatGPT の基本原理から知りたいけど、自然言語処理(NLP)も強化学習も知らない。 但し、ディープラーニングはある程度詳細レベルで知っている。線形代数程度の数学も知っている”
  • 実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog

    はじめに こんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラインライブラリって実はあまりない…?と思ったので、今回は機械学習パイプラインライブラリを個人で開発してみている話をします。なお、記事では機械学習パイプラインを「データの加工・モデルの学習・推論を一連のワークフローとして実行出来るツール」とし、データ収集やデプロイ、分布シフトの監視などの工程については言及しないものとします。また、比較的小規模なプロジェクトの検証段階で利用することを前提とします。 開発したパイプラインのライブラリは以下のリポジトリでバージョン0.0.1として公開しましたので、実装の詳細はリポジトリをご参照ください。ドキュメントとかも

    実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog
    misshiki
    misshiki 2023/07/27
    “本記事では既存パイプラインの課題感と開発したパイプラインの機能紹介をメインにやっていきます。TL;DR 本パイプラインのコンセプト:scikit-learnライクにタスクを定義してPyTorchライクに繋げる”
  • 外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

    はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ

    外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
    misshiki
    misshiki 2023/07/03
    “LLMで外部データをRetrievalする際に起きがちな課題について、ポケモンの例を使いながら紹介” 「仮説: ニャオハという言葉を知らず、適切なembeddingを得られていない」の部分など、なるほどなぁと思った。
  • AI生成物と著作権とAI倫理 - ABEJA Tech Blog

    記事はABEJAアドベントカレンダー2022の17日目の記事です!昨日に引き続き担当の古川です! 昨日の予告通り生成AIによるAI生成物の著作権と倫理の話です。 生成AIと言っても主に念頭に置いているのは画像生成AIです(議論の発端自体はmimicやMidjourneyです。)。ただ、他のコンテンツを生成するAIにも基的には同じ理論が当てはまるかと思います。 サマリ 著作権の話 論点整理 生成物の著作権 なぜ著作権を認めたいのか 生成物による著作権侵害 呪文の著作権 AI倫理の話 画風をパクる 仕事の喪失 サマリ やや法律的な専門的な話も含まれるので、結論だけ知りたい人のために、サマリだけ先に。 今主流の乱数やPromptから画像などを作ってくれる生成AIによるAI生成物には著作権が原則として発生しないです。 Promptの呪文の著作権が議論されることがありますが、議論の実益があるのか

    AI生成物と著作権とAI倫理 - ABEJA Tech Blog
  • 2022年AI倫理ニュースベスト10 - ABEJA Tech Blog

    記事はABEJAアドベントカレンダー2022の16日目の記事です! 日の担当は、法務・AI倫理関係を担当している古川です。12年ほど弁護士をしていまして、途中で機械学習をやってみたくなり数学から統計から機械学習の勉強をして(PRMLとかカステラとか読みました!)、Pythonも勉強をして、ある会社で画像解析AIの実装をしていたのですが、現在は法律・倫理関係業務だけ扱っています。 AI倫理・ガバナンス関係の記事を毎年書いているので、今年もその路線で行きます。テーマは「行く年くる年」。このテーマなら毎年書けますしね。まあ、「くる年」の議論はしませんので、厳密には「行く年」だけで2022年の振り返りでしかないのですが・・・ では、ランキング形式で2022年のAI倫理関係のニュースを振り返ります。ランキング形式が人気らしいのでランキング形式なだけで、別に1位だとか2位という順位に大した意味は

    2022年AI倫理ニュースベスト10 - ABEJA Tech Blog
    misshiki
    misshiki 2022/12/19
    “ランキング形式で2022年のAI倫理関係のニュースを振り返ります。”
  • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

    この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

    Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
  • 夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog

    皆さんこんにちは! ABEJAでデータサイエンティストをしている服部といいます。 記事はABEJA Advent Calendar2022の10日目の記事になります。 背景 引っ越しから2年.... データサイエンティストとしてのリベンジ 前回の反省を踏まえて.... 1. お得そうに見える土地には絶対に理由がある 2. 土地の数はせいぜい限られていて全部探すのも難しくない 今回解く課題 土地探しにおける意見の違いとは? どうやってデータサイエンスを使って夫婦の擦り合せを行う? アプローチ 実装 1. 架空の土地条件をランダムに沢山作る 土地条件の項目数や取りうる範囲が増えすぎないようにする 自分たちにとって関連性が高い項目を入れる 2. 作った土地に対して夫婦それぞれで値段をつける LINE Botの概要 バックエンド 土地情報の作成とFireStoreに登録 からのフィードバック

    夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog
    misshiki
    misshiki 2022/12/15
    “妻と納得した土地選びをするためにデータサイエンスが支援”
  • GPTでKey作品の名言から文章を生成してみた - ABEJA Tech Blog

    目次 目次 はじめに そもそもGPTとは 日語データセットで学習されたGPT 入力文章 GPTによる生成コード 出力結果 ChatGPTで生成 まとめ ABEJAについて はじめに 記事はABEJAアドベントカレンダー2022の13日目の記事です。 こんにちは!カスタマーサクセス統括部 データサイエンスグループでインターンをやらせていただいている村尾(@MURA_omura)です。 私は高専の専攻科生で、現在GANsを用いた音声生成に関する研究に取り組んでいます。 高専といえばYouTubeで100万人の登録者がいるかっつーさんや、生活に技術を取り込むのが上手なラムダ技術部さんが有名です。 1年半ほど前からKey作品にはまっていて、この間Summer Pockets REFLECTION BLUEを購入しました! Kye作品は泣ゲーで知られていて、 「CLANNADは人生」 というフレ

    GPTでKey作品の名言から文章を生成してみた - ABEJA Tech Blog
  • Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目(ワークショップやプレゼンテーション等) Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

    Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
    misshiki
    misshiki 2022/11/18
    すごい。おめでとうございます。“本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介”参考になりそう。
  • 小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog

    はじめに こんにちは!ABEJAでプロダクトマネージャーをしている栗林です! ABEJAでは小売店舗での顧客行動を分析するInsight for Retailというプロダクトや、オフィスDX事業をはじめとして、物理世界の現象を機械学習などが適用可能なデジタルに変換する部分にも強みがあります! 日のTech Blogでは、安価かつ小型な加速度・角速度センサーを用いて製造業や物流業における作業者の行動や状態を推定する手法についてまとめました。 背景 みなさんは製造業や物流などにおける、正味作業時間という言葉をご存知でしょうか? 正味作業時間とは実際の作業に充てられた時間を差します。 例えば、組み立て作業の際に必要となる道具や在庫が近くに無く、作業者がものを探したり歩行して取りに行ったとします。このときの準備や段取りにかかる時間は準備時間や付帯作業時間と言われ、作業工程において生産をおこなえて

    小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog
    misshiki
    misshiki 2022/09/02
    “安価かつ小型な加速度・角速度センサーを用いて製造業や物流業における作業者の行動や状態を推定する手法についてまとめ”
  • ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog

    1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習 せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアーキテクチャの工夫 5 学習したGPTのアウトプット例 5.1 失敗モデルたちの作品集 5.2 完成モデルの出力例 5.3 少しFine-tuningした結果 6. 最後に 6.1 採用メッセージ 6.2 ABEJAで学習したGPTモデルの今後について 1. はじめに こんにちは、ABEJAの服部です。昨日、ABEJAが主催しているABEJA SIX2022でも発表がありましたが、NVIDIA社の

    ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog
    misshiki
    misshiki 2022/07/27
    “ABEJA内で日本語版 巨大言語モデル(GPT)を作成。一部のモデルは一般公開に向けて準備中。なかなか巨大言語モデルを作る機会はないと思うので、モデルづくりにあたっての苦労した点であったり、道のりについて”
  • Deepでポン!Deep Learningによるホモグラフィ推定技術の調査(コード有り) - ABEJA Tech Blog

    はじめに はじめに ホモグラフィ推定とは 特徴量ベースの手法 特徴点の抽出・特徴量の計算 LIFT: Learned Invariant Feature Transform [1] SuperPoint: Self-Supervised Interest Point Detection and Description [2] LoFTR: Detector-Free Local Feature Matching with Transformers [3] 対応関係の計算 Learning to Find Good Correspondences [4] Neural-Guided RANSAC: Learning Where to Sample Model Hypotheses [5] 画像マッチングベースの方法 Deep Image Homography Estimation [7] C

    Deepでポン!Deep Learningによるホモグラフィ推定技術の調査(コード有り) - ABEJA Tech Blog
    misshiki
    misshiki 2022/05/11
    “ホモグラフィ推定とは、簡単に言えば2つの異なる姿勢から一枚の平面を撮影した際に、その平面間の変換を推定する問題”