タグ

y034112のブックマーク (819)

  • Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

    こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。 以降、LLMプロジェクトをGENIAC(Generative AI Accelerator Challenge)と表記します。 開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点(執筆時)では存在していません。 GENIACの計算資源提供の

    Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog
    y034112
    y034112 2024/05/07
  • Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。 その中でモデルの学習だけでなく、学習に欠かせない大規模日語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。 特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。 データセットの概要 Common Crawlについて warcとwet データセット作成方針 前処理の流れ 1. 日語の簡易判定、w

    Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog
    y034112
    y034112 2024/05/07
  • 実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog

    はじめに こんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラインライブラリって実はあまりない…?と思ったので、今回は機械学習パイプラインライブラリを個人で開発してみている話をします。なお、記事では機械学習パイプラインを「データの加工・モデルの学習・推論を一連のワークフローとして実行出来るツール」とし、データ収集やデプロイ、分布シフトの監視などの工程については言及しないものとします。また、比較的小規模なプロジェクトの検証段階で利用することを前提とします。 開発したパイプラインのライブラリは以下のリポジトリでバージョン0.0.1として公開しましたので、実装の詳細はリポジトリをご参照ください。ドキュメントとかも

    実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog
    y034112
    y034112 2023/08/10
  • 外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

    はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ

    外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
    y034112
    y034112 2023/08/10
  • High-Resolution Image Synthesis with Latent Diffusion Models

    By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization o

    y034112
    y034112 2022/11/26
  • 概要|Phoenix v1.5 hexdocs 日本語訳

    概要|Phoenix v1.5 hexdocs 日本語訳
    y034112
    y034112 2022/08/28
  • GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

    1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Dockerbuild 6. つまずいたポイント 学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった 大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認 コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

    GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
    y034112
    y034112 2022/08/05
  • golangフレームワークginを使ってみる

    【環境】 MacBook Air (M1, 2020) OS: MacOS Big Sur version11.6 Docker Desktop for Mac version4.5.0 golangフレームワークのginを使ってみます。 gin.Default()で*Engineを受け取る ginでは最初にgin.Default()関数で*Engineというインスタンスを生成します。 *EngineにはEndpoint、Middleware、その他Webページ用のTemplateやそこで使われるfuncMapなど様々なものを登録しておくことができます。 gin.Contextとは gin.Contextを使うことで、URLに付随したパラメータの取得やPOSTで送信されたデータの取得などを行うことができます。 Engineと並んでginの重要な要素です。 Endpointを登録する rou

    golangフレームワークginを使ってみる
    y034112
    y034112 2022/06/24
  • ArgoCDの構築をパイプライン化する(ArgoCDの管理もArgoCDを利用してGitopsする) - Qiita

    はじめに 前回の記事 でGKEのデプロイパイプラインを構築した。 GKEは費用の関係で頻繁に消したり作ったりしたかったため上記のパイプラインで実現したが、GKEの構築が自動化されていてもGKEへのアプリのデプロイが自動化されていなければ意味がないのでそこも自動化したい。 今回はGKE構築後にJOBを1つ実行するだけで、CD環境構築も行いつつGKEへのアプリのデプロイを自動で行われるパイプラインを構築する。 GKEへのCD環境として、タイトルにある通りArgoCDを利用する。また、パイプラインの実行はGithub Actionsで行い、マニフェストYAMLの管理としてkutomizeを利用する。 それぞれの技術要素の解説はしないため、参考に示す記事や公式サイトを参照してください。 環境 パイプライン上で利用する環境についてはソースコード内に記述されているため、ローカルの操作に必要なもののみ記

    ArgoCDの構築をパイプライン化する(ArgoCDの管理もArgoCDを利用してGitopsする) - Qiita
    y034112
    y034112 2022/06/23
  • Knowledge

    Contents Guides Practices MLOps projects 勉強会 Conferences 書籍 References Guides MLOpsがどういったものかを理解する上で読んでおくと良い記事や発表資料 ブログ記事 Machine Learning Operations MLOpsを含む機械学習全般に関する活用など網羅的にまとまったサイト MLOps: Continuous delivery and automation pipelines in machine learning GoogleによるMLOpsのlevel毎のゴール(取り組み)を示した記事 The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction MLシステムを定量的に評価する指標としてM

    Knowledge
    y034112
    y034112 2022/06/02
  • Cloud Composer の概要  |  Google Cloud

    Cloud Composer 1 はメンテナンス後のモードです。Google は、Airflow の新しいバージョン、バグの修正、セキュリティ アップデートなど、Cloud Composer 1 への今後のアップデートはリリースしません。 Cloud Composer 2 への移行を計画することをおすすめします。 Cloud Composer 1 | Cloud Composer 2 Cloud Composer は、フルマネージドのワークフロー オーケストレーション サービスです。クラウドとオンプレミス データセンターにまたがるワークフロー パイプラインの作成、スケジューリング、モニタリング、管理ができます。 Cloud Composer は一般的な Apache Airflow のオープンソース プロジェクトを基に構築されており、Python プログラミング言語を使用して動作します。

    Cloud Composer の概要  |  Google Cloud
    y034112
    y034112 2022/05/29
  • EKS入門者向けに「今こそ振り返るEKSの基礎」というタイトルで登壇しました #jawsug_ct | DevelopersIO

    EKS初心者の方向けに、EKS周辺のAWSリソースがどのように関連して動作しているのかをステップバイステップでEKSCTLが担っている役割を中心に説明しました。 先日、「EKS祭り」をテーマにJAWS-UGコンテナ支部 #16を開催しました。 JAWS-UGコンテナ支部 #16〜EKS on Fargateローンチ記念!EKS祭りだワッショイ - connpass EKS縛りというだいぶ濃いイベントの中で、自分はトップバッターで「今こそ振り返るEKSの基礎」と第して喋ってきたのでその内容をまとめます。基礎といえども普段隠れがちなEKSに関連するAWSリソースについてフォーカスを当てたある意味マニアックな内容だと思うので、EKS気になる方は是非ご覧ください。 (祭) ∧ ∧ Y  ( ゚Д゚) Φ[_ソ__y_l〉     EKS タノシイヨ コレマジデ |_|_| し'´J この記事の

    EKS入門者向けに「今こそ振り返るEKSの基礎」というタイトルで登壇しました #jawsug_ct | DevelopersIO
    y034112
    y034112 2022/05/28
  • Amazon EKS の使用開始 - Amazon EKS

    kubectl - Kubernetes クラスターを操作するためのコマンドラインツール。詳細については、「kubectl のインストールまたは更新」を参照してください。 eksctl – EKS クラスターで多くの個別のタスクを自動化するために使用するコマンドラインツール。詳細については、「eksctl のインストールまたは更新」を参照してください。 AWS CLI – Amazon EKS など AWS のサービスを操作するためのコマンドラインツールです。詳細については、 ユーザーガイドの、「AWS CLI のインストール、更新、およびアンインストールAWS Command Line Interface」を参照してください。AWS CLI のインストール後は、設定も行っておくことをお勧めします。詳細については、 ユーザーガイドの「aws configure でクイック設定AWS Com

    y034112
    y034112 2022/05/28
  • 3時間弱でEKSに入門できるハンズオン、Introduction to Amazon EKSをやってみた #AWSSummit | DevelopersIO

    3時間弱でEKSに入門できるハンズオン、Introduction to Amazon EKSをやってみた #AWSSummit 3時間ちょっとでAmazon EKS入門!ぜひ休日や隙間時間に触ってみてください。なんとなくKubernetes敷居高そう・・・と思って後回しにしていたKubernetes学習もハンズオンで短時間で概要をざっくり掴んで入門する事が出来ます。 どうも、もこ@札幌オフィスです。 現在開催中のAWS Summit Onlineで公開されている「Introduction to Amazon EKS」のハンズオンをやってみました。 なんとなくKubernetes敷居高そう・・・と思って後回しにしていたKubernetes学習もハンズオンで短時間で概要をざっくり掴んで入門する事が出来ます。 概要 アマゾン ウェブ サービス ジャパン株式会社 プロフェッショナルサービス

    3時間弱でEKSに入門できるハンズオン、Introduction to Amazon EKSをやってみた #AWSSummit | DevelopersIO
    y034112
    y034112 2022/05/28
  • 第7回 MySQLのスケールアップおよびスケールアウト構成 | gihyo.jp

    データベースはディスクへのアクセスを頻繁に行うことが多いため、ストレージの性能がボトルネックになっている場合にはストレージをハードディスクからフラッシュベースのストレージに換えることも有用になります。オラクル製フラッシュストレージのSun Flash Accelerator F80 PCIe Cardを利用するためのLinuxMySQLのチューニング例は下記の資料を参照してください。 URL:http://www.oracle.com/us/technologies/linux/linux-and-mysql-optimizations-wp-2332321.pdf ただし将来的に求められるハードウェアスペックに合わせたサーバを事前に用意することは、初期投資が大きくなることを意味します。高いスペックのサーバを用意したにも関わらず、サービスが想定よりも利用されない場合には無駄な投資となって

    第7回 MySQLのスケールアップおよびスケールアウト構成 | gihyo.jp
    y034112
    y034112 2022/05/07
  • Vertex Pipelinesによる機械学習パイプラインの実行

    はじめに 機械学習の成果を運用する際には、データの処理や学習、モデルのデプロイなどといった一連の作業をワークフロー化することが多くなっています。これを実現するために、多くのワークフローツールが公開、利用されています。 今回はGoogle Cloud Platform機械学習ワークフローを実行するためのサービスであるVertex Pipelinesを用いて、機械学習パイプラインを構築、実行するまでを紹介します。サンプル実装では以下のようにデータの前処理、モデルの学習、評価、デプロイまでを行います。 コードは以下に配置しました。 Vertex Pipelinesとは 前述したように、Vertex Pipelinesは機械学習パイプラインを実行するためのGCPのサービスです。サーバーレスで稼働するため、費用は実行時に使用した分だけに抑えることができます。他に、実行時のパラメータやパイプラインに

    Vertex Pipelinesによる機械学習パイプラインの実行
    y034112
    y034112 2022/04/17
  • Vertex AIを活用したMLOpsの実現【前編】 | 株式会社CAM

    |目次 1. はじめに 2. MLOpsとは 3. VertexAIの概要 4. Vertex Pipelineについて -概要 -コンポーネントの実装例 -パイプラインの実装例 -Vertex PipelineでのKubeflow Pipelineの実行 5. まとめ 6. 参考資料 |1. はじめに 株式会社CAMで機械学習エンジニアをしています原 和希です。 データ分析から機械学習モデルの作成、そしてMLOps基盤の構築を担当しています。 今回はMLOps基盤の構築をトピックとして、弊社で導入している「VertexAI」という、GCP 上で MLOps 基盤を実現するためのサービスを紹介します。 記事は前編と後編に分かれています。 この前編ではMLOpsについてと機械学習パイプラインを実現するためのサービスであるVertex Pipelineについて詳しく解説をします。 後編では、

    Vertex AIを活用したMLOpsの実現【前編】 | 株式会社CAM
    y034112
    y034112 2022/04/17
  • Vertex AI Pipelines  |  Google Cloud

    Vertex AI Pipelines  |  Google Cloud
    y034112
    y034112 2022/04/14
  • A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

    y034112
    y034112 2022/04/09
  • ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーでデータエンジニア兼マネージャーをしている安藤です。 社内で利用しているAIプラットフォームの構築、提供を担当しています。 ヤフーには100を超えるサービスがあり、各サービスのデータ*1が蓄積されています。ヤフーではこれらのデータをマルチビッグデータと呼んでいます。マルチビッグデータを利用し、ユーザの利便性やサービスの質向上のため、AI機械学習の導入が増えています。 今回は、社内で急速に利用が進んでいる内製のAIプラットフォームを紹介します。 *1 この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 AIプラットフォーム開発の目的 AIプラッ

    ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に
    y034112
    y034112 2022/03/24