y034112のブックマーク - はてなブックマーク

Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

こんにちは！ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構（以下「NEDO」）が公募した「ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。以降、本LLMプロジェクトをGENIAC（Generative AI Accelerator Challenge）と表記します。開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点（執筆時）では存在していません。 GENIACの計算資源提供の

y034112 2024/05/07

リンク

Common Crawlから作る大規模日本語コーパスとその前処理（Mixtral 8x7Bを語彙拡張継続事前学習 Part2） - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構（以下「NEDO」）が公募した「ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。データセットの概要 Common Crawlについて warcとwet データセット作成方針前処理の流れ 1. 日本語の簡易判定、w

y034112 2024/05/07

リンク

実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog

はじめにこんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラインライブラリって実はあまりない…？と思ったので、今回は機械学習パイプラインライブラリを個人で開発してみている話をします。なお、本記事では機械学習パイプラインを「データの加工・モデルの学習・推論を一連のワークフローとして実行出来るツール」とし、データ収集やデプロイ、分布シフトの監視などの工程については言及しないものとします。また、比較的小規模なプロジェクトの検証段階で利用することを前提とします。開発したパイプラインのライブラリは以下のリポジトリでバージョン0.0.1として公開しましたので、実装の詳細はリポジトリをご参照ください。ドキュメントとかも

y034112 2023/08/10

リンク

外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

はじめに ABEJAでデータサイエンティストをしている服部です。今回はLLMで外部データを使うケースについてのお話をしたいと思います。はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている対策案: ページ構造を意識した形で各文章を格納する他の対策案聞き方を明確にする類似度を測るクエリ文章を置き換える不要そうな文章をデータから削除するデータ自体をLLMで整形し直す Case2: 未知の単語を含む仮説: ニャオハ

y034112 2023/08/10

リンク

High-Resolution Image Synthesis with Latent Diffusion Models

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization o

y034112 2022/11/26

リンク

概要｜Phoenix v1.5 hexdocs 日本語訳

y034112 2022/08/28

リンク

GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

1. はじめに 2. 並列学習環境を調べる並列学習方法を調べるネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築するコンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Docker を build 6. つまずいたポイント学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

y034112 2022/08/05

リンク

golangフレームワークginを使ってみる

【環境】 MacBook Air (M1, 2020) OS: MacOS Big Sur version11.6 Docker Desktop for Mac version4.5.0 golangフレームワークのginを使ってみます。 gin.Default()で*Engineを受け取る ginでは最初にgin.Default()関数で*Engineというインスタンスを生成します。 *EngineにはEndpoint、Middleware、その他Webページ用のTemplateやそこで使われるfuncMapなど様々なものを登録しておくことができます。 gin.Contextとは gin.Contextを使うことで、URLに付随したパラメータの取得やPOSTで送信されたデータの取得などを行うことができます。 Engineと並んでginの重要な要素です。 Endpointを登録する rou

y034112 2022/06/24

リンク

ArgoCDの構築をパイプライン化する(ArgoCDの管理もArgoCDを利用してGitopsする) - Qiita

はじめに前回の記事でGKEのデプロイパイプラインを構築した。 GKEは費用の関係で頻繁に消したり作ったりしたかったため上記のパイプラインで実現したが、GKEの構築が自動化されていてもGKEへのアプリのデプロイが自動化されていなければ意味がないのでそこも自動化したい。今回はGKE構築後にJOBを1つ実行するだけで、CD環境構築も行いつつGKEへのアプリのデプロイを自動で行われるパイプラインを構築する。 GKEへのCD環境として、タイトルにある通りArgoCDを利用する。また、パイプラインの実行はGithub Actionsで行い、マニフェストYAMLの管理としてkutomizeを利用する。それぞれの技術要素の解説はしないため、参考に示す記事や公式サイトを参照してください。環境パイプライン上で利用する環境についてはソースコード内に記述されているため、ローカルの操作に必要なもののみ記

y034112 2022/06/23

リンク

Knowledge

Contents Guides Practices MLOps projects 勉強会 Conferences 書籍 References Guides MLOpsがどういったものかを理解する上で読んでおくと良い記事や発表資料ブログ記事 Machine Learning Operations MLOpsを含む機械学習全般に関する活用など網羅的にまとまったサイト MLOps: Continuous delivery and automation pipelines in machine learning GoogleによるMLOpsのlevel毎のゴール（取り組み）を示した記事 The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction MLシステムを定量的に評価する指標としてM

y034112 2022/06/02

リンク

Cloud Composer の概要 | Google Cloud

Cloud Composer 1 はメンテナンス後のモードです。Google は、Airflow の新しいバージョン、バグの修正、セキュリティアップデートなど、Cloud Composer 1 への今後のアップデートはリリースしません。 Cloud Composer 2 への移行を計画することをおすすめします。 Cloud Composer 1 | Cloud Composer 2 Cloud Composer は、フルマネージドのワークフローオーケストレーションサービスです。クラウドとオンプレミスデータセンターにまたがるワークフローパイプラインの作成、スケジューリング、モニタリング、管理ができます。 Cloud Composer は一般的な Apache Airflow のオープンソースプロジェクトを基に構築されており、Python プログラミング言語を使用して動作します。

y034112 2022/05/29

リンク

EKS入門者向けに「今こそ振り返るEKSの基礎」というタイトルで登壇しました #jawsug_ct | DevelopersIO

EKS初心者の方向けに、EKS周辺のAWSリソースがどのように関連して動作しているのかをステップバイステップでEKSCTLが担っている役割を中心に説明しました。先日、「EKS祭り」をテーマにJAWS-UGコンテナ支部 #16を開催しました。 JAWS-UGコンテナ支部 #16〜EKS on Fargateローンチ記念！EKS祭りだワッショイ - connpass EKS縛りというだいぶ濃いイベントの中で、自分はトップバッターで「今こそ振り返るEKSの基礎」と第して喋ってきたのでその内容をまとめます。基礎といえども普段隠れがちなEKSに関連するAWSリソースについてフォーカスを当てたある意味マニアックな内容だと思うので、EKS気になる方は是非ご覧ください。（祭） ∧ ∧ Y　 ( ﾟДﾟ) Φ[_ｿ__ｙ_l〉 EKS ﾀﾉｼｲﾖｺﾚﾏｼﾞﾃﾞ |_|＿| し'´Ｊこの記事の

y034112 2022/05/28

リンク

Amazon EKS の使用開始 - Amazon EKS

kubectl - Kubernetes クラスターを操作するためのコマンドラインツール。詳細については、「kubectl のインストールまたは更新」を参照してください。 eksctl – EKS クラスターで多くの個別のタスクを自動化するために使用するコマンドラインツール。詳細については、「eksctl のインストールまたは更新」を参照してください。 AWS CLI – Amazon EKS など AWS のサービスを操作するためのコマンドラインツールです。詳細については、ユーザーガイドの、「AWS CLI のインストール、更新、およびアンインストールAWS Command Line Interface」を参照してください。AWS CLI のインストール後は、設定も行っておくことをお勧めします。詳細については、ユーザーガイドの「aws configure でクイック設定AWS Com

y034112 2022/05/28

リンク

3時間弱でEKSに入門できるハンズオン、Introduction to Amazon EKSをやってみた #AWSSummit | DevelopersIO

3時間弱でEKSに入門できるハンズオン、Introduction to Amazon EKSをやってみた #AWSSummit 3時間ちょっとでAmazon EKS入門！ぜひ休日や隙間時間に触ってみてください。なんとなくKubernetes敷居高そう･･･と思って後回しにしていたKubernetes学習も本ハンズオンで短時間で概要をざっくり掴んで入門する事が出来ます。どうも、もこ@札幌オフィスです。現在開催中のAWS Summit Onlineで公開されている「Introduction to Amazon EKS」のハンズオンをやってみました。なんとなくKubernetes敷居高そう･･･と思って後回しにしていたKubernetes学習も本ハンズオンで短時間で概要をざっくり掴んで入門する事が出来ます。概要アマゾンウェブサービスジャパン株式会社プロフェッショナルサービス本部

y034112 2022/05/28

リンク

第7回　MySQLのスケールアップおよびスケールアウト構成 | gihyo.jp

データベースはディスクへのアクセスを頻繁に行うことが多いため、ストレージの性能がボトルネックになっている場合にはストレージをハードディスクからフラッシュベースのストレージに換えることも有用になります。オラクル製フラッシュストレージのSun Flash Accelerator F80 PCIe Cardを利用するためのLinuxやMySQLのチューニング例は下記の資料を参照してください。 URL：http://www.oracle.com/us/techno logies/linux/linux-and-mysql-optimizations-wp-2332321.pdf ただし将来的に求められるハードウェアスペックに合わせたサーバを事前に用意することは、初期投資が大きくなることを意味します。高いスペックのサーバを用意したにも関わらず、サービスが想定よりも利用されない場合には無駄な投資となって

y034112 2022/05/07

リンク

Vertex Pipelinesによる機械学習パイプラインの実行

はじめに機械学習の成果を運用する際には、データの処理や学習、モデルのデプロイなどといった一連の作業をワークフロー化することが多くなっています。これを実現するために、多くのワークフローツールが公開、利用されています。今回はGoogle Cloud Platformで機械学習ワークフローを実行するためのサービスであるVertex Pipelinesを用いて、機械学習パイプラインを構築、実行するまでを紹介します。サンプル実装では以下のようにデータの前処理、モデルの学習、評価、デプロイまでを行います。コードは以下に配置しました。 Vertex Pipelinesとは前述したように、Vertex Pipelinesは機械学習パイプラインを実行するためのGCPのサービスです。サーバーレスで稼働するため、費用は実行時に使用した分だけに抑えることができます。他に、実行時のパラメータやパイプラインに

y034112 2022/04/17

リンク

Vertex AIを活用したMLOpsの実現【前編】 | 株式会社CAM

｜目次 1. はじめに 2. MLOpsとは 3. Vertex AIの概要 4. Vertex Pipelineについて -概要 -コンポーネントの実装例 -パイプラインの実装例 -Vertex PipelineでのKubeflow Pipelineの実行 5. まとめ 6. 参考資料｜1. はじめに株式会社CAMで機械学習エンジニアをしています原和希です。データ分析から機械学習モデルの作成、そしてMLOps基盤の構築を担当しています。今回はMLOps基盤の構築をトピックとして、弊社で導入している「Vertex AI」という、GCP 上で MLOps 基盤を実現するためのサービスを紹介します。本記事は前編と後編に分かれています。この前編ではMLOpsについてと機械学習パイプラインを実現するためのサービスであるVertex Pipelineについて詳しく解説をします。後編では、

y034112 2022/04/17

リンク

Vertex AI Pipelines | Google Cloud

y034112 2022/04/14

リンク

A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

y034112 2022/04/09

リンク

ヤフーのAIプラットフォーム紹介〜 AI開発をより手軽に

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーでデータエンジニア兼マネージャーをしている安藤です。社内で利用しているAIプラットフォームの構築、提供を担当しています。ヤフーには100を超えるサービスがあり、各サービスのデータ＊1が蓄積されています。ヤフーではこれらのデータをマルチビッグデータと呼んでいます。マルチビッグデータを利用し、ユーザの利便性やサービスの質向上のため、AI、機械学習の導入が増えています。今回は、社内で急速に利用が進んでいる内製のAIプラットフォームを紹介します。＊1 この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 AIプラットフォーム開発の目的 AIプラッ

y034112 2022/03/24

リンク

はてなブックマーク

タグ

y034112のブックマーク (819)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス