ブックマーク / tech-blog.abeja.asia (22)

  • Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

    こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。 以降、LLMプロジェクトをGENIAC(Generative AI Accelerator Challenge)と表記します。 開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点(執筆時)では存在していません。 GENIACの計算資源提供の

    Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog
    toshikish
    toshikish 2024/04/21
  • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

    こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

    色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
    toshikish
    toshikish 2023/12/22
  • AWS Config が高いと感じたら。AWS Config のコストを15分の1に下げた話 - ABEJA Tech Blog

    切っ掛けと問題の認識 AWS Config のカウント数の監視 対象外にしたいリソースが見つかったら AWS Config 側で除外する 実際のコスト削減効果 なぜもともとコストが高かったのか まとめ こんにちは、ABEJAの村主です。ABEJAアドベントカレンダー2023の18日目の記事です。今回は、意外にも高額になりがちなAWS Configのコスト削減について、どのように対応したかをご紹介します。特に、AWS Configのコストを大幅に減らすためのアプローチについてお話しします。また、CloudWatch で AWS Config のカウント量を可視化する方法はあまり見かけなかったのでブログにしておきました。 切っ掛けと問題の認識 最初に気づいたのは、AWS Cost Explorer を確認していたときです。そこで見たAWS Configのコストは、1日あたり約$15、月間では約

    AWS Config が高いと感じたら。AWS Config のコストを15分の1に下げた話 - ABEJA Tech Blog
    toshikish
    toshikish 2023/12/22
  • LangChainを使わない - ABEJA Tech Blog

    TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ

    LangChainを使わない - ABEJA Tech Blog
    toshikish
    toshikish 2023/12/13
  • コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学習の例(マルチインスタンス学習) LightGBMで弱教師あり学習がしたい! PU分類 問題設定 解き方 LightGBMの実装 実験 Partial Label Learning 問題設定 解き方 LightGBMの実装 実験 マルチインスタンス学習 問題設定 解き方 LightGBMの実装 実験 おわりに はじめに 機械学習を行うためには、一般的に、大量の入力データと、それら一つ一つに対応した正確なラベルが必要です。 例えば、犬との画像分類を行う場合には、それぞれの画像一つ一つに犬かのラベルがついていてほしいですね。 一方で場合に

    コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog
    toshikish
    toshikish 2023/09/05
  • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

    こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 記事の対象読者としては、以下のようになりま

    ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
    toshikish
    toshikish 2023/07/27
  • 暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-前半- - ABEJA Tech Blog

    はじめに このブログに書かれていること 自己紹介 注意 Part1 古典暗号 2つの暗号方式 スキュタレー暗号 アルゴリズムと鍵 シーザー暗号 原理 頻度分析 アルベルティ暗号 ヴィジュネル暗号 如何にしてヴィジュネル暗号は破られたか Part2 近代暗号 エニグマ エニグマの登場 エニグマの基構造 如何にしてエニグマは突破されたか 前提条件 必ず異なる文字に変換される性質を利用 ループを利用 まとめ 参考文献 採用情報 はじめに このブログに書かれていること 前半 古代暗号から始まる暗号の歴史 エニグマの構造と解読法について 後半(後半ブログは こちら) RSA暗号の基 楕円曲線暗号の基 自己紹介 こんにちは!株式会社ABEJAの @Takayoshi_ma です。今回のテックブログですが、ネタに5時間程度悩んだ挙句、暗号を取り上げることにしました!暗号化手法の解説にとどまらず、そ

    暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-前半- - ABEJA Tech Blog
    toshikish
    toshikish 2023/04/12
  • 暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-後半- - ABEJA Tech Blog

    はじめに このブログに書かれていること 自己紹介 注意 Part3 現代の暗号 共通鍵暗号方式と鍵配送問題 鍵配送問題とは? 共通鍵暗号方式と公開鍵暗号方式の違いとメリット・デメリット RSA暗号 RSAで使われる鍵 処理手順 暗号化の手順 復号の手順 RSA暗号の数学的背景 一次不定式が自然数解を持つ理由 eとLの関係性 そもそもなぜこの式で元の平文に戻るのか?の数学的根拠 証明パート1 フェルマーの小定理 中国剰余定理 RSA暗号をPythonで 楕円曲線暗号 楕円曲線とは? 楕円曲線の式 楕円曲線における足し算の定義 楕円曲線における引き算の定義 無限遠点 楕円曲線における分配法則と交換法則 楕円曲線の加法を式で表現 点Pと点Qが異なる場合 点Pと点P 同じ点を足し合わせる場合 有限体 有限体とは? 有限体上の楕円曲線 楕円曲線暗号における鍵 ECDH鍵共有 数式ベースでの手順説明

    暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-後半- - ABEJA Tech Blog
    toshikish
    toshikish 2023/04/12
  • GA → Airbyte → Snowflake(Snowpark for Python) のELT(EL)パイプラインを作ってみた - ABEJA Tech Blog

    この記事はABEJA Advent Calender20日目、及びSnowflake Advent Calender23日目の記事になります。 はじめに 各々の技術について大雑把に紹介 Snowflake Snowpark Airbyte 環境構築 Airbyte Google Analytics Google Search Console Snowflake Connection Snowpark 今回の処理 結局Snowparkが使えると何がいいか 最後に はじめに こんにちは@Takayoshi_maです。今日はGoogle Analytics(UA) → Airbyte → Snowflake (Snowpark for Python)という流れでデータの抽出、加工を行います。 各々の技術について大雑把に紹介 Snowflake Snowflake社(ティッカーコード: SNOW)

    GA → Airbyte → Snowflake(Snowpark for Python) のELT(EL)パイプラインを作ってみた - ABEJA Tech Blog
    toshikish
    toshikish 2022/12/21
  • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

    この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

    Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
    toshikish
    toshikish 2022/12/19
  • AzureADの条件付きアクセスポリシーをTerraformで作る 〜情シス業務の効率化トライ〜 - ABEJA Tech Blog

    はじめに なぜやるのか 環境準備 今回の実装想定 実装 参考 採用メッセージ はじめに こんにちは! 株式会社ABEJAで情シスをしている世古です。記事はABEJAアドベントカレンダー2022の14日目の記事です! 今回は「AzureADの条件付きアクセスをポリシーをTerraformで作ってみた」という内容の実装の部分を架空の設定を用いて簡単にお話できたらなと思います! なぜやるのか 作業ミスの防止 GUIでぽちぽちやると集中力が切れたときにミスが起きやすい 作業効率の向上 コード化することにより、大量の設定適用が楽になる。また設定の確認が捗る。 モダンな情シスっぽくてモテそうだから 環境準備 Terraform、AzureCLIがインストール済であること 情報量(コード)を減らすために架空の設定です(ベストプラクティスではないです) ※インストールしてない方は以下を実行するとインスト

    AzureADの条件付きアクセスポリシーをTerraformで作る 〜情シス業務の効率化トライ〜 - ABEJA Tech Blog
    toshikish
    toshikish 2022/12/16
  • 非エンジニアがNotion+Wraptasをつかって、一ヵ月で採用サイトをつくった話 - ABEJA Tech Blog

    はじめまして! コーポレートデザイン統括部人事グループの坊といいます。 ABEJAアドベントカレンダー2022の15日目の記事を担当させていただきます。 ABEJAでは、エンジニアやデータサイエンティストだけでなく、ビジネス職含め、様々なポジションで仲間を募集しています! 少しでも興味がある方は、情報交換からでも構いません! ぜひカジュアル面談しましょう! ご応募・ご連絡お待ちしております! careers.abejainc.com ・・・。 以上が、人事として日お伝えしたいことの9割ではあるのですが、せっかく機会をいただきましたので、今回は非エンジニアである私がNotionで採用サイトをつくってみた話をお伝えしようと思います。 なぜNotionで採用サイトを作ったか Notionで採用サイトつくってみた ①採用サイトに載せるコンテンツの洗い出し ②非公開Notionでラフイメージをつ

    非エンジニアがNotion+Wraptasをつかって、一ヵ月で採用サイトをつくった話 - ABEJA Tech Blog
    toshikish
    toshikish 2022/12/16
  • GPTでKey作品の名言から文章を生成してみた - ABEJA Tech Blog

    目次 目次 はじめに そもそもGPTとは 日語データセットで学習されたGPT 入力文章 GPTによる生成コード 出力結果 ChatGPTで生成 まとめ ABEJAについて はじめに 記事はABEJAアドベントカレンダー2022の13日目の記事です。 こんにちは!カスタマーサクセス統括部 データサイエンスグループでインターンをやらせていただいている村尾(@MURA_omura)です。 私は高専の専攻科生で、現在GANsを用いた音声生成に関する研究に取り組んでいます。 高専といえばYouTubeで100万人の登録者がいるかっつーさんや、生活に技術を取り込むのが上手なラムダ技術部さんが有名です。 1年半ほど前からKey作品にはまっていて、この間Summer Pockets REFLECTION BLUEを購入しました! Kye作品は泣ゲーで知られていて、 「CLANNADは人生」 というフレ

    GPTでKey作品の名言から文章を生成してみた - ABEJA Tech Blog
    toshikish
    toshikish 2022/12/14
  • オフィスDXを支える技術2022年版(チャットツール連携編) - ABEJA Tech Blog

    ABEJA Advent Calendar 2022 11日目の記事です。昨日は服部さんの夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話でした。 はじめに こんにちは、こんばんは、おはようございます、エンジニアの小笠原(@seiro-ogasawara)です。 去年の Advent Calendar で @toshitanian がオフィスDXを支える技術(バックエンド編)という記事を書いていましたが、記事はそれの2022年版です。5日の記事で石川 (@ishikawa) がフロントエンド、というかネイティブアプリの機能紹介を行っているので、興味のある方はそちらもご覧ください。 この記事では、今年 Bizflex システムに追加した機能のうち、チャットツール連携機能、なかでも、(1) ゲスト来館時通知 (2) 勤怠サービス連携 についてご紹介します。 (ち

    オフィスDXを支える技術2022年版(チャットツール連携編) - ABEJA Tech Blog
    toshikish
    toshikish 2022/12/11
  • Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目(ワークショップやプレゼンテーション等) Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

    Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
    toshikish
    toshikish 2022/11/18
  • 小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog

    はじめに こんにちは!ABEJAでプロダクトマネージャーをしている栗林です! ABEJAでは小売店舗での顧客行動を分析するInsight for Retailというプロダクトや、オフィスDX事業をはじめとして、物理世界の現象を機械学習などが適用可能なデジタルに変換する部分にも強みがあります! 日のTech Blogでは、安価かつ小型な加速度・角速度センサーを用いて製造業や物流業における作業者の行動や状態を推定する手法についてまとめました。 背景 みなさんは製造業や物流などにおける、正味作業時間という言葉をご存知でしょうか? 正味作業時間とは実際の作業に充てられた時間を差します。 例えば、組み立て作業の際に必要となる道具や在庫が近くに無く、作業者がものを探したり歩行して取りに行ったとします。このときの準備や段取りにかかる時間は準備時間や付帯作業時間と言われ、作業工程において生産をおこなえて

    小型かつ安価なセンサーを使って人の行動推定を行ってみる - ABEJA Tech Blog
    toshikish
    toshikish 2022/09/02
  • ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog

    1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習 せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアーキテクチャの工夫 5 学習したGPTのアウトプット例 5.1 失敗モデルたちの作品集 5.2 完成モデルの出力例 5.3 少しFine-tuningした結果 6. 最後に 6.1 採用メッセージ 6.2 ABEJAで学習したGPTモデルの今後について 1. はじめに こんにちは、ABEJAの服部です。昨日、ABEJAが主催しているABEJA SIX2022でも発表がありましたが、NVIDIA社の

    ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog
    toshikish
    toshikish 2022/07/27
  • Firebase Realtime Databaseの利用料増加問題をFirestore移行で解決した話 (年間数百万削減) - ABEJA Tech Blog

    はじめに ある日、このようなIssueが起票されました。 背景を話すと、Insight for Retail の顧客管理システムは5年ほど前にFirebaseで作成されております。 事業を切り開いていった先人たちには足を向けて寝られないのですが、サービスの成長に伴いマイクロサービス化していった結果、この顧客管理システムのRealtime Databaseが足を引っ張っていて、その利用料金が月額40万円、年間になおすと480万円ほどになってしまいいました、、、 初期フェーズは問題なかったものの、事業成長とともに無視できない金額になっていました。 Insight for Retailのエンジニアの高木です。 Firebase Realtime DatabaseからFirestoreに一部移行して、最終的にはコストを1/10まで圧縮して年間利用料を400万円削減した事例のご紹介になります。 利用

    Firebase Realtime Databaseの利用料増加問題をFirestore移行で解決した話 (年間数百万削減) - ABEJA Tech Blog
    toshikish
    toshikish 2022/05/16
  • 実務で必須!2変数の関連性を正しく評価できるよう関連知識をまとめてみた - ABEJA Tech Blog

    こんにちは、ABEJAの真壁孝嘉(@Takayoshi_ma)です。変数Aと変数Bにどれくらいの関連性があるの?このデータから何が言える?みたいなニーズって至る所にあるかと思います。その時に活用される様々な数学的指標たち、(自分含め)名前を知ってるだけだと危険だよなあって場面が近頃多い気がしたので、改めてメモ的な意味でブログを書いてみました。前半に(ピアソンの積率)相関係数に関する注意点を列挙したのち、後半にそれ以外の数学的指標の概要を列挙していこうと思います。 尚、このブログで度々登場する相関係数とはピアソンの積率相関係数を表すこととします。 相関係数の注意点 相関係数の概要 相関関係と因果関係は異なる概念 無相関であることと、独立であることは異なる概念 相関係数は外れ値に影響されやすい 選抜効果 相関係数の標準誤差 標相関係数は母相関係数の不偏推定量ではない 2つの指標の関連度を測る

    実務で必須!2変数の関連性を正しく評価できるよう関連知識をまとめてみた - ABEJA Tech Blog
    toshikish
    toshikish 2022/04/14
  • ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog

    初めに 会社・事業紹介 ABEJA Insight for Retailについて 技術スタック 全体アーキテクチャ図 ① 映像録画・解析システム ②データ基盤部分 ③ Webダッシュボード その他 (全体共通部分) 一緒に働く仲間を募集中! 最後に 初めに こんにちわ。大田黒(おおたぐろ)です。暑い日が落ち着いてきて、秋(冬?)が来たなぁと感じるこの頃です。皆様いかがおすごしでしょうか。前回の「ABEJAの技術スタックを公開します (2019年11月版)」が公開されてからしばらく経ちました。 引き続きエンジニアの方とお話させていただく中で、 「ABEJAってよく聞くけど...実際どんなことやってるのかよくわからない」 「AIのお硬いSIerって感じなんでしょ?」 「社内は機械学習エンジニアばっかりなんでしょ...??」 といったご質問をいただくことが多いです。 今回の記事では、最新の会社や

    ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog
    toshikish
    toshikish 2021/10/22