ymym3412のブックマーク / 2024年5月22日

ymym3412 id:ymym3412

2024年5月22日のブックマーク (4件)

【2024年度サイバーエージェント新卒研修】システム運用の基本と戦略
株式会社サイバーエージェント AI事業本部の2024年度エンジニア新卒研修でシステム運用の基本と戦略に関する講義を行いました。
ymym3412 2024/05/22
運用

エンジニア
リンク
ベクトルデータの容量を96%削減するBinary Embedding
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。保管するベクトルデータの容量を96%ほど削減で
ymym3412 2024/05/22
機械学習

精度
リンク
[GCP]GCPとTerraformでデータ基盤を構築してみた - Qiita
概要気象庁の気象情報を取得し、加工した上でBigqueryに登録するデータパイプラインです。上記構成図の内、赤枠内のサービスをTerraformで定義しています。また、今回のデータ基盤定義をしたTerraformを上記Gitリポジトリにて公開しています。実装した背景現在無職なので、転職用のポートフォリオとして作成しました。また、GCP・Terraform(あとGit)も触ったことがなかったので、技術スキルを高めることも目的の一つです。各工程の説明一連の流れは、下記のとおりです。 ①データ取得 ②データ加工・投入取得データは、最高気温・最低気温・日降水量の3つです。これらはLooker Studioで日ごとの遷移を可視化することを想定して選定しました。記事公開時点ではLooker Studioのダッシュボードを作成していないので、折角なら実装しようかとも思っています。
ymym3412 2024/05/22
開発

基盤
リンク
全社データ活用基盤をTreasureDataからBigQueryへ移行しました - Leverages データ戦略ブログ
はじめにこんにちは。データエンジニアリンググループの森下です。今回は、私がプロジェクトマネージャーとして約3年間かけて実施した、TreasureDataからBigQueryへの全社データ活用基盤移行プロジェクトについてお話します。このプロジェクトは、全社で1日あたり数千件のクエリが実行されるデータ基盤を移行するという大規模なもので、関係者の数は200〜300人に上りました。プロジェクト期間中は、データ活用基盤の技術調査から始まり、関係者への説明や調整、データ移行、クエリ移行、ETLやReverse ETLに使用する各種ツールの導入など、本当に多くのタスクがありました。プロジェクト背景: TreasureData導入とその課題 TreasureData導入の背景 2024年時点ではGoogle BigQueryを使用していますが、その前の環境が導入された背景を説明します。 2018年12
ymym3412 2024/05/22
基盤
リンク
- 2024年5月30日
- 2024年5月22日
- 2024年5月11日