並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 381件

新着順 人気順

datasetの検索結果1 - 40 件 / 381件

  • 二子玉川の堤外地問題と小字地図に関して幾つか指摘その1

    二子玉川の堤外地に建つマンションが高値を付けてる事に嘆いて小字地図という面白いものを公開してくれた人がいる。 でもその事をまとめたtogetterではそれに対して間違ったり不適当なツイートばかり拾ってるので指摘するよ。 https://b.hatena.ne.jp/entry/s/togetter.com/li/2381841 過去の経緯二子玉川には堤防の切れ目があった。陸閘ともいう。閘はパナマ運河などの閘門の閘で、板で締め切って水をブロックして水位を変化させるものだ。それが陸にあるから陸閘。 https://maps.app.goo.gl/DKKV4c1kefy3BVSE9 余談だがこの道は結構重要な道で、江戸時代の矢倉沢往還(青山通り大山道)だった。真っ直ぐ行って多摩川に出たところに渡船(二子の渡し)があったのだ。川を渡って崖を上ると二子の宿場に着く。 ここは瀬田村の一部で、スレッドで

      二子玉川の堤外地問題と小字地図に関して幾つか指摘その1
    • 大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG

      こんにちは。MA部の田島です。 弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。 バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。 開発ガイドラインについての紹介 冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。 開発ガイドラインの種類 開発ガイドラインは現在、以下の種類が存在します。 共通 Android iOS Frontend Backend Infra API Batch DB(Datab

        大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
      • 市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

        全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ

          市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
        • 加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

          加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

            加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
          • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

            はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

              2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
            • 英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama

              はじめに英語の論文をGPT4に執筆させた際の手順を記します。 普段からChatGPTを使っている人にとっては、当たり前のやり取りしかしていないのですが、意外と使えていない方がnon-AI分野では多いので、丁寧にプロンプトを示していきます。 (ワークショップで解説する必要が出てきたので、そのためのメモ書きです) GPT-4に論文は書けるのか?ゼロから書かせるのは難しいですが、日本語の下書きを英訳するのは得意で、少なくとも筆者が満足する品質のテキストが得られます。 GPTを使って執筆をするメリットDeepLやGoogle翻訳と違い、英文のスタイル(e.g., 論文調)を明示的に指示できるので、翻訳のクオリティが高い 日本語ネイティブにとっては、日本語で書いた方が圧倒的に楽※ スペルミスや文法ミスを犯さないので、校正の手間も減る。※ 基本的に翻訳タスクしか行っていないので、GPTが過去の類似文章

                英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama
              • Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita

                これは MIERUNE AdventCalendar 2023 24日目の記事です! 昨日は@northprintさんによるSvelteKitでURLクエリパラメーターの操作をするでした。 はじめに この記事では新宿駅の屋内地図データを使用して、Three.jsで3Dによる可視化をします。 DEMOはコチラ 使用するデータ 今回は、G空間情報センターで公開されている「新宿駅屋内地図オープンデータ」の統合版(ShapeFile)を使用します。 データについての詳細は製品仕様書に記載されています。 この記事のように、データの加工利用には以下の出典が必要となります。 コンテンツを編集・加工等して利用する場合は、上記出典とは別に、編集・加工等を行ったことを記載してください。なお、編集・加工した情報を、あたかも国(又は府省等)が作成したかのような態様で公表・利用してはいけません。(コンテンツを編集・

                  Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita
                • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                  大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                    RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                  • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                    SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                    • ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す

                      ここで知った。 試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度 神戸市観光動向調査結果について」のPDFで一度試していたのだけども: (出典) 神戸市Webサイトの「観光に関する統計・調査」のページ 上記にある「令和5年度 神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされる ただし、表が画像 になってる場合に、うまく解釈されない(表は解釈されるが、中の文字が化ける) OCRが正しくできていない可能性 というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。 ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリ ドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。

                        ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
                      • 機械学習による株価予測 - Qiita

                        こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 ※私の環境: Python3 Chrome Google Colaboratory Windows 10 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構築すること。 2.データセット Yahoo Financeである上場企業Lasertec(6920.T)の時列データ 3.機械学習モデル LSTM(Long Short-Term Memory: ニューラルネットワークの一種で、長期的な依存関係を学習することができる特徴ある。 4.予測モデルの構築と検証 4-1. ライブラリのインポート import ker

                          機械学習による株価予測 - Qiita
                        • KPIのモニタリング自動化と運用体制の整備 - ZOZO TECH BLOG

                          はじめに こんにちは。データシステム部/推薦基盤ブロックの佐藤 (@rayuron) です。私たちはZOZOTOWNのパーソナライズを実現する推薦システムを開発・運用しています。推薦システムごとにKPIを策定していますが、データの欠損やリリース時の不具合によってKPIが意図しない値を取ることがあるため定常的に確認する必要があり、これをKPIのモニタリングと呼んでいます。 先日、推薦システムの実績をLookerでモニタリングするというテックブログで推薦システムのKPIをモニタリングする方法を紹介しましたが、運用していく中でいくつかの課題が見えてきました。本記事では、より効率的かつ効果的なKPIのモニタリングを実現するための取り組みについて詳しくご紹介します。 はじめに 改善の背景と課題 背景 課題 トレンドを考慮した異常検知が不可能 モニタリングの設定が面倒 アラート対応フローが不明確 サマ

                            KPIのモニタリング自動化と運用体制の整備 - ZOZO TECH BLOG
                          • Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked

                            Watch Our Google Algorithm Leak Webinar Replay Google, if you’re reading this, it’s too late. Ok. Cracks knuckles. Let’s get right to the Google algorithm leak. Internal documentation for Google Search’s Content Warehouse API has been discovered. Google’s internal microservices appear to mirror what Google Cloud Platform offers and the internal version of documentation for the deprecated Document

                              Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
                            • JavaScriptで実現するFLIPアニメーションの原理と基礎 - ICS MEDIA

                              アニメーション実装のテクニックのひとつにFLIPと呼ばれるものがあります。FLIPアニメーションは2つの状態をなめらかにつなげるテクニックで、とくに移動や拡大といった動きに有効です。FLIPアニメーションを用いると、次のようなアニメーションを実装できます。 本記事では、ライブラリに依存しないFLIPアニメーションの原理を理解し、実装する方法を紹介します。 FLIPアニメーションとは FLIPとは、First, Last, Invert, Playをまとめた造語です。これらはFLIPアニメーションの手順を説明したものになります。 First:アニメーションを開始するときの状態 Last:アニメーション終了時の状態 Invert:変化量を計算し、Lastの状態に適用してFirstの状態を復元します Play:Invert量を徐々に減らしてLastの状態に近づけていきます FLIPのおもしろい点

                                JavaScriptで実現するFLIPアニメーションの原理と基礎 - ICS MEDIA
                              • Go、Rust、Pythonで実装したAPIサーバーの負荷試験比較 - Qiita

                                はじめに みなさん様々な言語でAPIサーバーを立てて負荷試験を実施したことはありますか。 私自身、業務でPythonのアプリケーションに対して負荷試験を実施した経験があります。 その際にPythonの速度観点の不安定さを目の当たりにしたと同時に、別の言語ではどのような違いが生まれるのだろうか、という疑問を持ちました。 そこで今回は、簡単ではありますがGoとRustとPythonでそれぞれAPIサーバーを立てて負荷試験をしてみます。 負荷試験対象のAPIサーバー 今回は(1) Hello, World!を返すAPI(2)ファイル読み込みAPI(3)1秒待ってから応答するAPIの3つを実装します。 (1)はAPIサーバー自体の応答速度の計測、(2)はメモリを消費する処理が生じた場合のAPIの応答速度の計測、(3)は待ち時間発生している時のAPIの応答速度の計測することが目的です。 (2)につい

                                  Go、Rust、Pythonで実装したAPIサーバーの負荷試験比較 - Qiita
                                • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

                                  はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

                                    大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
                                  • dbt導入によるデータマート整備 - ZOZO TECH BLOG

                                    はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc

                                      dbt導入によるデータマート整備 - ZOZO TECH BLOG
                                    • 日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】

                                      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 【更新履歴:2024年5月24日 午後1時50分更新 同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。 カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。 Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著

                                        日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】
                                      • Llama 3.2 の使い方|npaka

                                        以下の記事が面白かったので、簡単にまとめました。 ・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。 コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transformers実装では入力で提供された最後の画像のみに注

                                          Llama 3.2 の使い方|npaka
                                        • クルド問題で良くやり玉にあがる解体業トラックの積載とヤードの問題に就いてパート1

                                          産経新聞が報じているクルド人ヤードで大騒ぎ問題に関して。因みに本稿では記事や事件そのものには触れない。 https://b.hatena.ne.jp/entry/s/www.sankei.com/article/20240818-Q7DJ43L7IVGBVIXACY4JX5FRBY/ トラックの制裁制限産経の記事では冒頭に「過積載の(解体業)トラック」の写真が掲載されている。Xでもよく同じような写真が「クルド人解体屋の過積載トラック」として掲示され「何故か警察が検挙しない!」と指弾されている。 これらは違法積載なのだろうか? 道交法は近年改正され、車両からのはみ出しの制限が緩和された。 後方については車両長の20%以下となった(はみ出しが後方だけの場合)。これはいすゞエルフ2t積みの場合、全長が4.7mなのではみ出しの最大は940cmとなる。写真のトラックはそんなにでっぱっていない。 側方

                                            クルド問題で良くやり玉にあがる解体業トラックの積載とヤードの問題に就いてパート1
                                          • 1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」

                                            徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ

                                              1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」
                                            • Visual DB

                                              Web front end for your database Build data entry forms, sheets, and reports Cut development costs Developing and maintaining internal applications to enter and update records in a database is expensive. Now you can significantly lower costs by using Visual DB instead of developing custom applications. No coding skills? No problem! Visual DB is a productivity application, not a developer tool. As s

                                                Visual DB
                                              • postgres.new: In-browser Postgres with an AI interface

                                                Introducing postgres.new, the in-browser Postgres sandbox with AI assistance. With postgres.new, you can instantly spin up an unlimited number of Postgres databases that run directly in your browser (and soon, deploy them to S3). Each database is paired with a large language model (LLM) which opens the door to some interesting use cases: Drag-and-drop CSV import (generate table on the fly) Generat

                                                  postgres.new: In-browser Postgres with an AI interface
                                                • 意味的知識グラフとApache Solrを使った関連語検索の実装 - Ahogrammer

                                                  Manningから出版予定の『AI-Powered Search』(AIを活用した情報検索の意)を冬休み中に読んでいたら、その中で意味的知識グラフ(Semantic Knowledge Graph)と呼ばれるデータ構造について説明していて、関連語の計算やクエリ拡張などに使えるということで興味深かったので紹介しようと思います。最初に意味的知識グラフについて説明したあと、日本語のデータセットに対して試してみます。 AI-Powered Search(https://www.manning.com/books/ai-powered-search) 本記事の構成は以下のとおりです。 意味的知識グラフとは 意味的知識グラフを用いた関連語の計算 参考資料 意味的知識グラフとは 知識グラフと聞くと、固有表現認識や関係抽出、OpenIEを使って構築するグラフを思い浮かべる方もいると思うのですが、意味的知識

                                                    意味的知識グラフとApache Solrを使った関連語検索の実装 - Ahogrammer
                                                  • AutoDev|AI エンジニア「Devin」に驚いていたら、もう Microsoft が「AI駆動開発」ツールを用意し始めてたって話 - Qiita

                                                    AutoDev|AI エンジニア「Devin」に驚いていたら、もう Microsoft が「AI駆動開発」ツールを用意し始めてたって話ポエムAI 概要 まず、本記事の背景ですが、本記事を書く数日前に、「Devin AI|話題の世界初 "完全自律型" AIエンジニア「Devin」の公開内容の全訳」 という記事を書きました。 ありがたいことに、フォロワーも少ないのに記事公開後のたった3日間程で 1万超の閲覧(View) をいただけました(YouTube の解説動画も公開3日目で1万回再生を突破しました)。 「AI の進化もすごいし、みんなのアンテナもすごいなぁ」という思いに浸りながら、ふと海外の AI 界隈の記事を漁ってたら、なんと 「Microsoft が自律型 AI ソフトウェア開発ツールを作ってるらしい」 という記事を発見しました。「ツール」と呼ぶよりは、「ソリューション」の方が近いので

                                                      AutoDev|AI エンジニア「Devin」に驚いていたら、もう Microsoft が「AI駆動開発」ツールを用意し始めてたって話 - Qiita
                                                    • BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog

                                                      G-gen の神谷です。本記事では、Google Maps API から取得したラーメン店のクチコミデータに対する定量分析手法をご紹介します。 従来の BigQuery による感情分析の有用性を踏まえつつ、Gemini 1.5 Pro の導入によって可能となった、より柔軟なデータの構造化や特定タスクの実行方法を解説します。 分析の背景と目的 可視化イメージ 分析の流れとアーキテクチャ クチコミデータ取得と BigQuery への保存 API キーの取得 データ取得のサンプルコード クチコミ数の制限と緩和策 料金 感情分析とデータパイプライン Dataform の利点 Dataform を使った感情分析のパイプライン定義例 感情分析の結果解釈 ML.GENERATE_TEXT(Gemini 1.5 Pro) 関数を使用した高度な分析 ユースケースに応じた独自の評価観点によるクチコミの定量化

                                                        BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog
                                                      • ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG

                                                        はじめに こんにちは、MA部の松岡(@pine0619)です。MA部ではマーケティングオートメーションシステムの開発・運用に従事しています。 ZOZOTOWNでは、マーケティングオートメーションシステム(以下、MAシステム)を使い、メールやLINE、アプリプッシュ通知といったチャネルへのキャンペーンを配信しています。 MA部では、複数のMAシステムが存在しており、MAシステムそれぞれに各チャネルへの配信ロジックが記述されていました。これにより、現状の運用保守ならびに今後の改修コストが高いかつ、使用している外部サービスのレートリミットの一元管理が出来ていないなどの問題を抱えていました。そのため、外部サービスへのリクエスト部分をチャネルごとにモジュールとして切り出し、複数のMAシステムから共通で使える配信基盤を作成しました。 また、社内の他チームの持つシステムからのキャンペーン配信の要望があっ

                                                          ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG
                                                        • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

                                                          今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

                                                            最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
                                                          • 生成AIの本を執筆する者は一切の希望を捨てよ~2023年の生成AIと『生成AIで世界はこう変わる』執筆振り返り~|今井翔太@えるエル(ImAI_Eruel)

                                                            はじめに 東京大学 松尾研究室でAIの研究をしている今井翔太と申します.最近,『生成AIで世界はこう変わる』という本を出版させていただきました. https://www.amazon.co.jp/dp/B0CM2YJ34N?ref_=cm_sw_r_cp_ud_dp_TRV649GZXZBTAPW2M0XB_1 本記事は,2024年1月7日に発売された生成AIに関する私の著書『生成AIで世界はこう変わる』の執筆(+発売後の動き)の振り返りと,その補強となる2023年(正確にはChatGPT登場の2022年後半〜です)の生成AIの展開に関するものです.実はnoteにおける初の記事になります. AIの一般書の執筆というのは割とレア経験だと思われますので,読者層がイマイチわからない記事な気もしますが,本の性質上,生成AIという分野一般の2023年の展開と連動する部分があり,いくらかは参考になる部

                                                              生成AIの本を執筆する者は一切の希望を捨てよ~2023年の生成AIと『生成AIで世界はこう変わる』執筆振り返り~|今井翔太@えるエル(ImAI_Eruel)
                                                            • 最近の7B小型日本語LLMはエージェントになれるのか?

                                                              あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた

                                                                最近の7B小型日本語LLMはエージェントになれるのか?
                                                              • Doing RAG? Vector search is *not* enough

                                                                I'm concerned by the number of times I've heard, "oh, we can do RAG with retriever X, here's the vector search query." Yes, your retriever for a RAG flow should definitely support vector search, since that will let you find documents with similar semantics to a user's query, but vector search is not enough. Your retriever should support a full hybrid search, meaning that it can perform both a vect

                                                                  Doing RAG? Vector search is *not* enough
                                                                • 近似最近傍探索ライブラリVoyagerで類似単語検索を試す

                                                                  本記事について 2023年10月にSpotifyが新たな近似最近傍探索ライブラリとして「Voyager」を発表した[1]。本記事ではVoyagerについて調べたことや、単語の類似検索をユースケースとした実装サンプル、Annoyとの性能比較の結果を備忘としてメモしておく。 近似最近傍探索とは Voyagerの話に入る前に、近似最近傍探索について説明する。 最近傍探索 (Nearest Neighbor Search)とは、あるベクトルのクエリが与えられたときに、そのクエリと「最も似ているベクトル」をベクトルの集合から見つける技術である。 ナイーブな方法としては、クエリのベクトルと、集合の一つ一つのベクトルとの距離をコサイン類似度などで計算し、最も距離が近いものを抽出する線形探索が考えられる。しかし、このアプローチではO(N)(Nは集合のサイズ)で探索に時間がかかるため、データセットが膨大にな

                                                                    近似最近傍探索ライブラリVoyagerで類似単語検索を試す
                                                                  • 【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog

                                                                    こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。 この度 Gaudiy では LangSmith を使った評価の体験をいい感じにするライブラリ、langsmith-evaluation-helper を公開しました。 github.com 大まかな機能としては次のように config と、詳細は後で載せますが、LLMを実行する関数 or プロンプトテンプレートと評価を実行する関数を書いて description: Testing evaluations prompt: entry_function: toxic_example_prompts providers: - id: TURBO config: temperature: 0.7 - id: GEMINI_PRO config: temperature:

                                                                      【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog
                                                                    • RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life

                                                                      この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。 昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。 例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana

                                                                        RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life
                                                                      • BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog

                                                                        はじめに 旧BigQuery構成と課題点 新GCP Project/BigQuery構成 承認済みビューの設定 結果 終わりに はじめに enechainのデータプラットフォームデスクで2年目エンジニアをしている菱沼です。 本記事では、社内ユーザに対する閲覧権限をBigQueryの承認済みビューを用いて改善した例をご紹介します。 事業規模の拡大に伴い、各種データへのアクセス権限整備の重要性が増し、BigQuery上のデータも厳密な権限管理が求められるようになりました。 今回は、我々が抱えていたBigQueryアーキテクチャの権限管理上の課題と、その課題に対する取り組みについて具体的にご紹介します。 ぜひ最後までお付き合いください! 旧BigQuery構成と課題点 データプラットフォームデスクで構築しているデータ基盤の1つに、 外部データソースから取得したデータを収集・蓄積するためのETLパ

                                                                          BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog
                                                                        • 真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く | stin's Blog

                                                                          真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く2024/07/14 14:36 nextjsreact このサイトはダークモードに対応しています。なぜならダークモードは基本的人権だからです(要出典)。 しばらく、サイトに訪問した直後ライトモードとダークモードが切り替わってチラつく現象が発生していました。これを改善したので、実装方法と気付いたことを残しておきます。 ダークモードの実装方法一般に、ダークモードの実装方法は3タイプあります。 OSによるモード設定を反映する メディアクエリー@media (prefers-color-scheme: dark)を使うと、OS側でダークモードを指定している時だけ有効になるスタイルを書くことが出来ます。 JavaScriptでも判定が必要な場合はmatchMedia("(prefers-color-scheme: dark)")

                                                                            真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く | stin's Blog
                                                                          • AWS IAM PolicyのForAllValuesを勘違いしてた件 - LayerX エンジニアブログ

                                                                            LayerX Fintech事業部(※)で、ガバナンス・コンプラエンジニアリングをしている 鈴木 (@ken5scal )です。 ※三井物産デジタル・アセットマネジメントに出向しています。 今回は、AWS IAMポリシーの条件における「ForAllValues」の仕様を誤って理解していたことから、安全でないアクセス制御を実装していたという内容です。もし同様の勘違いをされている方がいたら参考になれば幸いです。 ユースケース AWS IAMユーザーを、ロールの trust policy がユーザーのタグで制御するケースで考えます。 具体的には、「Group A あるいは Group B」に所属し、且つ「Admin」権限のあるユーザーのみが行使できる役割「AdminABRole」があるとしましょう。 この場合、Group と Admin のタグが存在し、下記のようなパターン(※)が考えられます。

                                                                              AWS IAM PolicyのForAllValuesを勘違いしてた件 - LayerX エンジニアブログ
                                                                            • Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics

                                                                              皆さんこんにちは 機械学習チームYAMALEXの@tereka114です。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 日々、LLMが進化していて、画像が本職(のはず)の私ですら、ここ数年LLMの勉強をはじめています。 学習してモデル公開しましたといった記事はよく見ますが、今回は今、非常に注目されている日本に拠点があるAIスタートアップである「Sakana.ai」が公開した「Evolutionary Model Merge」を使う話をします。 Evolutionary Model Merge 「Evolutionary Model Merge」は「Sakana.ai」から発表された進化的モデルマージと呼ばれる技術です。 端的に言ってしまえば、複数のモデルを利用して新し

                                                                                Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics
                                                                              • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                                                                前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                                                                  DWH改善に生かす! 入門elementary - yasuhisa's blog
                                                                                • How Google handles JavaScript throughout the indexing process – Vercel

                                                                                  Understanding how search engines crawl, render, and index web pages is crucial for optimizing sites for search engines. Over the years, as search engines like Google change their processes, it’s tough to keep track of what works and doesn’t—especially with client-side JavaScript. We’ve noticed that a number of old beliefs have stuck around and kept the community unsure about best practices for app

                                                                                    How Google handles JavaScript throughout the indexing process – Vercel