並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

Datasetの検索結果1 - 10 件 / 10件

  • 市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

    全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ

      市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
    • BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog

      はじめに 旧BigQuery構成と課題点 新GCP Project/BigQuery構成 承認済みビューの設定 結果 終わりに はじめに enechainのデータプラットフォームデスクで2年目エンジニアをしている菱沼です。 本記事では、社内ユーザに対する閲覧権限をBigQueryの承認済みビューを用いて改善した例をご紹介します。 事業規模の拡大に伴い、各種データへのアクセス権限整備の重要性が増し、BigQuery上のデータも厳密な権限管理が求められるようになりました。 今回は、我々が抱えていたBigQueryアーキテクチャの権限管理上の課題と、その課題に対する取り組みについて具体的にご紹介します。 ぜひ最後までお付き合いください! 旧BigQuery構成と課題点 データプラットフォームデスクで構築しているデータ基盤の1つに、 外部データソースから取得したデータを収集・蓄積するためのETLパ

        BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog
      • 1兆のテキストトークン・34億個の画像・PDF・ArXivの論文などを含むオープンソースのデータセット「MINT-1T」をSalesforceが公開

        クラウドコンピューティングサービスを提供するSalesforceのAI研究部門・Salesforce AI Researchが、1兆ものテキストトークンを含むオープンソースのマルチモーダルデータセット「MINT-1T」を公開しました。 GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset. https://github.com/mlfoundations/MINT-1T MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens https://blog.salesforceairesearch.com/mint-1t/ B

          1兆のテキストトークン・34億個の画像・PDF・ArXivの論文などを含むオープンソースのデータセット「MINT-1T」をSalesforceが公開
        • 【StableDiffusion】VRoidからつくる衣装LoRA制作メモ【データセット付き】|カズヤ弟@ゲーム実況&生成AI

          ■記事の対象ユーザ 1.SDXLのLoRAを作っている(=つよつよグラボを持っている) 2.衣装LoRAを作ってみたが上手く行かない 3.データセットとキャプションをどうしたら良いか判らない 1ヵ月近く服LoRA沼にハマる羽目になった■ようするに? 「え!?VRoid Studioの素材だけで衣装LoRAを!?」「できらぁ!!」 はじめにちょっと前に「コピー機学習法」による差分LoRA作りの記事で書いたことで 「おで、LoRA、すこしわかる」程度になった気でいたんだけど、調子に乗って同じ感覚で服LoRAにも挑戦したところ、勝手が違いすぎて全く上手くいかず結局1ヶ月くらい沼に浸かることになったんよ。 Khaulaちゃんは賢いねいつものコピー機学習法は変化前と変化後の2枚だけでLoRAを作る手法だから、データセットについてはあまり意識する必要がなかったんだけど、キャラクターLoRAとか服LoR

            【StableDiffusion】VRoidからつくる衣装LoRA制作メモ【データセット付き】|カズヤ弟@ゲーム実況&生成AI
          • 【AOAI】RAGパイプラインの構築から評価フェーズまでの実装を一挙解説!【Ragas】 | SIOS Tech. Lab

            こんにちは、サイオステクノロジーの佐藤 陽です。 今回もRAGの構築に関する記事を書いていきます! これまでも何本かRAGに関して書いてきましたが、 今回はそれらの集大成として、PDFを外部情報とするRAGを実装し、Ragasで評価するところまで、ソースコードと合わせて一挙ご紹介していこうと思います。 これを読めば、今日からRAGが構築ができるような記事になってます! ぜひ最後までご覧ください! はじめに 今回一番伝えたいことは、「評価を回しながらRAGの開発を進めてください!!」 という事です。 RAGというと、どうしても回答を出す部分に注目が行きがちですが、評価の方も非常に大切です。 生成AIを利用していることもあり、RAGの回答内容は不安定であるため、人間が評価するのが難しいことがよく言われています。 更にRAGを構築する要素の設計は多岐にわたります。 プロンプト変更 チャンキング戦

              【AOAI】RAGパイプラインの構築から評価フェーズまでの実装を一挙解説!【Ragas】 | SIOS Tech. Lab
            • 日本 市区町村マスター データセット - 日本 市区町村マスター データセット - レジストリカタログ

              アドレス(住所・所在地)・ベース・レジストリの市区町村マスターデータセットです。

              • Overture Maps Foundation Releases General Availability of its Open Maps Datasets – Overture Maps Foundation

                New data on 200 million+ addresses added in alpha release SAN FRANCISCO, Calif. —July, 24 2024 — The Overture Maps Foundation, a collaborative effort to enable current and next-generation interoperable open map services and products, today announced the General Availability (GA) of several of its global open maps datasets, paving the way for new and expanded use cases for a wide range of commercia

                • GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
                  • Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images

                    Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images Following up on the success of the Meta Segment Anything Model (SAM) for images, we’re releasing SAM 2, a unified model for real-time promptable object segmentation in images and videos that achieves state-of-the-art performance.In keeping with our approach to open science, we’re sharing the code and model

                      Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images
                    • TiDBの始め方

                      概要 対象者: データベースの技術に興味があるエンジニアや開発者 内容: オープンソースの分散SQLデータベース「TiDB」の特徴、HTAPの概念、実際の導入手順やチュートリアルの紹介 記事を読むとわかること: TiDBの基本的な特徴と利点、HTAPの概念、分散SQLデータベースの仕組み、実際の導入手順とチュートリアルの流れ 序章 みなさんTiDB(「たいディービィー)はご存知でしょうか? TiDBは何と言っても、ハイブリッドトランザクションおよび分析処理 (HTAP) ワークロードをサポートするオープンソースの分散 SQL データベースです。 今日はその導入の紹介をします。 HTAPについて 「ハイブリッド トランザクションおよび分析処理」を英語にすると Hybrid Transactional and Analytical Processingです。 この頭文字をとってHTAPと呼びま

                        TiDBの始め方
                      1