並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

Datasetの検索結果1 - 7 件 / 7件

  • 市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

    全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ

      市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
    • GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ

      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

        GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
      • Welcome

        The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im

          Welcome
        • 「LLM-jp Toxicity Dataset」の公開

          日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。 https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset 本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。 詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。 LLM-jp: A Cross-organizational Project for

          • GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.

            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

              GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
            • AnswerCarefully Dataset – RIKEN-AIP, LIAT

              新着情報 AnswerCarefully Dataset バージョン1.0を公開 (2024/4/30) 概要 日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。 データセットの特徴 5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。 このうち各サブカテゴリから3件ずつ、計183件をテストデータ、残り762件をを開発データとして2つのファイルに分け

              • 情報学研究データリポジトリ 日本の判例HTMLデータ

                国立情報学研究所が研究者提供データセットとして情報・システム研究機構 データサイエンス共同利用基盤施設 人工知能法学研究支援センターから受け入れたデータセットです。 2024/08/20 作成 データ概要 人工知能法学研究支援センターにて,最高裁判所が公開している判例集のPDFデータをテキスト化(HTML化)したデータセットです。 最高裁判所のサイトで検索可能な最高裁判所判例集,高等裁判所判例集,下級裁判所裁判例速報,行政事件裁判例集,労働事件裁判例集,知的財産裁判例集のPDFデータをテキスト化したもので,2024年1月11日時点で検索可能であった1947年~2023年までの65,198件の判例データからなります。 HTMLデータでは,本文内容に無関係な部分を除去し,小見出し,箇条書き,段落などの構造を認識して,それぞれに応じたタグを付与しています。(ただし各処理は自動処理をしたままのもの

                1