Datasetの人気記事 7件 - はてなブックマーク

1 - 7 件 / 7件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果1 - 7 件 / 7件

市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
- 609 users
- www.m3tech.blog
- テクノロジー
- 2024/07/30
全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1（製薬プロモーション）およびUnit9（治験臨床研究支援）のエンジニアです。今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。ほしいのはこんな感じのデ
- データ
- あとで読む
- db
- 住所
- セキュリティ
- webサービス
- security
- 開発
- 行政
- 資料
GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
- 61 users
- github.com/japan-opendata
- テクノロジー
- 2024/02/27
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- オープンデータ
- github
- 情報
- 資料
- API
- あとで読む
- 日本
Welcome
- 21 users
- www.floridamuseum.ufl.edu
- 学び
- 2024/03/13
The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im
- database
- データ
- dataset
- アイデア
- 生物
- 科学
「LLM-jp Toxicity Dataset」の公開
- 12 users
- llm-jp.nii.ac.jp
- テクノロジー
- 2024/08/07
日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。 https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset 本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。 LLM-jp: A Cross-organizational Project for
- dataset
GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
- 8 users
- github.com/mlfoundations
- テクノロジー
- 2024/07/25
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- dataset
- data
AnswerCarefully Dataset – RIKEN-AIP, LIAT
- 4 users
- liat-aip.sakura.ne.jp
- テクノロジー
- 2024/05/22
新着情報 AnswerCarefully Dataset バージョン1.0を公開　(2024/4/30) 概要日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセットの包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。データセットの特徴５つのリスクタイプ（大分類）、12の有害カテゴリ（中分類）、61のサブカテゴリ（小分類）をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。このうち各サブカテゴリから３件ずつ、計183件をテストデータ、残り762件をを開発データとして２つのファイルに分け
情報学研究データリポジトリ日本の判例HTMLデータ
- 3 users
- www.nii.ac.jp
- テクノロジー
- 2024/08/21
国立情報学研究所が研究者提供データセットとして情報・システム研究機構データサイエンス共同利用基盤施設人工知能法学研究支援センターから受け入れたデータセットです。 2024/08/20 作成データ概要人工知能法学研究支援センターにて，最高裁判所が公開している判例集のPDFデータをテキスト化（HTML化）したデータセットです。最高裁判所のサイトで検索可能な最高裁判所判例集，高等裁判所判例集，下級裁判所裁判例速報，行政事件裁判例集，労働事件裁判例集，知的財産裁判例集のPDFデータをテキスト化したもので，2024年1月11日時点で検索可能であった1947年～2023年までの65,198件の判例データからなります。 HTMLデータでは，本文内容に無関係な部分を除去し，小見出し，箇条書き，段落などの構造を認識して，それぞれに応じたタグを付与しています。（ただし各処理は自動処理をしたままのもの