[B! database][データ] beth321のブックマーク

beth321 id:beth321

databaseとデータに関するbeth321のブックマーク (17)

258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
beth321 2017/03/07
database

あとで読む

データ

日本語

自然言語処理

言語

webサービス

corpus

nlp

機械学習
リンク
論理削除が云々について - mike-neckのブログ
今日朝イチで見たエントリーがこれでした。 qiita.com 論理削除の弊害は色々なところで言われているけど、僕の足りない頭で理解している所によると、二つの値しか持たない削除フラグ的なものはカーディナリティが云々で検索条件につけても性能上的にもよくないし、意味がないということです。論理削除を完全に悪だとは言いませんが、論理削除を極力排したい人たちは、基本的にデータそのものを削除する、もしくは論理削除というのはまだ要件的に未確定な要素が隠されていることを示すフラグであると考えているようです。僕がITの業界でキャリアをスタートしてから2年目くらいに配置されたプロジェクトではT字型ER手法というのをベースにしたテーブル設計をしていて、そこでかなり鍛えられたわけですが、その時にはだいたいこのような原則を叩きこまれました。テーブルに状態を持たせない究極には機械が認識するキーと、人間にとって意
beth321 2015/03/25
DB

設計

RDBMS

RDB

Modeling

データ

database
リンク
DELETE_FLAG を付ける前に確認したいこと。 - Qiita
DELETE_FLAG という思考停止フラグ DELETE_FLAG という boolean の列が DB 設計でよく話題になります。論理削除という言葉で上手に論理武装し、スキを見せるとすぐに入れたがる人がおり、一方でそれにつよく反対する人もいます。自分の経験としては、広義の論理削除はありえると思いますが、実現方法が DELETE_FLAG だとなった時、それはあまり考えてないでなんとなくパターンとして盛り込んでる場合が多いと感じます。ただし、設計に唯一の答えは無いので、もしかしたらそれが妥当な設計である場合があるかもしれません。今回は「DELETE フラグがなぜダメなのか？」などという話をするつもりも、アンチパターンだと断言するつもりもありません。問題は、仕様をきちんと把握すると、「最適な設計は DELETE_FLAG ではない」という場合が有って、その場合は、その最適な設計
beth321 2015/03/24
DB

データ

database

正規化

論理削除

設計

design

データベース

RDB

あとで読む
リンク
グラフデータベース
SNSの普及や相互依存性の高いデータの増加に伴い、従来型のリレーショナルデータモデルの処理効率の問題を解決するために登場し、近年使われるようになったのが、「グラフデータモデル」です。本書ではこのグラフデータモデルと、このモデルを使ったグラフデータベースについて、グラフデータベースの代表的な存在であるNeo4jを使って解説。Neo4jの中心的な開発者たちによる執筆のため信頼性が高く、また、実例も随所に織り込まれ実用性も高いものとなっています。内部アーキテクチャについてもていねいに書かれており、なぜリレーショナルデータモデルよりもグラフデータモデルの方がグラフ処理に適しているのかを理解できるでしょう。本書は、グラフデータモデルとグラフデータベースの特徴と使い方をまとめた優れた入門書です。序まえがき 1章　はじめに 1.1　グラフとは何か 1.2　グラフ領域の概要 1.2.1　グラフデータベ
beth321 2015/03/12
japan

本

book

o'reilly

books

database

あとで読む

グラフ

データ
リンク
第7回　大規模データ処理におけるCPUとI/Oのバランスをどう考えるか | gihyo.jp
3大ボトルネックを解消すれば終わり、ではないこれまでの連載では、ディスクI/O、CPU、ネットワークI/Oの3つの観点で、大規模データを処理するときのボトルネックの傾向と改善点について説明しました。それらの改善策をすべてを実施すれば、もう何も心配する必要はないのでしょうか？残念ながら、よかれと思って実施したチューニングがほかの箇所に影響を与える可能性があります。最終回となる今回は、その具体例を見ていきましょう。データを圧縮した場合、CPUボトルネックが生じやすくなる大規模データを扱うときは、データの総量を小さくしてストレージ装置のコストを削減するため、圧縮機能の利用を検討することが多いです。データを圧縮する場合、RDBMSの機能を利用するのが一般的です。たとえばOracle Databaseには、以下のように何種類かの圧縮機能があります。標準圧縮機能 OLTP圧縮機能（Adva
beth321 2015/01/27
チューニング

datamining

database

performance

サーバ

あとで読む

cpu

bigdata

gihyo

データ
リンク
fake2db - 各種データベースに対応したダミーデータジェネレータ MOONGIFT
システム開発を行っているときにダミーのデータが欲しくなることは多々あります。そんな時に本番データをコピーして使うのは大きな問題につながる可能性があるので決してしてはいけません。電話番号やメールアドレスなどを置き換える作業が逆に手間になる場合もあります。そこで使ってみたいのがダミーデータのジェネレータです。今回はPython製のfake2dbを紹介します。 fake2dbの使い方 fake2dbはSQLite、PostgreSQL、MySQLそしてMongo DBに対応しています。インストールはpipでできます。 pip install fake2db インストールしたらfake2dbコマンドでデータベースに直接データを流し込めます。 fake2db --rows 200 --db sqlite # SQLiteの場合 fake2db --rows 1500 --db postgresql
beth321 2015/01/10
あとで読む

*Dev

DB

Python

sqlite

データ

database

programming

*あとで見る
リンク
ScaleOut | Supership
2024年4月1日より、Supership株式会社は親会社であるSupershipホールディングス株式会社に吸収合併されました。合併に伴い、存続会社であるSupershipホールディングスは社名をSupershipに変更し、新たな経営体制を発足しました。本件に関する詳細は、プレスリリースをご確認ください。 2024年4月1日より、Supership株式会社は親会社であるSupershipホールディングス株式会社に吸収合併されました。合併に伴い、存続会社であるSupershipホールディングスは社名をSupershipに変更し、新たな経営体制を発足しました。本件に関する詳細は、プレスリリースをご確認ください。
beth321 2014/08/16
SQL

*データアナリティクス

データ

ツール

web

ディレクション

db

解析

database

excel
リンク
近代日本人の肖像 | 国立国会図書館
令和6年3月27日 26名の人物を追加しました。令和5年11月14日 37名の人物と、ピックアップ「幕末・明治初期の商社誕生に関わった人々」「明治の公衆衛生に尽力した人々」を追加しました。令和5年7月25日 64名の人物と、ピックアップ「関東大震災後、帝都復興に関わった人々」「黎明期の政党を担った人々」他2件を追加しました。令和5年3月14日 98名の人物と、ピックアップ「兄弟姉妹で活躍した人たち」「自筆の原稿が見られる文学者」他5件を追加しました。令和4年12月9日 32名の人物と、ピックアップ「世界を見たサムライ達」を追加しました。令和4年6月9日 29名の人物と、ピックアップ「明治期の女性教育者」「産業の発展を支えた貢進生」を追加しました。令和4年2月24日 19名の人物を追加しました。令和4年2月16日 155名の人物と1,100点以上の肖像を追加し、サイトをリニュー
beth321 2014/07/11
歴史

history

database

画像

データ

フォト

近代

person

趣味

photo
リンク
東寺百合文書WEB – 京都府立京都学・歴彩館が所蔵している国宝・東寺百合文書（とうじひゃくごうもんじょ）を紹介しています。
東寺百合文書WEBでは、人名や地名など、文書の検索に利用するデータの多くを「東寺文書検索システム」（東寺文書データベース作成委員会が文部省・日本学術振興会平成7-12年度科学研究費補助金［研究成果公開促進費］の交付を受けて作成・頒布、2001年）からいただいて使用しています。
beth321 2014/03/03
史料

database

歴史

webサービス

文献

古文書

京都府立総合資料館

manuscripts

データ
リンク
約1600万人のメタボ健診データを生かせず　入力時に全角/半角が混在し、突合不能に
厚生労働省が研究目的で構築した「ナショナルデータベース（NDB）」で、約1600万人分のメタボ健診のデータが、レセプトのデータとひも付けできないことが判明。当初想定した医療費削減のための研究に、十分に生かせない状況に陥っている。理由はデータ入力時に「全角」と「半角」が混在していたことだ。厚労省は2014年3月までにシステム改修を含めた改善策をまとめる。
beth321 2014/02/17
Trouble

IT

これはひどい

厚労省

medical

データ

ネタ

database

program
リンク
リレーショナルモデルのドメイン設計についての議論
リレーショナルモデルを実践するには、ドメイン（≒データ型）を如何に正しく設計するかということが極めて重要になる。しかしながら、ドメインをどう設計すべきかという議論はあまりされていないように思う。その結果、ドメインについての理解はあまり進まず、データベース設計に失敗しているパターンが多いように思われる。というわけで今日のテーマはドメインである。集合を定義するリレーショナルモデルにおけるデータ型とは何か。リレーショナルモデルを実践するにはまずその点から理解する必要がある。リレーショナルモデルでは、データ型はドメインと呼ばれる。ドメインとは、その属性（≒カラム）に入るべき値はどういったものかを集合として定義したものだ。言い換えると、属性値とはある集合の要素の一つであると言える。従って、ドメインを設計する際には、SQLで言うところのデータ型、つまりINTやCHARといったものだけでなく、その
beth321 2013/12/09
DB

データベース

Database

設計

ドメイン

SQL

design

MySQL

database design

データ
リンク
ハードディスクの寿命傾向がストレージ会社が集めたデータから明らかに
By Kevin Collins 仕事やプライベートにもコンピューターが深く入り込んできて、多くのデータや情報がパソコンのハードディスクに保存されている人も多いはず。しかし、そんなハードディスクにトラブルが発生し、中のデータが失われてしまったら……。機械である限り、間違いなくいつかは故障するハードディスクですが、そんなハードディスクの寿命について、興味深いデータが発表されています。 Backblaze Blog » How long do disk drives last? http://blog.backblaze.com/2013/11/12/how-long-do-disk-drives-last/ このデータを発表したのは、アメリカでオンラインバックアップとデータバックアップのソフトウェアを開発するBackblaze社です。これまでの5年にわたるサービスから取得されたデータを分析し
beth321 2013/11/15
hdd

ストレージ

PC

GIGAZINE

ハードウェア

Storage

データ

PCパーツ

database

統計
リンク
ScaleOut | Supership
2024年4月1日より、Supership株式会社は親会社であるSupershipホールディングス株式会社に吸収合併されました。合併に伴い、存続会社であるSupershipホールディングスは社名をSupershipに変更し、新たな経営体制を発足しました。本件に関する詳細は、プレスリリースをご確認ください。 2024年4月1日より、Supership株式会社は親会社であるSupershipホールディングス株式会社に吸収合併されました。合併に伴い、存続会社であるSupershipホールディングスは社名をSupershipに変更し、新たな経営体制を発足しました。本件に関する詳細は、プレスリリースをご確認ください。
beth321 2013/06/19
javascript

jQuery

nanapi

library

ライブラリ

js

プラグイン

plugin

jQueryプラグイン

webデザイン
リンク
ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ
beth321 2013/06/16
ニコニコ動画

ニコニコ動画

Tech

*ウェブ

database

データ

統計

*資料

*科学

data
リンク
指定した形式で大量のダミーデータを生成してくれる『Generate test data for your database』 | 100SHIKI
よくあるツールではあるが、Bootstrapで今風ぽかったのでご紹介。 Generate test data for your databaseを使えば、ウェブサービスなんかを作るときのためのダミーデータを大量に生成してくれる。それっぽいデータがあらかじめ用意されているのがポイントで、ちゃちゃっと必要なデータを揃えることができるだろう。また出力形式もJSON、CSV、XMLと用意されているので自前で変換する必要もない。ちょっとしたお役立ちツールではあるが、知っておいても損はないですな。
beth321 2013/04/02
*あとで読む

webサービス

ツール

テスト

プログラミング

database

test

仕事

データ

ダミーデータ
リンク
業務ロジックをデータモデリングはどこまで表現できるか？ - プログラマの思索
「業務ロジックをデータモデリングはどこまで表現できるか？」について考えたことをラフなメモ書き。業務システムでは、データが命。データには個人情報が含まれるために管理が重要だったり、売上データやPVデータから、どの層の顧客から売上やアクセスが多いのか、を計測することもできる。すると、それらデータを格納するRDBが必要になり、そのテーブル設計が重要になってくる。顧客の業務プロセスをモデリングする場合、最近ならOOAが主流。でも、DOAの方が現代は重要性を増していると考えている。例えば、Railsのような優れたWebフレームワークがあれば、ER図さえきちんと作れば、DBマイグレーションとプログラム雛形を自動生成することによって、テーブルのCRUDのような画面はすぐに作れてしまうからだ。日本におけるデータモデリングの歴史は意外に古い。 TH法、T字型ER、渡辺さんのXEAD Model
beth321 2012/11/05
db

データベース

モデリング

architecture

database

技術

development

doa

programming

データ
リンク
博報堂「生活定点」データ20年分を無料公開
博報堂は9月27日、シンクタンク「博報堂生活総合研究所」が20年間にわたって実施してきた生活者意識の定点観測調査「生活定点」のデータを無料で一般公開した。生活総研のWebサイトで、データを収録したExcelファイルと、質問票のPDFファイルをダウンロードできる。ユーザー登録なども不要だ。同調査は1992年から20年間にわたって隔年で実施。同じ地域（首都圏・阪神圏）、同じ対象者設定（20～69歳の男女）に向けて同じ質問を継続して問い、回答を時系列で観測している。衣、食、住、健康、遊び、学び、働き、家族、恋愛・結婚、消費、情報、メディア接触、社会意識、国際化と日本、地球環境など、生活者に関するさまざまな領域を網羅。項目は約1500におよぶ。「長年にわたって蓄積してきた独自の生活者研究の資産を、これからは“社会全体の資産”にしていきたい」と無料公開を決めたという。研究者やマーケッターのほか
beth321 2012/09/28
ニュース

*あとで読む

マーケティング

資料

統計

社会

database

web

データ

メディア
リンク
1