タグ

関連タグで絞り込む (528)

タグの絞り込みを解除

データに関するfukudamasa09のブックマーク (204)

  • Why data matters

    Hey—we've moved. Visit The Keyword for all the latest news and stories from Google

    Why data matters
  • Jリーグ:Jリーグニュース

    Jリーグアカデミーでは現在、育成センターが具体的な 活動テーマを選定すべく、共有するテーマの確認、 子供を育成していく環境の現状調査、 地域性の情報、欧州との比較データなどを収集している。 今回のJリーグニュースでは、その中で早急に検証する必要がある 「サッカー選手の誕生月」をテーマに報告する。 1970年ヨーロッパの国々で、誕生月による選手数分布の偏りが問題として取り上げられた(ヨーロッパの場合は、学校始業月となる8月生まれをピークに徐々に選手数が少なくなっていく傾向)。ヨーロッパサッカー連盟(UEFA)は、73年から、1月生まれからの登録システムを導入、また年間を通じた大会で選手を発掘できるような試合方式や練習のグループ分け、技術・戦術に主眼をおいたトレーニング方法などを導入し、その偏りを改善した。現在、UEFA16カ国のナショナルチームの選手誕生月別のデータはグラフ1の通り

  • Google Refineの使い方 - KazusaWiki

    Google Refineとは Metaweb社のFreebase Gridworksをベースに開発されたデータセットのクリーニング、解析、変換を行なうことができるオープンソースソフトウェアです。 インストールの方法 Google Refineは、インストールして自分のコンピュータ上で実行するデスクトップアプリケーションです。しかしながら、多くの他のデスクトップアプリケーションとは異なり、それが自分のコンピュータに小規模なWebサーバーとして実行され、Webブラウザ上でRefineに使用することができます。 ここからGoogle Refineをダウンロード MacOSX, Windows, LinuxのそれぞれのOSの指示に従ってインストール http://127.0.0.1:3333/にアクセス 開発版 開発版についてはこちらを参照 Google Refineはデータをクリーンナッ

  • Google Refineは神ツールである | wrong, rogue and log

    Google Refine 2.0 http://code.google.com/p/google-refine/ Googleのデータクレンジングツール。ローカルwebサーバーで動作するアプリである。なぜローカルで動作するwebサーバにしているかというと、それには理由があるのだ。ほんと、ビックリ。 公開しているデータはタイトルやデータ形式がマチマチで、それを自分のところで統計解析するには、データレンジングをかなりやらなければいけなかった。そのためには、いままでgrepだとかfindだとかのコマンドやPythonスクリプトで半狂乱になって汚れ落としをしていたけれど、このGoogle Refineを使うとそういう問題がアホみたいに簡単に解決する。 例えば、カテゴリカルデータがセルに割り当てられているとする。記入者によってそれが略語だったりフルの名称だったりマチマチである。これを全て一つの文字

    Google Refineは神ツールである | wrong, rogue and log
  • 最終話 役立つ検定3大トリオ、t・F・χ二乗

    こんにちわー、ミクでーす。 あっというまにやってきました最終回。 長かったような、短かったような、フクザツな気持ちです。 いままでずっと、なんでだろう、どうしてだろう、って気持ちを大切にしてきたけど、 それだけじゃなくって、最後にちょっぴり役に立つこと歌っちゃうね。 それでは、最後の歌になりまーす、Music,ON! よく使う 検定は 3つある t検定 F検定 カイ二乗    ※ ほんとに平均同じかな 確かめるのがT分布 自由度大きくなったなら 正規分布に近づくの ※くりかえし※ 2つのグループ比べたら ばらつきほんとに同じかな 分散の比にはF分布 t検前にも使ってね ※くりかえし※ クロス集計作ったら 関係あるのか独立か 検定するのはカイ二乗 クラメール係数調べましょ ※くりかえし※ いろんなデータで一番気になるのは、けっきょく「みんなと同じかどうか」ってとこだよね。 今日は理論より実践

  • 統計解析ソフトウェア – データ分析- 統計解析 – シックスシグマ - 実験計画

    統計ソフトウェアで、インサイト主導型の改善を実現 百聞は一見にしかず JMPは、インタラクティブな可視化機能、そして強力な統計機能を兼ね備えたソフトウェアです。

    統計解析ソフトウェア – データ分析- 統計解析 – シックスシグマ - 実験計画
  • アイアナリシス合同会社

    弊社は2011年の設立から10年以上、さまざまな企業に対してデータ活用で経営を成長させてきました。大手通信会社では数十億円から数百億円の施策にデータを活用し、 大手金融会社では毎年20億円〜30億円の不正検知が可能になるロジック改善を行いました。弊社の強みは、企業のビジネスモデルや特性に合うようにカスタマイズしたデータサイエンスやAIを届け、企業の利益を最大化することです。 弊社は現在、代表の倉橋一成がコンサルタントを務めており、データを経営に活かして利益を上げたいと考えられている企業様、もしくはそのような企業様とマッチングして頂ける営業パートナー様を募集しております。 ホームページ下部にあるお問い合わせ先にご連絡ください。 アイアナリシス合同会社は、データサイエンスやAIを活用した事業拡大や データ駆動経営・DXの経営層を支援しています。 2011年に設立して3年で23業種44社にサービ

    アイアナリシス合同会社
  • (公財)統計情報研究開発センター

    公益財団法人 統計情報研究開発センター ( シンフォニカ ) では、統計情報がインフラとして有効に活用されるために行う統計情報の利活用技術に関する調査・研究・開発等、統計に関する知識の普及・啓発等、統計環境の整備・充実等及び統計に関する国際貢献等に関する事業を行っています。

    (公財)統計情報研究開発センター
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • BLOG::broomie.net: Classificationにおけるデータセット

    こんばんわ、shunyaです。 突然なのですが、よく分類器などを実装して、その精度をチェックするためにコーパスが必要になることってよくありますよね。 そこで、よく論文などで評価で使われているデータセットを使おうと考える訳ですが、そうゆう時に限ってデータセットの名前が出てこなかったりします。 あと、いつも同じデータセットだとあんまり面白みもかけてきちゃったりして、よーし自分で作っちゃおうぞー!ってなってがんばってクローラーを書いたりして、ウェブコーパスを作ったりしようとするんですが、だいたい途中で飽きちゃったりするんですよね。 さて、前置きが長くなりましたが、machine learningの評価で使われるデータセットがまとめてあるページを見つけたので紹介させていただきます。 UCI Machine Learning Repository: Data Sets ぱぱーっと見た感じで、すごい

    fukudamasa09
    fukudamasa09 2011/11/25
    [データフレーム[データセット]]
  • 平均と標準偏差

    ある集団についてのデータがどのように分布しているかを表すものとして、その集団の代表値★(中心の値)を示す平均値及びそのばらつき具合を示す散布度がある。平均には算術平均が、散布度には標準偏差がよく用いられている。 1.度数分布表・ヒストグラム データがどのように分布しているかその実態を把握するには、データをその大きさによりいくつかの階級に区分し、その階級ごとの個数 (度数) をカウントして表にした度数分布表、あるいは、それを棒グラフにして表わしたヒストグラムが適している (表1、図1) 。 例えば、年齢別人口や従業者規模別事業所数など多くの統計表は度数分布表の形で作成され、また、年齢別人口をヒストグラムにした人口ピラミッドは人口構造の分析等によく用いられている。 2.平均値★ 一般に平均値には、単純平均 が多く使われている。平均値は通常μ(ミュー) と表示される。 3.標準偏差

  • Rプログラム (TAKENAKA's Web Page)

    R でプログラミング:データの一括処理とグラフ描き started on 2005-06-06 updated on 2017-09-16 竹中明夫 この文書は,フリーの統計解析・作図システム R を使って, データの一括処理と図化のプログラムを書けるようになるためのチュートリアルです. R の経験がまったくなくても読めるように書いています. ただし統計解析手法そのものについての解説はほとんどしていません. ひとつ覚えた統計解析用の関数を使って、 数十セットのデータを一度に処理しりたいとか、 ついでに自動的に作図してしまいたいとか、 統計解析の前にデータを一通りグラフにして全体像を見たいとか、 解析・作図の手順をプログラムとして書きとめ、 再利用できるようにしたいといった要望に応えるための文書です。 まずは はじめに:この文書のねらい をごらんください。 終りにでも、この文書の守備範囲に触

  • 基礎統計学講座 @ ウィキ - 「Rへのデータの取り込み」は見つかりません

  • Rプログラム (TAKENAKA's Web Page)

    この文書の最終的な目標は,いくつものデータセットを一括処理するためのプログラムを 書くことですが,そのまえに,ひとつのデータファイルを読み込んでの処理を ごくごく簡単に練習してみます. 練習用ディレクトリとデータファイルの用意 すでに前のページの練習のためにディレクトリは作ってあるかもしれません. それならそれを使いましょう.まだ作ってないなら,さっそく用意してください. 名前はなんでもけっこうです. そのディレクトリの中に,最初に使う練習用データ len_width.txt を入れます. >データファイル len_width.txt クリックするとそのまま内容が表示される場合,全体をコピーしてから エディタの新規文書に貼りつけるとか,「対象をファイルに保存」「リンク先を保存」 (ブラウザによる)というようなメニュー項目を選ぶとかしてみてください. このファイルに,以下のように3列のデータ

  • 44. データの加工と抽出 - R-Source

    論理ベクトルが TRUE となっている行にのみアクセスする.例えば x[sapply(x, is.numeric)] ならば数値データにのみアクセスする.

  • Rのデータフレームと行列

    Rでは見かけ上は同じ形式でも「データフレーム」と「行列」とに区別されていますが、これらの違いを把握しておかないと思わぬ落とし穴に落ちてしまうことがあります。 > data(iris) > (x.data.frame <- iris[1:5, 1:4]) #これはデータフレーム Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.9 3.0 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5.0 3.6 1.4 0.2 > (x.matrix <- as.matrix(iris[1:5, 1:4])) #これは行列 Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.

  • R-Source

    データフレームとは データフレームとは data.frame クラスを持つリストのことであり,数値ベクトルや文字ベクトル,因子ベクトル(文字型ベクトル)などの異なる型のデータをまとめて1 つの変数として持っている.外見は行列と同じ 2 次元配列であるが,データフレームの各行・列はラベルを必ず持ち,ラベルによる操作が可能である点が普通の行列と異なる.しかも各列の要素の型はバラバラでも構わないので,ベクトルやリストで持っているデータをデータフレームに変換することで統計解析がやりやすくなる. 数値ベクトルと因子はそのままの状態で含まれ,非数値ベクトルは因子に強制変換される.データフレームに変数として現れるベクトル構造は全て同じ「長さ」を,行列構造は同じ「行サイズ」を持たなければならない. データフレームの作成例 データフレームを作成する方法は以下のような方法がある. ベクトル(や行列,リストなど

  • データフレームTips大全 - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですデータフレーム Tips 大全 R の多くの関数はデータフレームと呼ばれるオブジェクトを対象とする.データフレームは、同じ長さの複数の数値ベクトル,文字ベクトル等を成分とする、data.frame クラス属性を持つオブジェクト(実体はリスト)であるが,そのものとしては行列のような外見を持つ.各行・列はラベルを必ず持ち,それを用いた添字操作が可能である.データフレームの各行は一組の観測値(case)を表現する。データフレームの各列は一つの変数(項目)を表現する。 データフレームの成分をその成分名で参照できるようにする attach と with (2004.2.5) † attach 関数はデータフレームの成分を現在の環境中に登録する。dettach は逆に抹消する。 > data(swiss

  • 夏の異常気象をオープン・データで確認

    観測地点を選び、データの属性を選択すれば、ドリルダウン形式で気象データを表示できます。以下では紙幅の都合上、東京だけを考察対象とし、1日24時間の平均気温を取った月別のデータである「観測開始からの月ごとの値」を利用することにしましょう。その条件の日平均気温データは1876年から現在までの値を表示することができます。 ただし、残念なことに、これは気象庁のサイトではHTMLとして表示されているだけで、このままでは再利用が大変です。こういうときは、表計算ソフトを使ってテーブル部分をコピー&ペーストでデータとして再利用できる形にする方法が一番早いと思います。こうした作業には、一番副作用が少ない表計算ソフトである、OpenOfficeの表計算アプリケーションを利用するとうまくいくことが多いです。それでは、表の部分だけを選択し、OpenOfficeの新しいスプレットシートにコピー&ペーストで持っていく

    夏の異常気象をオープン・データで確認
  • http://databox.openlabs.go.jp/