タグ

データ解析に関するfukudamasa09のブックマーク (17)

  • Kaggle事始め - Qiita

    はじめに データ解析の情強な方なら、Kaggle はご存じだと思います。データ解析のSkillを競うCompetitionサイトで、与えられたテーマ(Dataset)に対して、世界中のデータ解析有識者が様々なデータ解析手法を駆使してより高い正答率(Score)を競い合う場所です。 が、Kaggleそのものは知っていても、どうやればKaggleに実際に参加できてランキングに加われるのかは知らない、と言う方は多いと思います。この記事では、とりあえずKaggleの何らかのCompetitionに参加して、解析結果をSubmitして、(その時点の)順位/Scoreを確認するまでの操作手順/流れをチラ裏したいと思います。 KaggleのWeb pageは色々な情報/Linkが詰まっているので、ぱっと見取っ付きにくいかもしれませんが、ポイントをつかめば参加してScoreを付けて貰う所まではとても簡単で

    Kaggle事始め - Qiita
  • 「統計モデリングとは何なのか」をいま一度整理してみる - 渋谷駅前で働くデータサイエンティストのブログ

    もうタイトルを読んで字の如しなんですが、要は「統計モデリングってぶっちゃけ何なのよ?」という問題意識が最近非常に局所的ながら影響力の大きいところ*1から出てきておりまして。 で、僕もその議論にマターリ参加しながら「このもやもやしたものをどうやったらうまく表現できるかなー」と思っていて、何日かして自分なりにちょっと整理がついた気がするので、自分向けの備忘録も兼ねてちょっとブログにまとめてみることにしました。ちなみに@berobero11さんは既にこの議論についてまとめていらっしゃるようで。 あてはめの原理・あてはめを実装する計算法・モデル そうそう、今回もお題はこちらの久保先生の緑です。というかここから議論が始まったわけで。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 20

    「統計モデリングとは何なのか」をいま一度整理してみる - 渋谷駅前で働くデータサイエンティストのブログ
  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
  • Rから利用するオープンデータAPI

    2. Linked Open Data • Web上で利用可能な,オープンなグラフデータベース • オープンデータの主要なデータモデルの1つ Wikipedia語版 DBpedia Japanese クエリ結果の可視化例 LOD化 クエリ実行 3. SPARQL • LODデータセットに対するクエリ言語 • W3C標準のAPI(エンドポイントと呼ぶ) PREFIX dbpja: <http://ja.dbpedia.org/property/> PREFIX dcterms: <http://purl.org/dc/terms/> select distinct ?movie ?director ?actor // 映画名,監督名,出演者名を取得 where { ?m dcterms:subject <http://ja.dbpedia.org/resource/Category:日

    Rから利用するオープンデータAPI
  • 非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。

    こんにちは。海原です。 ここ最近、統計学が流行していますね。「統計学が最強の学問である」がきっかけになっているのでしょうか。数年前に比べてマーケティングが重要視される今日、統計の需要が増えたのかもしれません。私はまだこのを読んでいませんが、読もうと思った矢先にたまたま統計ツールRに出会いまして、調べながら少しいじってみました。Rを使った感触から申し上げますと、SQLを叩いて好きなデータをピックアップするよりもずっと簡単で小気味良いのです。 他の統計ツールには色々な種類があるようですが、よく知られるものとしてIBMのSPSS (IBM)(有償)があります。 その点、RはMac/Win両方に対応しており無償です。またSPSSに劣らない機能を備えており、統計学者の間でデファクトスタンダードとなっているようです。 Rに関して検索すれば丁寧な解説サイトがたくさんありますので、インストールから何の心

    非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • データマイニングの宝箱

    データマイニングで用いられる知識発見技術は、バスケット分析・決定木・ニューラルネットワークなど多くの手法があります。だからといって全部を同時に利用することは考えられません。解析手法はそれぞれの役割があり、その目的に合わせて使い分けなければなりません。 それぞれの役割があると書きましたが、大きくわけると2つのタイプがあると思います。「データから質を探る」タイプと「データから未知の現象を予測する」タイプです。 この章では、「データの洗浄」から「知識発見の方法」を交えて知識発見を考えてみます。

  • 321知識発見の技術

    もちろん手法はさらに細分化できます。 例えばクラスター分析ひとつとっても、クラスター形成方法(最遠隣法等)や距離関数(ユークリッド距離等)などを選択していく必要がありますし、ビジュアリゼーション(可視化)なんかは、現在でも活発に考案(例えば3次元空間に10次元のグラフを記述)されています。 利用者が明確な目的もなく「データマイニングやってみたい。」と考えると解析に際して,解析者(解析ツール)の専門範囲で知識発見手法を試みるでしょう。 もっともらしい論理と視覚的な結果をつけて「これはデータマイニングじゃないとわからなかったことだ」と主張します。確かにそうなのですが、戦略としてアクションに結び付け、その成果が問われる利用者にとって、果たして来の目的を満たすものとなるでしょうか? 知識発見の方法は多数あります。解析者が最適な解析手法を選択している保証はありません(ましてや市販されている

  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • インターリュード: TwitterとR

    今回はTwitterという身近な題材を使って、Rによるデータ収集と可視化をやってみます。Rの豊富なライブラリを使えば意外に手軽にできます。 今回は間奏的にIT寄りの話題を この連載は@ITの連載でもかなり毛色の違う内容です。それにもかかわらず前回までの4回は、統計的検定をいきなり導入したり、日政府や世界銀行の経済統計にアクセスしてみたり、さらにはWikiLeaksの暴露データを統計解析してみたりと、かなりハードコアな内容に走ってしまいました。 第4回の「あとがき」では同じ路線で突っ走ろうということを申し上げていたのですが、今回は間奏(インタリュード)として、より@ITらしく、IT寄りの話題を取り上げたいと思います。 TwitterとR Twitterの人気は世界的にまだまだ続いているようです。2010年8月後半に発表された2010年6月分の統計によれば、現在はインドネシアやブラジル、ベネ

    インターリュード: TwitterとR
  • アイアナリシス合同会社

    弊社は2011年の設立から10年以上、さまざまな企業に対してデータ活用で経営を成長させてきました。大手通信会社では数十億円から数百億円の施策にデータを活用し、 大手金融会社では毎年20億円〜30億円の不正検知が可能になるロジック改善を行いました。弊社の強みは、企業のビジネスモデルや特性に合うようにカスタマイズしたデータサイエンスやAIを届け、企業の利益を最大化することです。 弊社は現在、代表の倉橋一成がコンサルタントを務めており、データを経営に活かして利益を上げたいと考えられている企業様、もしくはそのような企業様とマッチングして頂ける営業パートナー様を募集しております。 ホームページ下部にあるお問い合わせ先にご連絡ください。 アイアナリシス合同会社は、データサイエンスやAIを活用した事業拡大や データ駆動経営・DXの経営層を支援しています。 2011年に設立して3年で23業種44社にサービ

    アイアナリシス合同会社
  • Gephi, オープンソースのグラフ可視化・操作ソフトウェア

    Gephi が再び Google Summer of Code (GSoC 2011) に認定されました! Google Summer of Code は、世界各地の学生がオープンソースプロジェクトに貢献することができるたいへん優れたプログラムです。詳細はこちら » 応用例 探索的データ解析: リアルタイムでのネットワーク操作による直感的分析。 リンク解析: 特にスケールフリーネットワークにおけるオブジェクト間関係の根構造の明確化。 ソーシャルネットワーク分析: さまざまなコミュニティ組織やスモールワールドネットワークをマップ化できるソーシャルデータコネクタを簡単に作成可能。 生物学的ネットワーク解析: 生物学的データのパターンを表現。 ポスター制作: 高解像度の印刷可能グラフで学術研究成果をプロモート。 詳細はこちら » 各種のメトリクスを用意 中心性 (Centrality): 社会

  • 統計学

    統計学     Last modified: Feb 16, 2004 ★ データ処理サービス ★ 統計学を自習する人のために ★ 統計学に関するリンク ★ 統計学関連…何でも掲示板 データ処理サービス データ解析 コンピュータ上のデータをアップロードして,統計解析し,結果をダウンロードできる。 ヒストグラム,散布図,基礎統計量,相関係数行列,クロス集計,一元配置分散分析,重回帰分析,判別分析,主成分分析,因子分析,クラスター分析,数量化 I 類,数量化 II 類,数量化 III 類,数量化 IV 類 正確確率検定 Fisher's exact test, Mann-Whitney's U test, Kruskal-Walis test, Test of goodness of fitness, Measures of association 統計地図の描画 統計データに基づき,全国(都

  • 知財ファイナンス・モデリング

    大学院のゼミでPRMLを読んでいる。私の担当は13章「系列データ」の後半の「状態空間モデル」(SSM: State Space Model)である。13章の前半は「隠れマルコフモデル」(HMM: Hidden Markov Model)について記述されている。SSMは日のお家芸であり、統計数理研究所の先代所長の北川先生や現所長の樋口先生により発展した。ところが、SSMの離散バージョンだと言われているHMMはなぜかあまり日ではクローズアップされていない。PRMLはHMM→SSMの順番で記述されているので、丁度良い機会だからついでにHMMについて勉強しようと思ってこのブログをアップした。 とりあえず、はじめからアルゴリズムを実装するのは私の実力では厳しいので、Rのパッケージで遊んでみよう思ってあれこれ探したところ、{RHmm}というパッケージが見つかった。このパッケージについてはいくつかの

    知財ファイナンス・モデリング
  • リンク集 - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですModels for Ecological Data: An Introduction, Clark, J. S. (著), Princeton Univ Pr, ISBN-10: 0691121788, ISBN-13: 978-0691121789, 2007. サポートページ. 日語の紹介 RとS-PLUSによる多変量解析 ,B. エヴェリット 編著, 石田 基広・石田 和枝・掛井 秀一 共訳, シュプリンガー・ジャパン,ISBN-10: 4431713123/ISBN-13: 978-4431713128, 2007。 RとBioconductorを用いたバイオインフォマティクス R. ジェントルマン・V.J. カリー・W. フーバー・R.A. イリザリー・S. ドュドイト 共編,

  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
  • Rゼミ/R初心者ゼミ - 引越作業中

    このゼミでは、Rのまったくの初心者が、ある程度Rを使ってデータを見ることができるようになることを目的とします。 このページでは、データを取った後に研究者が行うと思われる手順をRで実行する方法について解説します。より詳細な技術については、以下のページをご覧下さい。

    Rゼミ/R初心者ゼミ - 引越作業中
  • 1