タグ

データに関するdamedomのブックマーク (11)

  • 手元に置いておくと安心できる、情報系の人向けな日本語の本のリスト - EchizenBlog-Zwei

    最近、人にを薦める事が多くなった。とりあえずこの辺を読むといいですよ的なリストを作っておくと便利だと思ったので作ることにした。 以下、「事前知識のいらない入門」「事前知識はいらないけど格的な」「事前知識がないと何言ってるかわからないけど有益な情報が満載な」の3つにわけて列挙する。 事前知識のいらない入門 数式少なめ、脳負荷の小さめなをいくつか。何をやるにしてもデータ構造、アルゴリズム、数学はやっておくと幸せになれるよ。 情報検索と言語処理 データマイニングとか自然言語処理とかやりたい人にはとりあえずこれ。さすがに古い話が多くなってきたのでそろそろ新しい入門用情報検索がでないかなあと思っている。 図解・ベイズ統計「超」入門 伝説のベイジアン先生がベイズの基礎を教えてくれる。ベイズやりたい人はこれ。 珠玉のプログラミング データ構造とかアルゴリズムとかの考え方の基礎を教えてく

    手元に置いておくと安心できる、情報系の人向けな日本語の本のリスト - EchizenBlog-Zwei
  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • Big Data入門に見せかけたFluentd入門

    2013年7月5日、社内勉強会で使用した資料です(一部修正済み)。 ライセンスはクリエイティブ・コモンズ・ゼロとします。ご自由にお使い下さい。 ソースのPowerPointファイルはこちら => http://bit.ly/begining_fluentd_learning_big_data fluent-plugin-glusterfsはこちら => https://github.com/keithseahus/fluent-plugin-glusterfsRead less

    Big Data入門に見せかけたFluentd入門
  • Rで計量時系列分析:はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ

    機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします(笑)。 もうしつこ過ぎて自分でも嫌になってきたんですが(笑)、このシリーズでベースにするテキストは以下の2冊。沖テキストとHamiltonテキストです*3。他にも良いテキストはあるんじゃないかと思いますが、ここではこの2冊をベースにしていきます。なお、ほとんど沖テキストからの抜粋なのでお持ちの方はそちらを読んでもらった方が圧倒的に早いです、悪しからず。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る Time Series Analysis 作者

    Rで計量時系列分析:はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ
  • IDEA * IDEA

    ドットインストール代表のライフハックブログ

    IDEA * IDEA
  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • 1GB/1円 衝撃のAmazon Glacierを早速使ってみた - ku-sukeのブログ

    AWS発表】 Glacier – 1GBあたり月額約1円で利用可能なアーカイブストレージが登場 - Amazon Web Services ブログ というわけでS3以来の衝撃だったので早速使ってみました。がしかし未だダウンロードは時間まちで試せていません。まずは概要のレポートです。 Amazon Glacierとはなんぞや 一言で言うと、いつでも手軽には取り出せない代わりに、安く長く安全に大量にデータを保存してくれるサービスです。1GBあたり月額1円と、Amazon S3の十分の一の価格で、MacBookAirのSSD256GBをフルバックアップしても、月額256円しかかからないのです。 Dropbox的につかえるの? 使えません。アップロードしたデータを取り出すには、申し込みリクエストを送信してから、3、4時間待つ必要があります。 つまり利用用途としてはお気に入り動画を何年も安全にバッ

    1GB/1円 衝撃のAmazon Glacierを早速使ってみた - ku-sukeのブログ
  • Winnyの金子氏が夢見る次世代高速ネットの世界 (1/5)

    2011年、8年をかけた「Winny」裁判が終わった。渦中にいたのは「2ちゃんねる」では「47氏」と呼ばれていた金子勇氏だ。裁判後のインタビュー(関連記事)では、編集部の「これからどうしていきたいか?」という質問に「決めてないです」と答えていた金子氏であるが、着実に次のステップに進み始めている。 6月12日、Skeed社とデータホテルが業務提携して「CLOUD CONNECT」というデータセンター間を高速接続するサービスを展開すると発表(関連記事)したが、金子氏は現在、このSkeed社の社外取締役となっており、新たなプロダクトの開発に専念している。今回のインタビューでは、この金子氏とともに代表取締役社長である明石昌也氏も同席を願い、Winny事件をきっかけにできあがったというSkeed社や、事件の思い出、そして彼らが現在広めようとしている高速データ転送技術について尋ねてみたい。 Winny

    Winnyの金子氏が夢見る次世代高速ネットの世界 (1/5)
  • エバーノートでの名刺管理が便利すぎる件

    ペーパーレス化の一環として、名刺も電子化しています。名刺管理ソフトを利用しなくても、名刺をスキャンしてエバーノートに取り込めば、かなりの精度でOCR変換してくれて、後からキーワード検索で探すことが可能です。 無料アカウントで、これだけ出来るとは…。エバーノートは恐るべしサービスです。 名刺管理ソフトが役立たず 当初は、あまり良く考えずに、Scansnap S1300に付属していた名刺管理ソフトを利用して、名刺データを取り込んでいました。はっきりいってOCRが使い物にならず、「単にスキャンしているだけ」の状態でした。来なら住所や名前を完全にテキスト化して、後に年賀状やレターの送付に利用できるはずなのでしょうけど、現時点の性能だと結局目視チェックが必要なので、最初から自分で入力したほうが速いし正確です。 高価な名刺管理ソフトを購入すれば良いのかもしれませんが、そこまでする必要はないかなと。せ

    エバーノートでの名刺管理が便利すぎる件
    damedom
    damedom 2011/10/27
    いいなこれ。ホントにScansnap買っちまおうかなぁ……
  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • 1