関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

bigdataに関するcakephperのブックマーク (15)

  • 7 Command-Line Tools for Data Science | Jeroen Janssens

    Data science is OSEMN (pronounced as awesome). That is, it involves Obtaining, Scrubbing, Exploring, Modelling, and iNterpreting data. As a data scientist, I spend quite a bit of time on the command-line, especially when there’s data to be obtained, scrubbed, or explored. And I’m not alone in this. Recently, Greg Reda discussed how the classics (e.g., head, cut, grep, sed, and awk) can be used for

    7 Command-Line Tools for Data Science | Jeroen Janssens
  • Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記

    「何番煎じか分からないけど集合知プログラミングをPHPでやってみたシリーズ」で扱っている集合知プログラミングは、とかく計算量が多くなりがちで、うまくアルゴリズムを作らないとメモリ不足に陥りがちです。 現に前回の記事では、その越えられない壁を体験してしまったので、「どげんかせんといかん。」という事で、最近ちょっと興味のある、Googleのバックエンドでも使われている"MapReduce"に関して少し調べてみました。 "MapReduce"に関しては、「"Googleを支える技術"読め。以上。」でもいいんですが、id:naoyaさんが書かれている記事が非常に分かりやすかったので、その記事のリンクを貼っておきます。 →MapReduce - naoyaのはてなダイアリー "Googleを支える技術"もせっかくだからAmazonのリンクを貼っておきます。 Googleを支える技術 ?巨大システムの

    Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

    cakephper
    cakephper 2013/09/13
    Rによるデータサイエンス
  • 機械学習 - PHPとMeCabとMySQLでベイジアンフィルタを実装してみた。 - オープンソースこねこね

    PHPとMeCabとMySQLを使ってベイジアンフィルタを実装してみました。ひとまず動くようにはなったので公開します。機械学習によってテキストドキュメントの自動分類ができます。 高校数学すら忘れてしまっていたので、ついでに条件付き確率などを基礎から勉強してみたが、残念ながらあんまり理解していないです。 さて、実装したベイジアンフィルタですが、機械学習やカテゴリ推定のアルゴリズム部分はPHPで書いて、学習データはMySQLに保存するようにしてあります。ソースはgithubに置きました https://github.com/kohkimakimoto/BayesClassifier 使い方など あとで書きます。。。 あと、カテゴリ推定のサンプルなども書く。。。 2012/04/20 - 追記 サービス作ってみました。 http://kohkimakimoto.hatenablog.com/en

    機械学習 - PHPとMeCabとMySQLでベイジアンフィルタを実装してみた。 - オープンソースこねこね
  • En Yüksek Kur Paykasa Bozdurma

    IBM TechXchange Community Join the Community and get 30% off the TechXchange Conference. Join / Log in Where is my content? If you’re looking for developerWorks content or a Support forum and ended up here, don't panic! You are in the right place. The content you're looking for. This page will help you find the content you are looking for, get answers to your questions, and find a new community to

  • 機械学習 はじめよう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    機械学習 はじめよう 記事一覧 | gihyo.jp
  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
  • analyticsmadeskeezy.com

    analyticsmadeskeezy.com 2018 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

  • Signal v. Noise by Basecamp

  • データサイエンティストを数百人単位で発掘する | quipped

    どうやらデータサイエンティストなる職業がアツいらしい。 データサイエンティストって何それ美味しいのというのが正直なところだが、「データサイエンスとは何か」について、錚々たる企業の人たちの講演されてらっしゃったので、ちょっと引用してみたい。 まずは花王の大路延憲氏(情報システム部門統括付部長): ...データサイエンティストの心得として3つのMを挙げた。その上で「まず目的(Mindset)と評価尺度(Measurement)を明確にし、それから手法(Method)を決める。決して手法から始めてはいけない」とアドバイスした。 つまり頭でっかちにならず、目的に即した手法が取れる判断力が必要だという話。 次に大阪ガスの河薫氏(情報通信部ビジネスアナリシスセンター所長): 「(ビジネス課題を)見つける力、(分析問題を)解く力、(得られた知識を)使わせる力、の全てを備えた“フォワード型分析者”が、ビ

  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • New Whitepaper: Amazon Elastic MapReduce (EMR) Best Practices | Amazon Web Services

    AWS News Blog New Whitepaper: Amazon Elastic MapReduce (EMR) Best Practices Amazon Elastic MapReduce (EMR) accelerates big data analytics. It provides instant scalability and elasticity, letting you focus on analytics instead of infrastructure for your data-intensive projects. Whether you are indexing large data sets or analyzing massive amounts of scientific data or processing clickstream logs, E

    New Whitepaper: Amazon Elastic MapReduce (EMR) Best Practices | Amazon Web Services
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 1