タグ

hadoopに関するyuisekiのブックマーク (15)

  • Installation

  • GitHub - myui/hivemall: Scalable machine learning library for Apache Hive/Spark/Pig

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - myui/hivemall: Scalable machine learning library for Apache Hive/Spark/Pig
  • Hadoop + HiveからUDFでお手軽に機械学習を回せるライブラリ"hivemall"がリリースされたとのこと - 渋谷駅前で働くデータサイエンティストのブログ

    TL上にものすごーく刺激的な情報が飛び込んできたので、思わずご紹介。 一部の方にはお伝えしておりますが、hive/hadoop上でスケーラブルに機械学習(今のとこクラス分類、回帰分析)を行うライブラリをオープンソース(LGPL)でリリースしました。mahout等より扱いやすい&スケーラブルなはず。 https://t.co/eBGmoW66V0— myui (@myui) 2013, 9月 30 ということで、ご人のツイートにもあるようにGitHubに一式全て上がっています。ライセンスもLPGLなので自由に使えるという素晴らしさ。これ職場の分析マシンにもcloneしようかな(笑)。 myui/hivemall Wikiページを見ると、このライブラリの使い方が書いてあるんですが。。。何が凄いって、何とHiveクエリを書く要領で機械学習まわりの演算を全て実行できてしまう!というところ。ちょっ

    Hadoop + HiveからUDFでお手軽に機械学習を回せるライブラリ"hivemall"がリリースされたとのこと - 渋谷駅前で働くデータサイエンティストのブログ
  • CitusDB: Scalable Analytics Database - Real-time SQL on Hadoop

    Real-time SQL on Hadoop Created on February 19, 2013 Written by Ozgun Erdogan We are excited to bring together the performance of PostgreSQL and the scalability of Apache Hadoop, and enable real-time queries on data that's already in Hadoop. This new functionality becomes possible with CitusDB's powerful distributed query planner, and PostgreSQL's foreign data wrappers. From a technical standpoi

  • 導入事例からIT製品・サービスを探す|キーマンズネット

    基幹系システム ERP 会計システム 電子帳票システム ワークフロー 勤怠管理システム もっと見る 情報共有システム・コミュニケーションツール グループウェア Web会議 テレビ会議/ビデオ会議 ファイル共有 文書管理 もっと見る 情報システム SFA CRM コールセンター/CTI BPM PLM もっと見る メール 電子メール メールセキュリティ メールアーカイブ その他メール関連 もっと見る エンドポイントセキュリティ アンチウイルス 暗号化 認証 ID管理 メールセキュリティ もっと見る ネットワークセキュリティ ファイアウォール WAF IPS UTM セキュリティ診断 もっと見る 運用管理 統合運用管理 IT資産管理 サーバー管理 ネットワーク管理 統合ログ管理 もっと見る バックアップ バックアップツール バックアップサービス テープバックアップ その他バックアップ関連 もっ

    導入事例からIT製品・サービスを探す|キーマンズネット
  • 並列分散処理の常識をHadoopファミリから学ぶ

    並列分散処理の常識をHadoopファミリから学ぶ:ビッグデータ処理の常識をJavaで身につける(2)(3/3 ページ) 3つの課題に応える「Hadoopファミリ」 関連プロジェクトは、Hadoopが抱える以下の3つの課題に応えたものです。 【課題1】「並列分散処理をもっと簡単に書きたい」 MapReduceをJavaで書く処理はある種のひらめきが必要ともいわれます。特に、SQLで書かれていた処理をMapReduceで書き替える場合、思考の切り替えが必要で苦労することも多いようです。たとえ慣れていても、Hadoopで簡単なデータ加工したい、そのためだけに多くのクラス定義をするのは面倒です。 この難易度を下げるハイレベル言語として「Hive」「Pig」が存在します。どちらの言語もSQLやストアドプロシジャのようなコードを書いて、MapReduceを動かせます。対話型のシェルユーティリティもあり

    並列分散処理の常識をHadoopファミリから学ぶ
  • Mahout Programming : K-Means Clustering - hamadakoichi blog

    Mahout でのデータマイニング。mahout.clustering.kmeans を使ったクラスター分析を実装してみた。Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。 クラスター分析 クラスター分析の方法論自体の内容は以下のエントリにまとめてある。 R言語プログラミング: クラスター分析 - 階層的クラスタリング - hamadakoichi blog 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」 - hamadakoichi blog 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催します - hamadakoichi blog R言語プログラミング: クラスター分析

    Mahout Programming : K-Means Clustering - hamadakoichi blog
  • blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術

    はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。 これまでの連載 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日語のブログをクロール、リアルタイムに分析して、流行語と思わ

    blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術
  • ブロガーの性別や地域ごとに人気キーワード表示する「blogeye」

    ブロガーの性別や年齢、地域ごとに、ブログで話題になっているキーワードをランキング形式で紹介するサイト「blogeye」が12月13日オープンした。 400万以上のブログを対象に、話題になっている言葉を抽出。ブログを統計的に分析したデータベースを元に、記事に含まれる特徴から、ブロガーの性別や年齢、居住地を推定する。 トップページには、24時間以内にブログで急に話題になったキーワードをランキング表示。ブロガーの性別や地域ごとのランキングに切り替えることもできる。ランキングは5分ごとに更新する。 キーワードをクリックすると、そのキーワードに関連するブログの一覧、ブロガーの男女比や年齢構成のグラフを表示。そのキーワードが過去10日にどれくらい使われたかを表したグラフも確認できる。 東京大学大学院の大倉務さんが開設した。情報処理推進機構(IPA)の「未踏ソフトウェア創造事業」の一環。 関連記事 ブロ

    ブロガーの性別や地域ごとに人気キーワード表示する「blogeye」
  • 並列分散処理の常識をHadoopファミリから学ぶ

    Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

    並列分散処理の常識をHadoopファミリから学ぶ
  • [第1回]今さら聞けないHadoopの基礎

    OSS(オープンソースソフトウエア)のミドルウエア、「Hadoop」が注目されている。大量のデータ、とりわけログ、テキスト、画像といった非構造化データを取り扱うための高速な情報処理基盤を安価に構築できるからだ。そこで連載ではHadoopを基礎から説明する。 連載は情報システム部門の企画担当者や利用部門のIT活用推進者などが対象。序盤ではHadoopの基やアーキテクチャーを解説。回を追って分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及するほか、2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込んでいく。 ニーズ高まる「ビッグデータ」の基盤 日にとって2011年は「ビッグデータ」元年だったと言ってよいのではないでしょうか。ビッグデータに関わる製品やソリューションが国内外のベンダーから発表となり、多

    [第1回]今さら聞けないHadoopの基礎
  • Hadoopで始める並列データ解析/前編 | Inhale n' Exhale

    1月13日(金)にPalo Altoで行われたJTPAのギークサロンに参加してきた。今回は参加者がラップトップ持ち込みでコーディングしていくハッカソン形式で、会場入りする前までにHadoopが使える環境を自前で用意しておく必要があった。もうそれだけで、いつものギークサロンよりハードルが高いのだが、当日は15人ほどのギークたち(中には3日前にベイエリアに来たばかりという学生もいた)が集まって、おのおのラップトップとにらめっこしながらHadoopと戯れていた。 今回のギークサロンをホストしてくださった山中仁氏が、EC2上にHadoopクラスタを構築する方法を、参加者向けの資料としてWeb上に準備してくださり、「Hadoop=未知の領域」だった自分でもすんなりHadoopクラスタを組むことができた。だが残念なことに、この資料自体がEC2上に一時的に立てたサーバーに置かれており情報が恒久的には残ら

    Hadoopで始める並列データ解析/前編 | Inhale n' Exhale
  • Hadoopで始める並列データ解析/後編 | Inhale n' Exhale

    1月13日(金)にPalo Altoで行われたJTPAのギークサロンに参加してきた。今回は参加者がラップトップ持ち込みでコーディングしていくハッカソン形式で、会場入りする前までにHadoopが使える環境を自前で用意しておく必要があった。 前編では、Hadoopを使って計算処理をするための準備として、EC2上にHadoopクラスタを構築する方法を紹介した。後編では実際にギークサロンで手を動かしてやったことを中心に紹介していこう。 WordCount.java – 最初のサンプルコード Hadoop Tutorial / Module4: MapReduceで紹介されているWordCount.javaを使って、EC2上のHadoopクラスタで処理をさせてみる。いわゆる"Hello, wolrd!"的なサンプル。 まずはEC2上のUbuntuにSSHでログインして、Hadoopのクラスタを立ち上

    Hadoopで始める並列データ解析/後編 | Inhale n' Exhale
  • 『Hadoop/Hiveを用いたログ解析基盤の構築』

    こんにちは。Amebaのログ解析基盤を担当しているICHIROです。 今回は構築・運用中のログ解析基盤「Patriot」について書きたいと思います。 Webサービスを運営していると日々大量のログデータやユーザデータが蓄積されます。 今まではPV(ページビュー)やUU(ユニークユーザ)などアクセスログなどから取れる、大枠の指標のみを見ることがほとんどでした。 ページビューに合わせてシステムを増強するなど、システム側としては十分とも言える指標ですが、広告や課金サービスという視点から見ると十分とは言えません。 今まではAmeba内の個々のサービス担当者が必要とする指標を出すためにアプリエンジニアDBエンジニアに都度依頼をする形でデータを抽出していました。 今後の課金サービスの発展が見込まれ、よりデータ分析の重要性が高まると考えた私は、エンジニアでないサービス担当者(主にプロデューサ)がより簡単

    『Hadoop/Hiveを用いたログ解析基盤の構築』
  • TF-IDFを用いた特徴語の抽出(2009/1/1)|社内NEET宣言

    社内NEET宣言文学部出身なのにIT企業で研究開発をすることになった社員のブログです。エンジニア/ニートTF-IDFを用いた特徴語の抽出(2009/1/1)ブログ TF-IDFという概念を用いて、 ブログ記事の中でどのような事が語られているか、を抽出しようとしています。 TF-IDFとは? tf-idfは、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズムであり、主に情報検索や文章要約などの分野で利用される。 http://ja.wikipedia.org/wiki/Tf-idf TF(Term Frequency)は単語の出現頻度・・・ひとつの文書に、ある語がどれくらい出現するか・・・の割合。 IDF(Inverse Document Frequency)はドキュメントの出現頻度・・・ある語を含むドキュメントが、全体のドキュメントの中にどれくらい出現するか・

  • 1