bulldraのブックマーク / 2012年9月19日

Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム：テキストマイニングで始める実践Hadoop活用（最終回）（1/3 ページ） Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上前回の「実践！「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

bulldra 2012/09/19

bigdata

リンク

実践！「MapReduceでテキストマイニング」徹底解説

「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

bulldra 2012/09/19

bigdata

リンク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

bulldra 2012/09/19

bigdata

リンク

優良企業はなぜHadoopに走るのか

ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

bulldra 2012/09/19

bigdata

リンク

並列分散処理の常識をHadoopファミリから学ぶ

Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common：Hadoopの基本機能FileSystem、RPC、Serializationのライブラリ HDFS：分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce：膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワークこれらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro：Commonの持つ機能を拡張したデータシリアライズシステム Cassandra：単一障害点のないスケーラブルなマルチマスタデータベース Chukwa：大規模な分散システムでのデータ収集システム HBase：大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

bulldra 2012/09/19

bigdata

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

bulldra 2012/09/19

bigdata

リンク

MapReduce - Wikipedia

MapReduce（マップリデュース）は、コンピュータ機器のクラスター上での巨大なデータセットに対する分散コンピューティングを支援する目的で、Googleによって2004年に導入されたプログラミングモデルである。このフレームワークは関数型言語でよく使われるMap関数とReduce関数からヒントを得て作られているが、フレームワークにおけるそれらの用いられ方は元々のものと同じではない。 MapReduceのライブラリ群は、C++、C#、Erlang、Java、OCaml、Perl、Python、PHP、Ruby、F#、R言語、MATLAB等のプログラミング言語で実装されている。概要[編集] MapReduceは巨大なデータセットを持つ高度に並列可能な問題に対して、多数のコンピュータ（ノード）の集合であるクラスター（各ノードが同じハードウェア構成を持つ場合）もしくはグリッド（各ノードが違うハ

bulldra 2012/09/19

bigdata

リンク

いまさら聞けないKVSの常識をHbaseで身につける

いまさら聞けないKVSの常識をHbaseで身につける：ビッグデータ処理の常識をJavaで身につける（3）（1/3 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載ビッグデータの要！ KVSとは何なのか「KVS（Key-Value Store）」とは、Key値を指定してValue値の格納や取得を行う方式です。それに対して、RDBではキー（プライマリキー）が必須ではなく、逆に複数のカラムをセットしてキーにすることもできます。テーブル構造だけを見れば、KVSとRDBは似ています。例えば、RDBでプライマリキーと1つのBLOB型を持ったテーブルを作れば、KVSと同じような構造にもなります。しかし、RDBでKVSのまねごとをするのと、KVSとして

bulldra 2012/09/19

bigdata

リンク

Hadoopの死角、COBOLバッチ処理の並列化

Hadoopの死角、COBOLバッチ処理の並列化：現場にキく、Webシステムの問題解決ノウハウ（8）本連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題／トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に（編集部）クラウドで可能になった大量データ処理とバッチ処理クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

bulldra 2012/09/19

bigdata

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

bulldra 2012/09/19

bigdata

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

bulldra 2012/09/19

bigdata

リンク

Apache Hadoop - Wikipedia

Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。[2] アーキテクチャ[編集] Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoo

bulldra 2012/09/19

bigdata

リンク

権利過剰論者に見えている世界 - hamachanブログ(EU労働法政策雑記帳)

「すなふきん」さんのツイートから、 http://twitter.com/sunafukin99/status/247811545961201664 戦後日本人は権利ばかり主張して・・・というおなじみの言説って変だよな。もしそうならブラック職場環境や過労死や自殺がこんなに多くないはず。 http://twitter.com/sunafukin99/status/247813275369238530 保守右派の改憲論で問題なのは権利関係の制限をやりたがるところかな。元々法的に認められた権利行使にさえ控えめな国民なのに、これ以上権利を規制されたら相当まずいことになる懸念がある。 http://twitter.com/sunafukin99/status/247817007418986496 おそらく権利過剰論者に見えてる世界は現実よりめちゃめちゃ甘く見積もられているんじゃないかと思う。ブラック

bulldra 2012/09/19

幻想のホワイトを現実と思いこむと、ブラックを個別的事案として切断処理やもぐら叩きしがちというのは正鵠突いてる

リンク

それはかくも美しく「リアルな」ファンタジー（おおかみこどもの雨と雪・レビュー） : ゲームセンターに明日はあるの？ - livedoor Blog

※前書きとお断り※ 白状すれば、この「おおかみこどもの雨と雪」はもとより、細田守監督の劇場長編アニメについてこれまで何かを書くことは気が進まななかった(実のところ現在でもそうだ)。なぜならば、細田アニメに関しては様々な人々の思惑が錯綜しており、それらと対峙することが非常に億劫だったからである。それは、ポスト徳間の地位を虎視眈々と狙う出版社の野望であったり、ジブリが発言力をもち、やれ地上波ではノーカットで、スタッフロールは最後まで放映しろだの口やかましくなったことを疎んじるテレビ局や広告代理店だのの欲望であったり、はたまた、上の世代のアニメファンにおける富野由悠季や押井守や庵野秀明のように「僕ら世代のアイドル監督」として細田守という作家・監督を神格化しようと躍起な、40代以下のオタク達の過剰とも言える信仰であったりする。そういった「うざったいノイズ」があることを承知してもなお、これを書い

bulldra 2012/09/19

ケータイ小説のその後説

リンク

そろそろ社内英語化について言っておくか

最近、会社の公用語が英語になったので、色々思うことを書いてみる。言うまでもないけど、ここに書くことは普通の末端社員の感想に過ぎないヨロシク。英語化になって変わったこと1) 英語ができない私の一部の業務に時間がかかるようになった 2) 会社を辞めた人が少なからずいた 3) 海外のグループ企業の存在があまり特別じゃなくなった 4) 英語が得意な人が目立たなくなった 5) 入ってくる人のカタログスペックが凄まじくなった 6) 社員の誰とでも通じる共通のネタができた 1)まず、英語化で変わったことは、仕事ができない私の仕事が更に遅くなったw 英語は苦手で頭も悪いので、TOEICも社内では下の上くらい。社内文章を読むのに2倍の時間がかかって、書くのに3倍かかる。聞き取りは半分も理解できず、話すのもめちゃくちゃ。でもまあ、それが主要業務じゃないので、何とかなってる。英語は喋れないので、日本語苦

bulldra 2012/09/19

リンク

はてなブックマーク

タグ

2012年9月19日のブックマーク (15件)

Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

実践！「MapReduceでテキストマイニング」徹底解説

グーグル発「Hadoop」、日本企業も利用へ

優良企業はなぜHadoopに走るのか

並列分散処理の常識をHadoopファミリから学ぶ

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

MapReduce - Wikipedia

いまさら聞けないKVSの常識をHbaseで身につける

Hadoopの死角、COBOLバッチ処理の並列化

いまさら聞けないHadoopとテキストマイニング入門

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

Apache Hadoop - Wikipedia

権利過剰論者に見えている世界 - hamachanブログ(EU労働法政策雑記帳)

それはかくも美しく「リアルな」ファンタジー（おおかみこどもの雨と雪・レビュー） : ゲームセンターに明日はあるの？ - livedoor Blog

そろそろ社内英語化について言っておくか

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス