[B! Hadoop] tknzkのブックマーク

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし - astamuse Lab

はじめまして。開発・インフラ部、福田です。分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特許文書を誰もが見やすい形で見ることもできます。また、約480万のキーワードを収録し、キーワード経由の訪問は全体の約4割を占めています。技術ページにはキーワードのリンクがちりばめられ、綺羅星のごとく旅人をやさしく見守っています。アスタミューゼでは、Hadoopクラスタを運用しており、HBaseをはじめ、YARN上でのMapReduceやSparkなどを使い、語彙の抽出、XML文書の解析・変換、ドキュメントのインデクシング、画像の変換などを行っています。これらのデータ処理において、私たちはスループットを重視してい

tknzk 2016/07/21

hadoop

リンク

DMM inside

なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは

tknzk 2015/02/23

リンク

ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に

はじめにこれはドリコムAdventCalendar の4日目です３日目は、@arihh さんによる 3年くらいお菓子神社運営してきたです自己紹介 @ka_nipan ドリコムに新卒で入社し、Android開発、BtoBtoC のwebサービス開発を経て、現在は弊社アプリのログ収集から集計、可視化、その他周辺ツールといった分析基盤の面倒を見ています本日はそのデータ基盤の話を書きますデータ分析基盤全体図弊社では Hadoop をオンプレで運用していて、そこにログや分析用のデータを置いていますメリット運用コストが安い Treasure Data、Big Query、Amazon Redshift 等の外部サービスを使うよりは安く済みます自由度が高い各サービスには容量をはじめ色々と制限があったり、こちらの要求仕様にマッチしない部分が少なからずありますが、自前の場合その辺は融

tknzk 2014/12/04

hadoop

リンク

MPP on Hadoop, Redshift, BigQuery - Go ahead!

Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre

tknzk 2014/08/05

リンク

Hadoop Conference Japan 2014いってきた＆しゃべってきた - たごもりすメモ

Hadoop Conference Japan 2014- Eventbrite 今年も開催されたのでいってきた。主催者の方は本当におつかれさまでした。毎回規模がでかくて、これやるのは本当大変だろうなと思う。参加登録者は1299名だそうな。全体的な空気としてはいよいよYARN移行が避けられず、その上に乗っかるデータ処理フレームワークとしてMapReduceも今後存在しつづけるもののSparkやTez*1が登場し、処理記述言語としてはもう単純な処理についてはSQL一択ですかね、という感じ。機械学習系やそのほかのワークロードはまた違うだろうけど。あとはMPP系のエンジンがその脇にある、という。今回は事例の話が極端に少なくなって、みんな各コンポーネントについての話をしてた気がする。技術的には過渡期だということかな。いいことだ。参加者アンケートでFluentdを使っていると答えた人が200人

tknzk 2014/07/09

リンク

Presto - Hadoop Conference Japan 2014

Presto is a distributed SQL query engine that allows for interactive analysis of large datasets across various data sources. It was created at Facebook to enable interactive querying of data in HDFS and Hive, which were too slow for interactive use. Presto addresses probl ems with existing solutions like Hive being too slow, the need to copy data for analysis, and high costs of commercial databases

tknzk 2014/07/09

リンク

Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

tknzk 2014/05/19

リンク

『Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました』

(この記事は、Hadoop Advent Calender 2013 の12日目の記事です) こんにちは、Amebaのログ解析基盤Patriotの運用をしている、鈴木(@brfrn169)と柿島大貴です。 Patriotについては以下をご覧ください。 http://ameblo.jp/principia-ca/entry-10635727790.html http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 今回、Amebaのログ解析基盤PatriotにCloudera ImpalaとPrestoを導入しました。 Cloudera ImpalaとPrestoのインストール方法や詳細ついては、下記URLをご覧ください。 Cloudera Impala http://www.cloudera.com/content/clo

tknzk 2013/12/13

リンク

Ex-Yahoo CTO launches Altiscale, hardcore Hadoop as a service – Old GigaOm

Raymie Stata knows a lot about Hadoop. It was Stata who helped bring Hadoop creator Doug Cutting to Yahoo in 2006, and as during a seven-year stint as chief architect and then CTO at Yahoo, Stata was instrumental in helping position Hadoop as the techno logy famously “behind every click” at the web portal. Now, Stata is trying his hand at the Hadoop startup game, launching a new startup called Alti

tknzk 2013/06/14

hadoop

リンク

Logをs3とredshiftに格納する仕組み

1. LogをS3と Hive Redshi/ に格納する仕組み 2013年5月22日株式会社ゆめみ森下健 mokemokechicken@twi;er 1 2. 作るきっかけアプリケーションログをMySQLに保存している（調査目的） MySQLだとスケールしない S3やHadoop(Hive)上に保存しよう（スケールしそう） 2 １００〜２００Write/sec くらいでキツイ

tknzk 2013/05/23

リンク

MySQL→Hadoop移行でビッグデータの威力を引き出すゲームサイトKing.com

スウェーデンの無料のオンラインゲームサイト「King.com」は、主にFacebookから流入するビッグデータに対応するため、データアーキテクチャを刷新した。世界最大のカジュアルソーシャルゲームサイトであるとうたうKing.comは、2003年に設立。『Bubble Witch Saga』や『Candy Crush』などのゲームを提供している。6000万の登録ユーザーを擁し、毎月のゲームプレイ回数は50億を超えるという。 King.comは150タイトル以上の無料ゲームを取りそろえ、ブーストやライフ追加などゲーム内商品と広告売上から収益を得ている。同社のデータウェアハウス担当ディレクターであるマッツォロブ・エリクソン氏は、Facebookのゲームから流入するデータ量が増大し、それまで使っていたMySQLデータベースでは対処できなくなったと説明する。1日当たり100万ユーザーなら十分に対

tknzk 2013/04/23

hadoop
MySQL

リンク

「オンプレミス・システムの終わり」の始まり〜AWSでのミッションクリティカルシステムの稼働 - 急がば回れ、選ぶなら近道

個人的には割と大変だったので、その辺をまとめておきます。ニュースリリースはこちら。 http://www.nautilus-techno logies.com/topics/20130409.html 要するに本部系バックエンド基幹システムの「一式」のクラウド移行です。完全なミッションクリティカルシステムで、止まった段階で業務に確実に影響が出ます。システムの機能概要 1.売上の確定処理と債権管理 POSデータの直結です。売上確定処理を行います。同時に債権管理も行い、F/Bからの入金データをそのままつなぎ込み、入金処理・債権の消し込み処理を実行します。マッチングは自動処理できるものは処理を行い、ヒューリスティックなものはユーザー判断に従います。 2.仕入・費用の計上と確定処理、および支払いデータの作成費用・在庫の計上確定処理です。当時に支払データの確定処理を行います。EDI（BMS）との

tknzk 2013/04/15

hadoop
AWS

リンク

Hadoopは基幹業務をどう変えるのか─ソフトバンクモバイルにおけるオープンソース活用 | gihyo.jp

Hadoopはバッチ処理の課題への解決策となり得るか企業のあらゆる領域にITが浸透し、それに伴って会計や在庫管理、あるいは販売管理などシステムから出力されるデータ量も拡大し続けています。このデータ量の増大によって、多くの企業において新たな課題となりつつあるのがバッチ処理の遅延です。たとえば、毎日の売上を集計するために、販売管理システムからデータを吸い上げてバッチ処理を行うといった場合、サーバリソースに余裕がある夜間にバッチを走らせ、翌朝担当者が出社する頃には集計データが出力されているという形が一般的でしょう。しかし、ITが事業のさまざまな領域で活用されるようになったことから、バッチ処理すべきデータ量は増大し続けています。これにより、バッチ処理が時間内に終わらない、「⁠突き抜け」と呼ばれる事態に頭を悩ませる企業が増えているのです。突き抜けが発生すると、さまざまな領域に大きな影響が及ぶ恐

tknzk 2013/03/29

リンク

Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO

よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

tknzk 2013/03/18

リンク

Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu

tknzk 2013/01/23

リンク

Apache Mahout お手軽レコメンド

SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)Tomoyuki Oota

tknzk 2012/12/11

リンク

ビッグデータとioDriveの夕べ：ドリコムのデータ分析環境のお話

2. 合わせて読みたい • 第2回 ioDrive+MySQL勉強会 @外道父 ioDriveの世界へようこそ – http://www.slideshare.net/GedowFather/welcome-to- iodrive-world • ActiveRecord Turntable – ドリコム内製のDBの水平分割ミドルウェア – http://www.slideshare.net/drecom/activerecordturntab le • ソーシャルゲームにレコメンドエンジンを導入した話 – http://www.slideshare.net/TokorotenNakayama/ss- 15111004 3. 自己紹介 • ところてん＠Drecom – データ分析グループ – 高機能雑用 • R&D&火消し&データ分析&企画 • 最近、インフラ業務が外れた – 定額働きた

tknzk 2012/12/05

リンク

データ解析用ワークフローフレームワーク Honey の紹介 - mixi engineer blog

最近，もっぱら上原ひろみさんの曲をエンドレスに聴いて癒しを得ています．もちろんピクルス作りも最高です．みなさんは何で癒しを得ていますでしょうか．こんにちは，技術部の石川有です．以前，「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」で mixi における Hadoop/ Hive の活用の仕方について記事を書かせていただきました．今回の記事では，ちらっと触れていた Hive などで定期実行する必要のある処理をワークフローとして定義するフレームワークについて書きます．本文章の構成まず最初に，今回ご紹介するデータ解析用ワークフローフレームワーク Honey とは何か，なぜ作ったのかを説明します．つぎに，どのような構成や機能があるのかを簡単に説明します．それから具体的なデータ解析処理を記述する方法について説明します．その中で，定型的な処理を YAML とし

tknzk 2012/11/21

hadoop
mixi

リンク

BigDataをリアルタイム処理させるDrill - ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も） Hadoopはビッグデータをバッチ処理させるには向いてるけど、ビッグデータは、リアルタイム処理するのは向いてない... っていわれてたんだけど、それをやっちゃおうっていうのが、（インタラクティブ処理）Ｄｒｅｍｅｌで・・・ってことは、ＮＨＮカンファレンスで、最後の最後に言っていたけど、そのDremelベース(って下の記事には書いてあるけど、さらにその下のサイトには、インスパイヤされたと書いてある）のアドホックな検索システムにApache Drillというのがあるらしい。その話が載っていたので、メモメモ New Apache project will Drill big data in near real time http://www.itworld.com/big-da

tknzk 2012/08/20

リンク

リクルート式Hadoopの使い方

リクルート式Hadoopの使い方 - Presentation Transcript リクルート式Hadoopの使い方株式会社リクルートMIT システム基盤推進室インフラソリューショングループ石川信行はじめに・・・ □名前石川　信行（　　　ground_beetle） □出身福島県　いわき市 □経歴・2009年リクルート新卒入社・営業支援システムのコーダー（java）、DBAとして参加。・JavascriptのLibであるSenchaを用いたスマホサイト開発・現Hadoop推進担当 □趣味・外国産カブト虫飼育・スキューバダイビング・海水魚飼育リクルートの組織体制について旅行C 営業企画自動車C 営業企画住宅C 営業企画 MIT　United 事業担当MIT　事業担当MIT　事業担当MIT　・マーケティング・分析チーム　・インフラ基盤チーム　　

tknzk 2012/08/20

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (43)

Hadoopに関するtknzkのブックマーク (81)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス