タグ

Hadoopに関するtknzkのブックマーク (81)

  • 1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし - astamuse Lab

    はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特許文書を誰もが見やすい形で見ることもできます。また、約480万のキーワードを収録し、キーワード経由の訪問は全体の約4割を占めています。 技術ページにはキーワードのリンクがちりばめられ、綺羅星のごとく旅人をやさしく見守っています。 アスタミューゼでは、Hadoopクラスタを運用しており、HBaseをはじめ、YARN上でのMapReduceやSparkなどを使い、語彙の抽出、XML文書の解析・変換、ドキュメントのインデクシング、画像の変換などを行っています。 これらのデータ処理において、私たちはスループットを重視してい

    1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし - astamuse Lab
    tknzk
    tknzk 2016/07/21
  • DMM inside

    なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは

    DMM inside
  • ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の4日目です 3日目は、@arihh さんによる 3年くらいお菓子神社運営してきた です 自己紹介 @ka_nipan ドリコムに新卒で入社し、Android開発、BtoBtoC のwebサービス開発を経て、現在は弊社アプリのログ収集から集計、可視化、その他周辺ツールといった分析基盤の面倒を見ています 日はそのデータ基盤の話を書きます データ分析基盤全体図 弊社では Hadoop をオンプレで運用していて、そこにログや分析用のデータを置いています メリット 運用コストが安い Treasure Data、Big Query、Amazon Redshift 等の外部サービスを使うよりは安く済みます 自由度が高い 各サービスには容量をはじめ色々と制限があったり、こちらの要求仕様にマッチしない部分が少なからずありますが、自前の場合その辺は融

    ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に
    tknzk
    tknzk 2014/12/04
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • Hadoop Conference Japan 2014いってきた&しゃべってきた - たごもりすメモ

    Hadoop Conference Japan 2014- Eventbrite 今年も開催されたのでいってきた。主催者の方は当におつかれさまでした。毎回規模がでかくて、これやるのは当大変だろうなと思う。参加登録者は1299名だそうな。 全体的な空気としてはいよいよYARN移行が避けられず、その上に乗っかるデータ処理フレームワークとしてMapReduceも今後存在しつづけるもののSparkやTez*1が登場し、処理記述言語としてはもう単純な処理についてはSQL一択ですかね、という感じ。機械学習系やそのほかのワークロードはまた違うだろうけど。あとはMPP系のエンジンがその脇にある、という。 今回は事例の話が極端に少なくなって、みんな各コンポーネントについての話をしてた気がする。技術的には過渡期だということかな。いいことだ。 参加者アンケートでFluentdを使っていると答えた人が200人

    Hadoop Conference Japan 2014いってきた&しゃべってきた - たごもりすメモ
  • Presto - Hadoop Conference Japan 2014

    Presto is a distributed SQL query engine that allows for interactive analysis of large datasets across various data sources. It was created at Facebook to enable interactive querying of data in HDFS and Hive, which were too slow for interactive use. Presto addresses problems with existing solutions like Hive being too slow, the need to copy data for analysis, and high costs of commercial databases

    Presto - Hadoop Conference Japan 2014
  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    「BigQueryは120億行を5秒でフルスキャン可能」は当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • 『Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました』

    (この記事は、Hadoop Advent Calender 2013 の12日目の記事です) こんにちは、Amebaのログ解析基盤Patriotの運用をしている、鈴木(@brfrn169)と柿島大貴です。 Patriotについては以下をご覧ください。 http://ameblo.jp/principia-ca/entry-10635727790.html http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 今回、Amebaのログ解析基盤PatriotにCloudera ImpalaとPrestoを導入しました。 Cloudera ImpalaとPrestoのインストール方法や詳細ついては、下記URLをご覧ください。 Cloudera Impala http://www.cloudera.com/content/clo

    『Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました』
  • Ex-Yahoo CTO launches Altiscale, hardcore Hadoop as a service – Old GigaOm

    Raymie Stata knows a lot about Hadoop. It was Stata who helped bring Hadoop creator Doug Cutting to Yahoo in 2006, and as during a seven-year stint as chief architect and then CTO at Yahoo, Stata was instrumental in helping position Hadoop as the technology famously “behind every click” at the web portal. Now, Stata is trying his hand at the Hadoop startup game, launching a new startup called Alti

    tknzk
    tknzk 2013/06/14
  • Logをs3とredshiftに格納する仕組み

    1. LogをS3と Hive Redshi/ に 格納する仕組み 2013年5月22日 株式会社ゆめみ 森下 健 mokemokechicken@twi;er 1 2. 作るきっかけ アプリケーションログをMySQLに保存している (調査目的) MySQLだとスケールしない S3やHadoop(Hive)上に保存しよう (スケールしそう) 2 100〜200Write/sec くらいでキツイ

    Logをs3とredshiftに格納する仕組み
  • MySQL→Hadoop移行でビッグデータの威力を引き出すゲームサイトKing.com

    スウェーデンの無料のオンラインゲームサイト「King.com」は、主にFacebookから流入するビッグデータに対応するため、データアーキテクチャを刷新した。 世界最大のカジュアルソーシャルゲームサイトであるとうたうKing.comは、2003年に設立。『Bubble Witch Saga』や『Candy Crush』などのゲームを提供している。6000万の登録ユーザーを擁し、毎月のゲームプレイ回数は50億を超えるという。 King.comは150タイトル以上の無料ゲームを取りそろえ、ブーストやライフ追加などゲーム内商品と広告売上から収益を得ている。 同社のデータウェアハウス担当ディレクターであるマッツォロブ・エリクソン氏は、Facebookのゲームから流入するデータ量が増大し、それまで使っていたMySQLデータベースでは対処できなくなったと説明する。1日当たり100万ユーザーなら十分に対

    MySQL→Hadoop移行でビッグデータの威力を引き出すゲームサイトKing.com
  • 「オンプレミス・システムの終わり」の始まり〜AWSでのミッションクリティカルシステムの稼働 - 急がば回れ、選ぶなら近道

    個人的には割と大変だったので、その辺をまとめておきます。 ニュースリリースはこちら。 http://www.nautilus-technologies.com/topics/20130409.html 要するに部系バックエンド基幹システムの「一式」のクラウド移行です。完全なミッションクリティカルシステムで、止まった段階で業務に確実に影響が出ます。 システムの機能概要 1.売上の確定処理と債権管理 POSデータの直結です。売上確定処理を行います。同時に債権管理も行い、F/Bからの入金データをそのままつなぎ込み、入金処理・債権の消し込み処理を実行します。マッチングは自動処理できるものは処理を行い、ヒューリスティックなものはユーザー判断に従います。 2.仕入・費用の計上と確定処理、および支払いデータの作成 費用・在庫の計上確定処理です。当時に支払データの確定処理を行います。EDI(BMS)との

    「オンプレミス・システムの終わり」の始まり〜AWSでのミッションクリティカルシステムの稼働 - 急がば回れ、選ぶなら近道
  • Hadoopは基幹業務をどう変えるのか─ソフトバンクモバイルにおけるオープンソース活用 | gihyo.jp

    Hadoopはバッチ処理の課題への解決策となり得るか 企業のあらゆる領域にITが浸透し、それに伴って会計や在庫管理、あるいは販売管理などシステムから出力されるデータ量も拡大し続けています。このデータ量の増大によって、多くの企業において新たな課題となりつつあるのがバッチ処理の遅延です。 たとえば、毎日の売上を集計するために、販売管理システムからデータを吸い上げてバッチ処理を行うといった場合、サーバリソースに余裕がある夜間にバッチを走らせ、翌朝担当者が出社する頃には集計データが出力されているという形が一般的でしょう。しかし、ITが事業のさまざまな領域で活用されるようになったことから、バッチ処理すべきデータ量は増大し続けています。これにより、バッチ処理が時間内に終わらない、「⁠突き抜け」と呼ばれる事態に頭を悩ませる企業が増えているのです。 突き抜けが発生すると、さまざまな領域に大きな影響が及ぶ恐

    Hadoopは基幹業務をどう変えるのか─ソフトバンクモバイルにおけるオープンソース活用 | gihyo.jp
  • Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO

    よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

    Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO
  • Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

    Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。 カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。 バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。 今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu

    Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している
  • Apache Mahout お手軽レコメンド

    SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)Tomoyuki Oota

    Apache Mahout お手軽レコメンド
  • ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話

    2. 合わせて読みたい • 第2回 ioDrive+MySQL勉強会 @外道父 ioDriveの世界 へようこそ – http://www.slideshare.net/GedowFather/welcome-to- iodrive-world • ActiveRecord Turntable – ドリコム内製のDBの水平分割ミドルウェア – http://www.slideshare.net/drecom/activerecordturntab le • ソーシャルゲームにレコメンドエンジンを導入した話 – http://www.slideshare.net/TokorotenNakayama/ss- 15111004 3. 自己紹介 • ところてん@Drecom – データ分析グループ – 高機能雑用 • R&D&火消し&データ分析&企画 • 最近、インフラ業務が外れた – 定額働きた

    ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
  • データ解析用ワークフローフレームワーク Honey の紹介 - mixi engineer blog

    最近,もっぱら上原ひろみさんの曲をエンドレスに聴いて癒しを得ています.もちろんピクルス作りも最高です.みなさんは何で癒しを得ていますでしょうか.こんにちは,技術部の石川有です. 以前,「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」で mixi における Hadoop/ Hive の活用の仕方について記事を書かせていただきました.今回の記事では,ちらっと触れていた Hive などで定期実行する必要のある処理をワークフローとして定義するフレームワークについて書きます. 文章の構成 まず最初に,今回ご紹介するデータ解析用ワークフローフレームワーク Honey とは何か,なぜ作ったのかを説明します.つぎに,どのような構成や機能があるのかを簡単に説明します.それから具体的なデータ解析処理を記述する方法について説明します.その中で,定型的な処理を YAML とし

    データ解析用ワークフローフレームワーク Honey の紹介 - mixi engineer blog
  • BigDataをリアルタイム処理させるDrill - ウィリアムのいたずらの、まちあるき、たべあるき

    ウィリアムのいたずらが、街歩き、べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も) Hadoopはビッグデータをバッチ処理させるには向いてるけど、 ビッグデータは、リアルタイム処理するのは向いてない... っていわれてたんだけど、それをやっちゃおうっていうのが、 (インタラクティブ処理)Dremelで・・・ ってことは、NHNカンファレンスで、最後の最後に言っていたけど、 そのDremelベース(って下の記事には書いてあるけど、さらにその下のサイトには、インスパイヤされたと書いてある)のアドホックな検索システムにApache Drillというのがあるらしい。 その話が載っていたので、メモメモ New Apache project will Drill big data in near real time http://www.itworld.com/big-da

    BigDataをリアルタイム処理させるDrill - ウィリアムのいたずらの、まちあるき、たべあるき
  • リクルート式Hadoopの使い方

    リクルート式Hadoopの使い方 - Presentation Transcript リクルート式Hadoopの使い方 株式会社リクルートMIT システム基盤推進室インフラソリューショングループ石川 信行 はじめに・・・ □名前 石川 信行 (   ground_beetle) □出身 福島県 いわき市 □経歴 ・2009年リクルート新卒入社 ・営業支援システムのコーダー(java)、DBAとして参加。 ・JavascriptのLibであるSenchaを用いたスマホサイト開発 ・現Hadoop推進担当 □趣味 ・外国産カブト虫飼育 ・スキューバダイビング ・海水魚飼育 リクルートの組織体制について 旅行C 営業 企画 自動車C 営業 企画 住宅C 営業 企画 MIT United 事業担当MIT  事業担当MIT  事業担当MIT  ・マーケティング・分析チーム  ・インフラ基盤チーム  

    tknzk
    tknzk 2012/08/20