並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 23361件

新着順 人気順

hadoopの検索結果321 - 360 件 / 23361件

  • MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜

    MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜

      MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
    • Welcome to Apache™ Hadoop™!

      This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul

      • CassandraとHBaseの比較して入門するNoSQL

        第10回Cassandra勉強会にて発表したスライドに、勉強会後のフィードバックを反映させた物です。Read less

          CassandraとHBaseの比較して入門するNoSQL
        • スマニュー・鈴木代表「これからのエンジニアはプロダクトをやれ」 年俸10億円プレイヤーへのキャリアパスとは?

          各社のエンジニア採用戦略 Q4:採用戦略についてお聞きしたいです。どのようなレベル感のエンジニアを、どのような戦略で採用していっているのか、具体的な話をお聞きしたいです。 鈴木:じゃあ本田さん。 本田:やはりプロダクトのロードマップありきで、さっきもちょっと話したんですけど、消費者とブランドのあらゆるタッチポイントを押さえる、究極の広告インフラを作っていくっていくことを、僕らの最終目標にしてはいるんですが。会社の中では年に1回、そこに向けて現実的なその年にやるべきことのプロジェクト化、「こういった計画を立てて、ここまでやっていくぞ」と決めていくのをやっていて。 必要に応じ、その内容に合ったエンジニア採用を強化していくという流れになります。タッチポイントを順番に攻めていく段階で、僕らはPCから始まって、今はスマートフォンを本格的に攻めていって、今後はその先へと。 スマートフォンに比べるとまだ

            スマニュー・鈴木代表「これからのエンジニアはプロダクトをやれ」 年俸10億円プレイヤーへのキャリアパスとは?
          • 並列データベースシステムの概念と原理

            2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907Read less

              並列データベースシステムの概念と原理
            • あなたのJavaコードをスッキリさせる、地味に便利な新API 10選(後編) - Taste of Tech Topics

              こんにちは。 アキバです。 本日3/18、ついに、Java8が正式リリースされますね! もうダウンロードされましたか?ってまだですかね?私はまだです(だって公開前にエントリ書いてるんだもんね) 2014/03/19追記:Oracleのページが更新されました!→こちら さて、前回に続いて、Java8で追加された地味で便利なAPIを紹介していきます。 今回は、みんな大好きMapとConcurrent、あとちょびっとComparatorです。 3. Map操作編 (1) Map#getOrDefault() これまでは、Mapから値を取得してnullだったらデフォルト値を使用する、みたいなコードを以下のように書いていたと思います。 Map<String, String> map; // 何らかのMap String value = map.get("key"); if (value == nul

                あなたのJavaコードをスッキリさせる、地味に便利な新API 10選(後編) - Taste of Tech Topics
              • AmazonのDynamoの論文を読んでみた(1/3) - 工場長のブログ

                Amazonが社内で開発し、サービスで利用しているDynamoというストレージサービスがあるのだけど、これについての論文が公開されていたので読んだのでまとめてみる。 この論文を書いたメンバーにはAmazonのCTOであるWerner Vogelsや、AWSでDynamoDBやElastiCache、SQS、SNSなどの製品のマネージメントをしているSwami Sivasubramanianらが含まれている。 Dynamoをひとことで表すと分散型でKey Valueストレージで、データの一貫性に関しては結果整合性を保証するサービスだ。なお、AWSで提供されているDynamoDBとは別物なので注意。 原文はこちらから参照できる。今回のポスト中の引用(図や文問わず)はすべてこちらから引用している。 また、既に日本語訳をされている方もいらっしゃるので原文をそのまま日本語でよみたい人はこちらを参照の

                  AmazonのDynamoの論文を読んでみた(1/3) - 工場長のブログ
                • 本日12月1日より、プログラマ有志による2011年の技術系Advent Calendarが各所ではじまる | gihyo.jp

                  本日12月1日より、プログラマ有志による2011年の技術系Advent Calendarが各所ではじまる 本日12月1日より、プログラマ有志による2011年の各技術系Advent Calendarが一日目を担当する人のblogではじまっている。ここ数年は、師走の風物詩になっている。 特に昨年は、技術系Advent Calendarの紹介記事が契機になった面もあるようで、各方面で技術系Advent Calendarが行われた。今年は技術系Advent Calendarの認知度が上がり、たくさんの技術系Advent Calendarが12月1日より行われそうだ。 一般的なAdvent Calendarは、12月25日のクリスマスを楽しみに待つために、12月1日から24日までのカレンダーの日付の部分(扉だったりする)を開けるようになっており、1日ずつその日の日付の部分を開くと天使や動物の絵などが

                    本日12月1日より、プログラマ有志による2011年の技術系Advent Calendarが各所ではじまる | gihyo.jp
                  • MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT

                    MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも

                      MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT
                    • Yahoo!が自社のクラウド構築ソフトウェアをオープンソースとして公開へ

                      Yahoo!が自社内で利用しているクラウドプラットフォームの構築用ソフトウェアを、オープンソースとして来年早々にも公開する予定だと、Registerが記事「Yahoo! to open source floating Google-Amazon crossbreed」で報じています。 ロードバランスとセキュリティを確保した「コンテナ」を提供 クラウドを構築するためのオープンソースソフトウェアとしては、AmazonEC2互換のクラウドを構築できる「Eucalyptus」がすでにありますが、Yahoo!のプラットフォームはEucalyptusのように仮想マシンがむき出しで提供されるのではなく、ロードバランスとセキュリティが確保された「コンテナ」と呼ばれるものが提供されると説明されています。 詳細は不明ですが、開発者は分散処理やフェイルオーバー処理についてはコンテナにまかせることができるようです

                        Yahoo!が自社のクラウド構築ソフトウェアをオープンソースとして公開へ
                      • サイバーエージェントを退職しました - 渋谷駅前で働くデータサイエンティストのブログ

                        私事ですが、本日をもって株式会社サイバーエージェントを退職しました。 正式には6月30日が退職日なのですが、本日が最終出社日*1なのでサイバーの同僚の皆さんと(同僚として)お会いするのはこれで最後です。 思えば、アカデミックなキャリアから民間企業キャリアに転じようと決心し、昨年の6月1日にサイバーに入社して以来、本当に色々なことがありました。 そもそも実はその正式な入社日以前から、12新卒エンジニアたちに混じってJava研修を受けさせてもらったり、その12新卒の彼らから物凄いカルチャーショックを受けたり(笑)*2、よくよく考えたらアカデミアでは一番の若手だったのにサイバーでは最年長レベルだと気付いて萎えたり*3、正式入社の直後にビッグサプライズがあったり*4、右も左もわからないうちに渋谷ラボ(当時)の室長を任されたり*5、突然外国人が半数以上の技術委員会の委員を引き受けることになったり*6

                          サイバーエージェントを退職しました - 渋谷駅前で働くデータサイエンティストのブログ
                        • マサカリの起源について - Qiita

                          はじめに 技術的な指摘をすることを「マサカリを投げる」と呼ぶ。ネットスラングにありがちだが、この言葉の意味は常に変動しており、地域、人によっても定義が異なる。現在では、何か自分で詰めが甘いことを書く時に「修正、批判コメント歓迎」の意味で「マサカリをお願いします」と言ったり、誰かが適当なことを書いてコメントやブコメで炎上している時に「さっそくマサカリ投げられてて草」というような使われ方をしているようだ。 この「マサカリ」という言葉がいつ、どのような形で使われるようになったのか、できる範囲で調べてみた。 2006年以前 僕は1990年代の後半から2000年の前半にかけて、Niftyのフォーラムや、いくつかの技術系メーリングリストに登録していたが、当時この意味での「マサカリ」という言葉を目にした覚えがない。とりあえず当時所属していて、現在過去ログが見られるDelphiやBCB-MLの過去ログで検

                            マサカリの起源について - Qiita
                          • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編)

                            基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWS:Amazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。 (本記事は「基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)」の続きです) 和製クラウドでトラブルが続き、やむなくAWSへ移行 インフラについて。やはり和製クラウドベンダのインフラは値段が高い。いろいろ話をして安くならないかと相談したけれど、無理でした。理由は簡単です。デ

                              基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編)
                            • その分析、Hadoopなら速く安くできます

                              ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

                                その分析、Hadoopなら速く安くできます
                              • ソラコムvEPCの衝撃:破壊的テクノロジーで今ある技術が「あの人は今」状態に - 経営とか個人の雑記

                                2004年くらいからITという産業に関わり始めて、その頃は主流はフレッツISDNくらいだった。そこからADSLになり、FTTHになって、FTTHが主流になったのは2007年くらいかな。体感として。わずか5年程度で主流が変わった。 ISDNの頃のATMの装置は切り替えられ、電話線がメタルに、ファイバーになった。 ファイバーになって収容装置は変わって、伝送距離、光の減衰を意識するようになり、考え方は大きく変わった。FTTH以上の固定回線技術はなかなか普及しないかも。 FTTHを効率的に使う技術は流行しても、それ自体は変わらなそう。GE-PONがG-PONに変わるくらいかな。 これと同じことがモバイルのパケットコアで起きていることに驚愕した。 EPCは従来、エリクソンやNEC、ノキアといった100年企業が作り上げてきたモバイルネットワークの完成系の一つで、これからはハードウェアをACTAベースか

                                  ソラコムvEPCの衝撃:破壊的テクノロジーで今ある技術が「あの人は今」状態に - 経営とか個人の雑記
                                • HadoopをWindows上の仮想マシンで手軽に試す方法

                                  Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

                                    HadoopをWindows上の仮想マシンで手軽に試す方法
                                  • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

                                    こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

                                      みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
                                    • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

                                      Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

                                      • 平成21年度産学連携ソフトウェア工学実践事業(高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業))事業成果報告書

                                        • 非英語ネイティブにとってのOSSのメンテナンスコスト - once upon a time,

                                          disclaimer: この記事を書いている人はClouderaというHadoop/Sparkのディストリビューターの会社にいます。 codelunch.fmの20回目を聞いていろいろ思うところがあったのでつらつら買いてみます。 codelunch.fm この回のcodelunch.fmでは、前職の同僚である丸山さん(@h13i32maru)と@hokacchaさんが、お互いの家庭環境の変化を交えながら個人プロダクトの開発について話しているエピソードです。これ自体なかなかおもしろい回なので、趣味でプロダクト開発している人は聞いてみるといいんじゃないかなと思います。 丸山さんはJasperやESDocを精力的に開発していますし、hokacchaさんはnodebrewやadventarを作られています。彼らの話していた、個人で趣味プロダクトを開発するモチベーションは何かというところは、以下のよ

                                            非英語ネイティブにとってのOSSのメンテナンスコスト - once upon a time,
                                          • Facebook、Twitter、PayPal、LinkedInのMySQL担当者は、MySQLをどう使い、何を課題だと考えているか~MySQL Connect 2013

                                            Facebook、Twitter、PayPal、LinkedInのMySQL担当者は、MySQLをどう使い、何を課題だと考えているか~MySQL Connect 2013 Facebook、Twitter、PayPal、LinkedInのMySQL担当エンジニアが集まり、それぞれの社内のMySQL利用状況、課題、これから期待する新機能などを語ったパネルディスカッションが、9月21日から23日までサンフランシスコで開催されたMySQLのイベント「MySQL Connect」の3番目の基調講演として行われました。 世界でもっともヘビーなMySQLユーザーといえる4社は、MySQLについてどのようなことを考えているのか、基調講演の内容をダイジェストで紹介しましょう。 Current MySQL Usage Models and Future Developments ──── まずはそれぞれの所

                                              Facebook、Twitter、PayPal、LinkedInのMySQL担当者は、MySQLをどう使い、何を課題だと考えているか~MySQL Connect 2013
                                            • Treasure Dataに入社しました - myui's memo

                                              3/31付けで4月から国立研究開発法人になった産業技術総合研究所を退職致しまして、4/1からTreasure Dataに入社しました。第一号のResearch Engineerとして東京オフィスで働きます。 CTOの太田さんから2013年頃に一度お誘いを受けておりましたが、2014年になってまた声を掛けて頂き、2年越しでの入社となりました。 なんでTreasure Data? 現在のTreasure Dataでは、毎秒45万レコード、4,000億レコード/日ものデータが投入されていて、Hiveで処理されるデータ量も3+ペタバイト/日と急速な発展をとげております。研究でもこの規模のデータ量を扱うことはGoogleやFacebook等の一部の研究者を除いてはありませんから、非常に挑戦的な課題に取り組める環境であることにDB研究者として第一に魅力を感じました。優秀なエンジニアが集まっていて刺激的

                                                Treasure Dataに入社しました - myui's memo
                                              • IBM Developer

                                                IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

                                                  IBM Developer
                                                • 新しく技術・知識を身に付けるためのやりかた - nigoblog

                                                  最近スキルの幅が広がったかなと思います。 理由としては ビジネスで要件がでる。 -> とある技術を使わなければいけない。 -> その技術を理解する&使う。 こういうフローが経営に近くなるほど起こりやすいのでスキルの幅がかなり広がっています。 最近で身に付けた技術は fluentd Hadoop (EMR) Hive Bandit Algorithm なんかを身に付けました。 どんなフローで身に付けていったかを簡単に書いていきます。 スライドシェアを見る 公式ドキュメントよりもまずはこっちを先に見るのがよいかと思います。 理由としては使い方以外に「なぜそれを使うのか」ということが同時にわかるケースが多いからです。 バンディットアルゴリズムの時には バンディットアルゴリズム入門と実践 バンディットアルゴリズム概論 この2つがかなり参考になりました。 入門書を読む イントロダクションはス

                                                    新しく技術・知識を身に付けるためのやりかた - nigoblog
                                                  • バッドデータハンドブック

                                                    TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。本書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した本書は

                                                      バッドデータハンドブック
                                                    • Linux Storage Filesystem/MM Summit 2014からの便り

                                                      Linux Storage Filesystem/MM Summit 2014からの便り:Linux Kernel Watch(1/2 ページ) お久しぶりです、Linux Kernel Watchが帰ってきました。3月に行われた「Linux Storage Filesystem/MM Summit 2014」の主なトピックを紹介します。 皆さん、お久しぶりです。私は今ボストンで、米レッドハット常駐という立場でRed Hat Enterprise Linux(RHEL)開発に携わっています。 今回はサンフランシスコ近郊のナパバレーで2014年3月24~25日に行われた「Linux Storage Filesystem/MM Summit 2014」(以下LSF/MM)の中から面白かったトピックをピックアップしてお届けしたいと思います。 LSF/MMはLinux Foundation主催で行

                                                        Linux Storage Filesystem/MM Summit 2014からの便り
                                                      • サイボウズのログ基盤 2018年版 - Cybozu Inside Out | サイボウズエンジニアのブログ

                                                        こんにちは。アプリケーション基盤チームの @ueokande です。 今日は、サイボウズの新しくなったログ基盤についてお話しします。 サイボウズのログ基盤の進化 リプレイス前のログ基盤 サイボウズのログ基盤はサービスの成長に合わせて、常に進化し続けてます。 そんななか2017年の夏に大きなリプレイス作業がありました。 サイボウズのサービスを支えるログ基盤 from Shin'ya Ueoka 以前のログ基盤は、ログを収集するホストがあり、各ホストからログを収集してました。 しかしログの転送システムが単一障害点であったり、スケーラビリティに欠けるのでサービスの成長に追いつかず、性能的にも限界に達してました。 また以前のログ基盤では、ログの解析がしにくく、ログはあるけどビジネスに役立てにくい状況でした。 そのため今後のサービスの成長や、より安定したログ基盤を運用できるように、ゼロから刷新するこ

                                                          サイボウズのログ基盤 2018年版 - Cybozu Inside Out | サイボウズエンジニアのブログ
                                                        • DotCloud - Deployment made simple

                                                          A simple application platform for professionals. Assemble your stack from pre-configured and heavily tested components. We support major application servers, databases and message buses. If we don't support it, ask. Join our beta “Dotcloud has reduced our time to deployment tremendously, using the same tools we were already using. As an independent developer, it;s nice not having to work with 12 d

                                                          • ラムダ禁止について本気出して考えてみた - 9つのパターンで見るStream API - Taste of Tech Topics

                                                            こんにちは @cero_t です。 今日のテーマは・・・ラピュタ禁止令! バルス! いや違う。ラムダ禁止令、です。 さて、なかなかの滑り出しですが、今日はただのラムダの紹介ではなく、禁止令に主眼を置いて語ります。 このエントリーは、Java Advent Calendar 2013の12/16分の投稿です。 http://www.adventar.org/calendars/145 前日は @sugarlife さんの JDK 8 新機能ダイジェスト (JDK 8 Features) です。 翌日は @setoazusa さんです。 ラムダ禁止令はあり得るのか? 勉強会やその懇親会などで、たびたび「ラムダ禁止令が出るのではないか」が話題に上ることがあります。 「そりゃ禁止する組織もあるでしょうね」というのがお決まりの答えなのですが、ただそれに従うだけでは面白くありませんし、要素技術の発展も

                                                              ラムダ禁止について本気出して考えてみた - 9つのパターンで見るStream API - Taste of Tech Topics
                                                            • 個人的に5年間のデータ分析業界見聞録をまとめてみた - 六本木で働くデータサイエンティストのブログ

                                                              (Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになってきているようで、歴史は繰り返す感を覚える今日この頃です。 ということで歴史が繰り返している感を再確認すべく、これまでのデータ分析業界の5年間を僕個人が見聞してきた範囲and/or記憶している範囲and/orサーベイできる範囲で振り返ってみようと思います。ほぼ完全に個人的にして私的なヒストリーのまとめですので、公的な用途には参照されぬよう厳にお願いいたします。。。また僕の守備範囲が「広告もしくはマーケティング」であるが故にこの2領域に偏っている点もご注意ください。特に機械学習サイ

                                                                個人的に5年間のデータ分析業界見聞録をまとめてみた - 六本木で働くデータサイエンティストのブログ
                                                              • Hadoop+Hive検証環境を構築してみる

                                                                Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

                                                                  Hadoop+Hive検証環境を構築してみる
                                                                • 自由と統制のバランスを追求し、アジリティの高いデータ組織を目指すリクルートの組織作りとは? - はてなニュース

                                                                  さまざまな事業領域にわたってサービスを展開する株式会社リクルートでは、7つの中核事業会社および機能会社を2021年4月に吸収合併し、組織全体を統合しました。今回ご紹介するデータ推進室は、統合に先んじて1年前の2020年4月に各事業会社のデータエンジニアが集まる形で組閣されました。 ▶ Recruit Data Blog | リクルートデータ組織のブログはじめました 事業領域が異なれば商慣習が異なり、それに合わせてデータの特性も大きく異なる中、統合から約2年がたち、どのような変化があり、どのように組織運営されているのでしょうか。データ推進室でユニット長あるいは部長としてチームをまとめる、阿部直之さん、田中孝昌さん、李石映雪さんの3人に話を伺いました。 ※この記事は株式会社リクルートによるSponsoredContentです。 ベストプラクティスが自発的に横展開される生態系的な進化 組織統合だ

                                                                    自由と統制のバランスを追求し、アジリティの高いデータ組織を目指すリクルートの組織作りとは? - はてなニュース
                                                                  • Rubyの会社でPythonistaが3ヶ月生き延びた話

                                                                    2. 自己紹介 @tokoroten 好きな言語はPythonとawk 画像処理、セキュリティ、自然言語処理、機械学習 2012年2月 ドリコム中途入社 前職は某通信会社研究所、会社を三年で辞めた若者 入社時点でRuby経験ゼロ うんこ部屋入社 http://onk.bz/data/2008-02-24/1000speakers2.html ソーシャルゲーム基盤開発本部 R&D&火消し&インフラ&データ収集&データ解析 =高機能雑用 3. 本日のアジェンダ データ解析の仕事の紹介 データ解析の基盤の紹介 データ解析の仕事の流れ データ解析の恐怖 ソーシャルゲーム屋の仕事の速さ Rubyの会社でRubyを書かないお仕事 リクルーティング的な何か 4. ドリコムのデータ解析基盤 データ解析 Hadoop Hive MySQL Rubyでゴリゴリ Pythonでゴリゴリ VBAでデータ加工 詳し

                                                                      Rubyの会社でPythonistaが3ヶ月生き延びた話
                                                                    • RubyでHadoopをラップ、分散処理ツールキットが登場 - @IT

                                                                      2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも

                                                                      • OSSのJob管理ツールを使ってみた感想 - Qiita

                                                                        先日ラスベガスで開催されたre:Inventに参加し、その際にデータ分析基盤系のセッションはほぼ参加したのですが、Job管理ツールの話がかなり出ていたのが印象的でした。 AWSにはData PipelineというJob管理サービスがあるのですが、それではなくOSSのJob管理ツールを使っているところが多い印象でした。 日本では自分の観測範囲だとまだ使っているところがあまり多くない印象ですが(実際自分もほとんど使ったことない)、いくつか候補を絞って触って見たので感想を書きます。 あくまでJenkinsしか使ったことがないような個人の感想としてお読みください。。 Airflow Airbnbが開発元 re:Inventでは多くのセッションで紹介されており、一番勢いがある印象を受けた。 依存関係はPythonで書く タスクの登録はUIからやるのではなく、コマンドラインから登録 Python力を前

                                                                          OSSのJob管理ツールを使ってみた感想 - Qiita
                                                                        • アプリとサーバーの通信にJSONではなくSQLiteを使うと幸せになれるかも知れない条件まとめ - アニマネ開発日誌

                                                                          軽い気持ちで投稿したら、思わぬ反響を頂いたこの話。 賛否両論で色々な意見を頂きました。 問題点も含めてある程度メリット・デメリットが見えてきたので、最後にまとめてみます。 ブコメ、Twitterで色々と意見を頂いた方々ありがとうございました。 この場を借りてお礼申し上げます。 前回までのおさらい クライアントとサーバー間で何らかのデータの受け渡しをする時に、 よく使われるフォーマットとしてJSONやXMLがあります。 構造がシンプルなテキストで汎用性が高いため、あらゆるプラットフォーム間の差異を吸収するフォーマットとしてメジャーな存在です。 モバイルアプリも例外ではないのですが、JSONなどを使わずにSQLiteのDBファイルを直接渡してやりとりするというのが先日書いた記事です。 SQLiteはクロスプラットフォームな上に1ファイルで完結するので、1つのファイルで様々なプラットフォームから

                                                                            アプリとサーバーの通信にJSONではなくSQLiteを使うと幸せになれるかも知れない条件まとめ - アニマネ開発日誌
                                                                          • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

                                                                            はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

                                                                            • 店舗経営を、テクノロジーによってシンプルでカンタンにしたい──飲食店も経営するエンジニアが新サービスに込める思いとは? - はてなニュース

                                                                              リクルートライフスタイルは、飲食店や小売店など、お店の日々の運営業務をサポートするさまざまなサービス「Airシリーズ」を提供しています。0円で簡単に使えるPOSレジアプリ「Airレジ」、カードも電子マネーも使える決済サービス「Airペイ」、予約管理をシンプルにするWebサービス「Airリザーブ」などに加え、2018年春、店舗経営の改善の仕組みを提供する、経営アシスタント「Airメイト」の提供を開始しました。その企画・開発の中心となったのは、当時入社1年目で、副業で飲食店経営をしているエンジニアでした。エンジニアが、自分のやりたいこと、着想したことをすぐに実行に移せる──そんなリクルートライフスタイルの環境について伺いました。 (上写真、左より)株式会社リクルートライフスタイル ネットビジネス本部の甲斐駿介さん、山口順通さん。 (※この記事は、株式会社リクルートライフスタイル提供によるPR記

                                                                                店舗経営を、テクノロジーによってシンプルでカンタンにしたい──飲食店も経営するエンジニアが新サービスに込める思いとは? - はてなニュース
                                                                              • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

                                                                                ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

                                                                                  【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
                                                                                • 2read.jp - このウェブサイトは販売用です! - まとめ ランキング 読書 ログイン 書籍 著者 小説 マンガ リソースおよび情報

                                                                                  このウェブサイトは販売用です! 2read.jp は、あなたがお探しの情報の全ての最新かつ最適なソースです。一般トピックからここから検索できる内容は、2read.jpが全てとなります。あなたがお探しの内容が見つかることを願っています!