並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 11443件

新着順 人気順

hadoopの検索結果161 - 200 件 / 11443件

  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

      FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
    • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

      Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

        “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
      • グーグルとアマゾンのクラウドの違い ― @IT

        2008/05/29 米グーグルは現地時間の5月27日、これまでプレビュー版として一部ユーザーに公開していたWebアプリケーションプラットフォームサービス「Google App Engine」(GAE)を、一般向けに公開すると発表した。同時に2008年後半に導入予定の料金体系も明らかにした。 これまで通り500MBのストレージ、月間500万ページビューまでの利用であれば無料。それを超える分については、1CPUコア1時間当たり10~12セント、1GB・1カ月当たり15~18セントかかる。通信帯域の月額は受信について1GB当たり9~11セント。送信については1GB当たり11~13セントとなっている。 この価格設定はAmazon Web Services(AWS)と極めて類似している。例えば「Amazon EC2」(Elastic Compute Cloud)は、1.7GBのメモリ、1CPUコア

        • 『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』ノート

          2012/10/09に開催された『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』のノートです。 SIをやっている人には是非読んでほしいです。私のノート作成スキルを割り引いてもさておいても …です。 ※(2012/10/10追記)上の文について、言葉の選び方が不適切だったので修正致しました。「私の資料作成能力の限界で、okachimachiorz1様の伝えたいことの半分も伝わっていないかもしれない。だけど、それでも読む価値がある内容です」ということが、上の文で私が言いたかったことです。申し訳ないです。 ◆今日の勉強会について ◇今日の構成 ・最初にokachimachiorz1様の話を40分くらい ・その後休憩を挟んで来ている人達で感想、深く聞きたいということを皆で話合う ・Q&A ◇この回をやろうと思った経緯 ・okachimachiorz1様のブログを一生懸命呼んでいるうち、そ

          • データサイエンティストに必要な3つのスキル | quipped

            久しぶりにタイトルで釣りにいっているが、ブラウザの「戻る」ボタンを押さないでくれw ... ... ... (よし、まだ「戻る」ボタンを押してない!) ぼく自身、データサイエンティストだったことはないが、一応大学では数学を勉強していたし、金融でクオンツトレーダーもやっていたし、人生3回分(と言ったら言い過ぎか)くらいのSQLクエリは書いている。なので、これから書くことは、本屋に立ち並ぶ歯の浮く様なビッグデータ談義よりは、普遍的な価値があると自負できる。 もう一つ本題に移る前に、「データサイエンティスト」という呼称について感じる両価的な感情について軽く説明したい。 ぼくは幸いにも優秀な同僚や友人に恵まれていて、彼らの中には、データ分析屋さんでありながら、データを集めてきて(広義の)データウェアハウスに突っ込むという非常に面倒くさい一連の作業もちゃっちゃか出来る奴が2、3人いる。そういうマルチ

            • はてなCTOが根掘り葉掘り! さくらインターネットのクラウドや仮想化に - はてなニュース

              2010年11月11日、幕張メッセで開催されたイベント「第2回クラウドコンピューティングEXPO」会場内に設置されたさくらインターネットの特設ブースで、さくらインターネットと、はてなのエンジニアによるパネルディスカッションが開かれた。その内容は、さくらインターネットが提供する「さくらのVPS」や、今後提供が予定されている「さくらのクラウド」、さらに新たにオープンする石狩データセンターなどに、はてなのエンジニアが激しくツッコミを入れるものだった。さくらのVPSやクラウド、データセンターの実際と、はてなが気にするサーバやデータセンターの使い方、技術を、Webエンジニアを対象にまとめる。 VPS(仮想専用サーバー)|さくらインターネット http://ishikari.sakura.ne.jp/blog/ 本パネルディスカッションのタイトルは「はてなが気になる、さくらの石狩IDCやクラウドや仮想

                はてなCTOが根掘り葉掘り! さくらインターネットのクラウドや仮想化に - はてなニュース
              • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

                執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型本この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

                  『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
                • Hadoopを用いた大規模ログ解析

                  JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

                    Hadoopを用いた大規模ログ解析
                  • 20年でソフトウェア開発の景色はどのぐらい変わったのか? - Qiita

                    PySpa統合思念体です。 某チャットで、「今時のOSSのプロジェクト管理とかのベストプラクティスが書いてある本ないかな、陳腐化早そうだしないか」みたいな話題が投入されました。その中で、エキスパートPythonプログラミングとか、Pythonプロフェッショナルプログラミングとかは思い出して紹介したけど、他の人からはShip It、Manage It、Release It三部作とか、達人プログラマーとかも出てきました。 このあたりの源流を辿ると、そういえば今流行ってる開発の源流としてはエクストリームプログラミングの開発系のプラクティスの遺伝子を受け継いでいるのが多いよな、そういえば当時から見て今ってどう変わっているのかな、という話題に。せっかくなので20年前を思い出しつつ、当時と今でどういう風に変わってきたのか適当にまとめてみます。 20年前の状況 XP白本こと、eXtreme Progra

                      20年でソフトウェア開発の景色はどのぐらい変わったのか? - Qiita
                    • Hadoopを使いこなす(1)

                      まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

                        Hadoopを使いこなす(1)
                      • 日々進化するHadoopの 「いま」

                        第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日本Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

                          日々進化するHadoopの 「いま」
                        • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

                          これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

                          • そろそろHadoopについてひとこと言っておくか - nokunoの日記

                            もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

                            • 「プログラミングを独習するには10年かかる」を読んでから10年以上経った - 科学と非科学の迷宮

                              ある方から「どうすればコードが書けるようになるんですか?」という質問を受けました。 その場で自分の考えを伝えたものの、そもそもソフトウェアエンジニアでもない自分がそんな質問をされる立場になると思ってもいなかったので、人生どうなるか分からないものだなと思いました。 色々と思考を巡らせていると、ふとプログラミングを独習するには10年かかるという記事があったことを思い出しました。 自分のブックマークを見ると、 Teach Yourself Programming in Ten Years 日本語訳[プログラミング][読み物][特選] 道は遠い。2005/08/08 10:25 b.hatena.ne.jp なんと10年どころか12年近くも前でした。当時どんな思いでこのコメントを書いたのかは分かりませんが、正直面白くないコメントです。 この記事をブックマークした当時は大学の研究室にいてCやらFOR

                                「プログラミングを独習するには10年かかる」を読んでから10年以上経った - 科学と非科学の迷宮
                              • NoSQLの現状

                                このため、NoSQLの知識を持つ開発者やアーキテクトに対する需要が高まってきています。最近の調査によると、最近必要とされる開発スキルは次の通りです。 HTML5 MongoDB iOS Android Mobileアプリ Puppet Hadoop jQuery PaaS ソーシャルメディア 技術的要求のトップ10の中で、NoSQLデータベースは2つあります。1つは、iOSよりも上です。これがNoSQLをほめているのでなかったら、何なのでしょう?! しかし、一見したところ、NoSQLはますます速く深いところまで適用されるようになっています。2011年の夏に、有名な報告書の中でOracleは次のように述べました。NoSQL DBがアイスクリームの味のように感じるかもしれないけれど、あまり深入りしない方がいい、NoSQLはそれほど長く残らないかもしれないから。そのわずか2、3ヶ月後、Oracl

                                  NoSQLの現状
                                • “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)

                                  シリコンバレーの日本人ベンチャーとして注目度の高いトレジャーデータのCTOである太田一樹氏とのインタビューが実現した。CEO芳川裕誠氏の家のベランダと熱海の温泉で始まった会社の起業物語やサービスのポイントなどを聞いた1時間のインタビューをほぼ加工なしで掲載する。 Hadoopのポテンシャルを感じ始めたときに声をかけてもらった TECH.ASCII.jp 大谷(以下、TECH 大谷):太田さんというと、Hadoopの人というイメージがありますが、そもそものバックグラウンドを教えてください。 トレジャーデータ 太田氏(以下、TD 太田):はい。もともと私のバックグラウンドはHPC(High Performance Computing)のエリアで、19歳くらいからあまり学校にも行かず(笑)、プリファードインフラストラクチャという会社のCTOをやらせていただきました。あと、米オレゴンの国立研究所で

                                    “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)
                                  • ログ集計システムを自前で作る - Y's note

                                    Index ログ集計システムの要件 DB設計 データ保存方針 table設計 サーバ構成 Fluentd fluentd,fluent-plugin-mysql-bulk install td-agent.conf mysqlにデータが格納される事を確認する 集計用のバッチ その他 Table肥大化防止 可視化 ログ集計システムの要件 爆弾ログ処理班の@yutakikuchi_です。 ログ集計システムというものを作る時に皆さんはどのように対応していますか? 以下の候補から要件のレベルで使い分けをしている人が多いと予想しています。ざっくりの評価ですが、導入難易度、正確性、可視化、リアルタイム、長期集計、スケール、運用費用という点で評価を書いています。 ツール 導入難易度 正確性 可視化 リアルタイム 長期集計 スケール 運用費用 リンク GA(スタンダード) ○ × ○ ○ ○ ○ ○ Go

                                      ログ集計システムを自前で作る - Y's note
                                    • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

                                      基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

                                        分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
                                      • NoSQLデータベースを40種類以上リストアップ、キーバリュー型にもいろいろある

                                        Webスケールのデータを扱うためにさまざまなデータベースが登場してきている、ということを昨日のエントリ「データベースは目的別に使い分けるべし」で紹介しました。 特にリレーショナルモデルをベースとしない、非SQL系(NoSQL)と呼ばれるさまざまな種類のデータベースが登場してきています。非SQL系のデータベースは以前からオブジェクトデータベースやドキュメントデータベース、階層型データベースなどが存在していましたが、最近注目されているのがキーバリュー型データストアと呼ばれるデータベース。 ブログ「High Scalability」にポストされたエントリ「A Yes for a NoSQL Taxonomy」では、これら非SQL系のデータベースを詳細に9分類し、それぞれの分類に属するデータベースをリストアップしています(基になったのは「NoSQL is a Horseless Carriage」

                                          NoSQLデータベースを40種類以上リストアップ、キーバリュー型にもいろいろある
                                        • BLOG::broomie.net: 機械学習の勉強を始めるには

                                          thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

                                          • 東芝、社会インフラなどで使われているNoSQL「GridDB」をオープンソースで公開。インメモリでビッグデータの高速処理が可能

                                            東芝は、これまでGridStoreとしてエネルギー管理システムなどの社会インフラで利用されてきた商用のNoSQLデータベースを、「GridDB」としてオープンソース化したことを発表しました。 GridDBはキーバリュー型を拡張したキーコンテナ型のデータモデルで、時系列データや2次元、3次元の空間データもサポートするNoSQL型データベース。 データをストレージではなくサーバーのメインメモリに配置し、インメモリで処理することで、ペタバイトクラスのビッグデータでも高速に処理が可能。 ノードを追加するだけで容量や性能を拡張、縮退できるスケールアウト機能、マスタスレーブ型とピアツーピア型の特長を合わせ持つハイブリッド型クラスタ管理方式の自律制御クラスタ管理により、SPOF(Single Point of Failure:単一障害点)を排除した高い可用性などが特長です。 東芝はオープンソース化の狙い

                                              東芝、社会インフラなどで使われているNoSQL「GridDB」をオープンソースで公開。インメモリでビッグデータの高速処理が可能
                                            • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

                                              大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

                                                日々進化するHadoop。これまでのおさらいと最近の動向(前編)
                                              • 1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?

                                                By Chris Halderman 1日の長さは通常24時間ですが、2015年7月1日はうるう秒(閏秒)が挿入されることで通常より1秒長い「24時間1秒」になります。うるう秒とは、現行の協定世界時(UTC)と地球の自転のズレを調整するために追加・削除される時間のことで、2012年7月1日に実施された際にはインターネット上でうるう秒バグが発生しました。 INTERNATIONAL EARTH ROTATION AND REFERENCE SYSTEMS SERVICE(IERS) http://hpiers.obspm.fr/iers/bul/bulc/bulletinc.dat フランスのパリに本部を置く国際地球回転・基準系事業(IERS)は、「うるう秒」を2015年6月30日(世界標準時)に実施することを発表しました。これにより2015年6月30日は23時59分59秒の後に23時59分

                                                  1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?
                                                • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

                                                  はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

                                                    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
                                                  • フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

                                                    はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

                                                      フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
                                                    • [速報]ついにきた! Amazonクラウドの東京データセンターが稼働開始

                                                      Amazonクラウドは3月2日23時、日本でのデータセンター「東京リージョン」の開設を発表しました。東京リージョンはすでに稼働を開始しており、現時点で利用可能になっています。 東京リージョンの利用価格はLinux/UNIXのスモールインスタンスで1時間あたり0.10ドル。ラージインスタンスで1時間あたり0.40ドルなど。今後数カ月の間に、決済に日本円を選択できるよう準備中とのこと。 Publickeyはすでに利用を開始している一部のパートナーの発言を聞く機会があり、「東京リージョンを試したところレイテンシは数ミリセカンドと、国内のほかのデータセンターと全く変わらない」と、国内データセンターならではのレスポンスを確認する発言を聞けました。 日本円での課金は数カ月以内、日本語でのテクニカルサポート開始 東京リージョンでもAmazonクラウドの主な機能はほとんど利用可能。ただしHadoopの機能

                                                        [速報]ついにきた! Amazonクラウドの東京データセンターが稼働開始
                                                      • 突撃!隣の開発環境 パート12【Treasure Data編】 in シリコンバレー | DevelopersIO

                                                        こんにちは!しんやです。今回はおおはしりきたけが書き連ねている人気シリーズ『突撃!隣の開発環境』に乗っかる形で私もこのシリーズエントリを書かせて頂きたいと思います。 突撃!隣の開発環境とは 技術事例やノウハウなどは、ブログや勉強会などで共有されることが多いと思います。しかし、各社の開発環境や開発体制などは意外と共有されていないこと多いと思います。ノウハウの流出になるかもしれませんが、それ以上に、より良い開発を目指している会社さん同士で情報交換を行い、良いチーム、良いプロダクトを作っていくという志の会社さんの為の情報共有のための企画になります。開発環境や開発体制なども技術領域によっても変わってくると思いますが、この突撃!隣のシリーズでは様々な会社さんのイケてるツールの使い方や、仕事が捗る開発体制についてインタビューを行っていく予定です。 Treasure Data社紹介 今回第12回目として

                                                          突撃!隣の開発環境 パート12【Treasure Data編】 in シリコンバレー | DevelopersIO
                                                        • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

                                                          新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

                                                            新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
                                                          • グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開

                                                            グーグルは、同社内でパラレルデータ処理に利用している言語「Sawzall」を、「Szl」というプロジェクト名のオープンソースとして公開しました。 書籍「Googleを支える技術」によると、Sawzallは分散処理のためにデザインされたDSL(Domain Specific Language)で、特定の用途に限っては非常に容易に処理を記述できるようになっているインタープリタ型のプログラミング言語。GFS(Google File System)とMapReduceを基盤とし、MapReduceをより簡単に実行できるものと説明されています。 なぜSawzallはオープンソースとして公開されたのか? グーグルは2003年8月に、論文「Interpreting the Data: Parallel Analysis with Sawzall」を発表し、これによってSawzallという言語がグーグルに

                                                              グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開
                                                            • 第1回 機械学習を実践する前の基礎知識 | gihyo.jp

                                                              みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています

                                                                第1回 機械学習を実践する前の基礎知識 | gihyo.jp
                                                              • Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析  テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース

                                                                日本アイ・ビー・エム(以下、日本IBM)の「IBM dashDB Local」は、プライベートクラウド/ハイブリッドクラウドに最適な構成を持つデータウェアハウス(DWH)向けの製品である。Dockerコンテナとしてデプロイ、スケールアウト(規模拡大)でき、データ量や処理負荷の急増に柔軟に対応できる。インメモリの列指向データベースと並列処理により検索処理を高速に実行する。システムの成長に柔軟に対応できるライセンス体系を備えている。 構成はITジャーナリストの星 暁雄です。記事の最後にはプレゼントのお知らせもあります。 (※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です) ▽ IBM dashDB Local - ハイブリッド・データウェアハウスを実現する Software-Defined DWH - Japan プライベートクラウド上でソフトウェアで定義されたスケーラブルなデ

                                                                  Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析  テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース
                                                                • Java 7 CMS GCの基本的な情報の整理 - nekop's blog

                                                                  バッチ処理などスループット重視のアプリケーションはデフォルトのパラレルGCで良いが、Java EEアプリケーションサーバなどレスポンスタイム重視のものやHadoopなどのクラスタ系ソフトウェアで死活監視に引っ掛る系などのstop the worldをなるべく避けたいいわゆるサーバ系ソフトウェアを運用する場合には、UseConcMarkSweepGCを付与して停止時間の短いCMS GCを使う。その場合にCMSのチューニングに踏み込もうとするとなんだか難しい記述がいっぱいで若干困るので、簡単なガイドをメモとして書いておく。 対象バージョンは以下。 $ java -version java version "1.7.0_51" OpenJDK Runtime Environment (fedora-2.4.5.1.fc20-x86_64 u51-b31) OpenJDK 64-Bit Serve

                                                                    Java 7 CMS GCの基本的な情報の整理 - nekop's blog
                                                                  • 大規模分散処理向けの国産“ウェブOS”をRubyで開発中 − @IT

                                                                    2007/11/26 2007年11月24日、「楽天テクノロジーカンファレンス2007」において、Ruby言語の開発者で楽天技術研究所フェローのまつもとゆきひろ氏は、開発中の大規模分散処理基盤「Roma」(ローマ)と「Fairy」(フェアリー)のコンセプトを語った。研究段階ではあるものの、米グーグルなど世界トップクラスのネット企業だけが持つ大規模分散処理技術に真っ向から挑戦する試みだ。 米グーグル、米ヤフー、米アマゾンなど世界トップクラスの大手ネット企業は、巨大なトラフィックに対処するため、大規模データセンターの信頼性、可用性、性能などを確保する大規模分散処理基盤の研究開発を進めている。最近では、こうした大規模分散処理基盤は“ウェブOS”と呼ばれることもあり、注目を集めている。つまり世界トップクラスのネット企業は“ウェブOS”を自社開発しているわけだが、楽天でも国産の“ウェブOS”が生まれ

                                                                    • TechCrunch | Startup and Technology News

                                                                      Cloudera, the once high flying Hadoop startup, raised $1 billion and went public in 2018 before being acquired by private equity for $5.3 billion 2021. Today, the company announced that…

                                                                        TechCrunch | Startup and Technology News
                                                                      • ウェブ系エンジニアがおさえておきたい技術ブログまとめ(海外編) - nokunoの日記

                                                                        こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。 企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge

                                                                        • Treasure Dataを支える(中の人に必要な)技術 - myui's memo

                                                                          Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行本(ソフトカバー)購入: 47人 クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

                                                                            Treasure Dataを支える(中の人に必要な)技術 - myui's memo
                                                                          • AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方

                                                                            リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活

                                                                              AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方
                                                                            • オープンソースの開発現場では限られたリソースで品質管理をどうしているのか。Twitter4J、GitBucket、Asakusa Framework、power-assertの作者が討論(前編)

                                                                              和田氏 このセッションは、OSSにおける品質管理やテストなどをどう考え、運営しているのか、という内容でパネルディスカッションをさせていただきます。まずは登壇者がどんな方か、自己紹介してもらおうと思います。 竹添氏 ビズリーチの竹添と申します。転職サービスの会社なのですが、今日は個人で「GitBucket」という、GitHubのような機能を提供するWebアプリケーションを作っているので、その立場で参加させていただきます。 もともと僕はSIerにいて、そのときはGitHubのような外部のサービスを使えなくて、それで社内でもGitHubのようなサービスが使えたらいいなと思ってGitBucketをはじめました。 なのでGitBucketはGitHubを参考に開発を始めたのですが、同じようなニーズを持ったお客さんが国内にも、海外にも多くいるので開発を続けています。 川口氏 ノーチラス・テクノロジーズ

                                                                                オープンソースの開発現場では限られたリソースで品質管理をどうしているのか。Twitter4J、GitBucket、Asakusa Framework、power-assertの作者が討論(前編)
                                                                              • サンのクラウドは、Amazon EC2とどう違うのか? - @IT

                                                                                2009/06/02 サン・マイクロシステムズが2009年夏にも提供を開始するクラウドサービス「Sun Cloud」の概要が見えてきた。同社のクラウドサービスはOpenSolarisベースの仮想環境で、Amazon EC2/S3に相当するサービスを提供するものだ。計算リソース(OSやアプリケーションなどのソフトウェア実行環境)を提供する「Sun Cloud Compute Service」とストレージサービスの「Sun Cloud Storage Service」で構成する。 価格などまだ不明な点は多いが、技術情報は徐々に出てきている。例えばストレージサービスに関してはWebDAVやAmazon S3互換のRESTful APIでアクセスできることが明らかにされているほか、APIのドキュメントやJavaで書かれた管理コンソール、PythonやRuby向けのライブラリが公開されている。スクリ

                                                                                • はてなブックマークの関連エントリー機能開発、PFI さんとの合宿 - naoyaのはてなダイアリー

                                                                                  はてなブックマークに関連エントリーを配信する機能を追加しました。詳しくは 告知日記で。 この関連エントリーは、株式会社プリファードインフラストラクチャー (以下 PFI) の技術者のみなさんと一緒に開発しました。週末に2泊3日で京都で合宿をしてコア部分を作り、その後京都と東京に分かれてオンラインで連絡を取りながら2週間ほど作り込みをして、今日リリースです。 この合宿では何チームかに分かれて、今回の関連エントリーの機能以外の開発も行っています。その辺の成果はまた後日にリリースできるのではないかと思います。 はてなブックマークの一つの問題として、昔のエントリーがデータベースに埋もれてしまうという点がありました。その問題の解決策としての類似記事抽出、それから検索機能の強化を以前から考えていました。PFI のメンバーのみなさんは情報検索技術のスペシャリストです。アカデミックな研究の成果を製品化を通

                                                                                    はてなブックマークの関連エントリー機能開発、PFI さんとの合宿 - naoyaのはてなダイアリー