並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 11443件

新着順 人気順

hadoopの検索結果361 - 400 件 / 11443件

  • Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog

    研究開発グループの takahi-i です。 先日名前だけご紹介したAnuenue というツールをご紹介させていただきます。Anuenue は Apache Solr のラッパーであり、検索クラスタの構築と運用を容易にする目的で制作されました。 本稿では始めに Apache Solr を選択した理由について述べ、その後、このツールを開発した背景とその目的をご紹介させていただきます。後半では実際に Anuenue を用いて検索クラスタを立ち上げます。 なぜ Apache Solr を採用したのか 昨年の秋、弊社の検索エンジンを置き換えるという計画が社内で策定され、ベースとなる検索エンジンの選定のために多くの OSS 検索エンジンを比較検討しました。このとき重視したのは一台の検索パフォーマンスと同時に、保守の容易さと、開発コミュニティの規模です。 検索エンジンの保守性に関して特に重要と考えたの

      Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog
    • [レポート]NoSQLの必要性と主要プロダクト比較 #dbts2015 #be_crazy_about_db_tech | DevelopersIO

      超おはようございます。最近めっきり暑くなってきましたね。城内です。 今回は、db tech showcase Tokyo 2015に参加してきましたので、セッションレポートを書きたいと思います。 セッション情報 セッション名:NoSQLの必要性と主要プロダクト比較 スピーカー:株式会社野村総合研究所 OpenStandiaチーム 渡部 徹太郎氏 スライド オープンソース サポート 保守 サービス(OSS サポート 保守 サービス)| OpenStandia™(オープンスタンディア) セッション内容 データを取り巻く環境の変化 データのボリュームが肥大化 →GoogleやFacebookの保持データがペタバイト級に データ処理の応答スピードが重要に →Webサイトのアクセス数が秒間10万アクセス データの多様性 →非構造データが増えてきているため、RDBMSでは格納が困難 RDBMSの現状

        [レポート]NoSQLの必要性と主要プロダクト比較 #dbts2015 #be_crazy_about_db_tech | DevelopersIO
      • クラウド時代の分散データベースを支える技術の応用と進歩 - kuenishi's blog

        teespring.com 分散データベースというのは、それ単体でもとても難しい、データベースと、分散システム双方の技術の粋を結集して実現されるアプリケーションだ。これをサービスといったり、ミドルウェアといったりする場合もあるが、今回は技術を応用してつくったものという意図でアプリケーションと位置づけることにする。まあ古くて新しい問題で、死屍累々の世界でありながら、それでいて金の鉱脈でもある世界だ。イカのようなトピックを概説していくことで、近年の流れをメモしておきたい。 Pre-cloud era: クラウド以前の時代 BigTable, DynamoとCAP定理 MegaStore 研究: Calvin Jepsen: できたら☎してよ〜 Coordination free database Spanner: 何でもできるよ!! Kudu+Impala Next? クラウド以前の時代 Sy

        • Delta Lake とは何か - connecting the dots

          はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

            Delta Lake とは何か - connecting the dots
          • Java News

            Java Performance Tuning News no.109(12月版) ■015.004.008 [ EVENT ] 4月8日 Java Day Tokyo 2015 開催! http://www.oracle.co.jp/jdt2015/ ■014.005.022 [ EVENT ] 5月22日 Java Day Tokyo 2014 開催! https://oj-events.jp/public/application/add/169?ss_ad_code=wlc01 ■013.004.011 [ EVENT ] 5月11日 JJUG CCC 2013 Spring開催! http://www.java-users.jp/?page_id=330 ■012.004.004 [ EVENT ] JavaOne Tokyo 2012, 日本では7年ぶりのJavaOne開催! h

            • Netflix のスケール

              現在日本でサービスを提供していないため目にすることは少ないですが、AWS のベストプラクティスと呼び名が高い Netflix のスケールをメモ。ベストプラクティスと言われるだけあって、記事も解説も豊富です。まー規模が桁違い過ぎるので読み飛ばしていたってのが正直なところですが、V 先生ドリブンで資料を読み直しました。AWS の How-to 記事は日本語でも山ほどあったので、自社データセンターから AWS へ移行した過程を中心に書きたいと思います。Netflix のテクノロジーについては以下を参考にしました。 The Netflix Tech Blog @slideshare @github >>> サービスの規模 Netflix は主に北米で VOD と DVD 郵送レンタルサービスを提供している会社です。ほとんど VOD で、今後 DVD 郵送レンタルは縮小するらしい。AWS の資料も

                Netflix のスケール
              • 頓挫した技術系アドベントカレンダーの一覧(2013年)とは (トンザシタギジュツケイアドベントカレンダーノイチランニセンジュウサンネンとは) [単語記事] - ニコニコ大百科

                頓挫した技術系アドベントカレンダーの一覧(2013年)単語 トンザシタギジュツケイアドベントカレンダーノイチランニセンジュウサンネン 8.2千文字の記事 5 0pt ほめる 掲示板へ 記事編集 概要FAQあうとーのアドベントカレンダーの一覧生き残っているアドベントカレンダーの一覧注意関連項目掲示板書 か ね ば 概要 技術評論社の「本日12月1日より,プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる」に記載されている一覧の「主にITやプログラミング,科学に関するもの」の部門のアドベントカレンダーをチェック対象とする。 チェックを行った時に掲載されているべき日付(日本時間)が過ぎても記事が存在していなかったアドベントカレンダーを「あうとー」と判定する。 FAQ チェックはどのようなシステムで実行されていますか? 人力です 判定メソッドは? チェックを行う日

                  頓挫した技術系アドベントカレンダーの一覧(2013年)とは (トンザシタギジュツケイアドベントカレンダーノイチランニセンジュウサンネンとは) [単語記事] - ニコニコ大百科
                • そのソフト,売る?売らない?

                  「Googleの凄さは,Failure-oblivious computing(エラー忘却型コンピューティング)のような新しい概念を,世界で初めて大規模に取り入れていることだと思います」--そう語るのは,楽天技術研究所の森正弥所長。4月に始めたクラウド・コンピューティングの取材も,随分と遠いところまで来たな--と筆者は思わずにはいられなかった。 エラー忘却型コンピューティング(failure-oblivious computing)とは,米Massachusetts Institute of Technology(MIT)のMartin Rinard氏らが提唱した概念(Rinard氏らの論文)。メモリーに何らかのエラーが発生したとしても,プログラムの処理を停止するのではなく,エラーを無視して処理を継続するという考え方だ。楽天技術研究所の森氏は,こう例えながら説明する。 データをキーと値(V

                    そのソフト,売る?売らない?
                  • Google Compute Engineのココがイケてるイケてない - Qiita

                    仕事柄、GoogleのIaaSであるGoogle Compute Engine (GCE)を使ったり、またはガッツリ使っている人の話を聞いたりすることが多いので、これまで感じたり耳にしたりしたGCEの良い所・そうでもない所をまとめておく。 まずは、あんまりイケてない点。 ここがイケてない! データセンターが東京ではなさそう Googleは今年4月にアジア地域にGoogle Cloud Platform (GCP)のデータセンターを開設しており、ここが日本からは最寄りのDCということになる。実際、ゾーンとして「asia-east1-a」等を指定して作成したインスタンスを作成し、pingを打ってみると、おおよそ40msくらいの距離にあることが分かる。東京ではなさそうだ。なので、この遅延がユーザー・エクスペリエンスに影響するようなシビアなリアルタイム性の要求される用途には向いていない。 GCEの

                      Google Compute Engineのココがイケてるイケてない - Qiita
                    • 大量データのバッチ処理を高速化するHadoop

                      Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日本国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoop本の邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

                      • 人工知能はビジネスをどう変えるか 「ヒト・モノ・カネ」から「ヒト・データ・キカイ」へ  | DHBR最新号から|DIAMOND ハーバード・ビジネス・レビュー

                        急速に実用化が進み出した人工知能。今後、人の仕事が機械に奪われるかのような議論も多いが、そもそも「知的作業」とは何か。そして人が得意な作業と機械が得意な作業を分類して考えないと、議論は錯綜したままである。一方で、ビッグデータの登場と情報処理技術の急速な発展により、人工知能が今後のビジネス環境に歴史的な変曲点をもたらすのは間違いない。人がやるべき仕事が決定的に変わる世界では、価値の概念も変わる。人工知能がもたらすビジネスへの影響を、脳科学とデータ分析に造詣が深い筆者が語る。『DIAMOND ハーバード・ビジネス・レビュー』11月号より、抜粋してお届けする。 歴史的変曲点をもたらす3つの変化 2015年5月28日、深層学習(ディープラーニング)を搭載した、世界で初めて大規模で展開するサービスGoogleフォトがリリースされた。このアプリは、スマートフォンなどに保存された写真データを、自動で分

                          人工知能はビジネスをどう変えるか 「ヒト・モノ・カネ」から「ヒト・データ・キカイ」へ  | DHBR最新号から|DIAMOND ハーバード・ビジネス・レビュー
                        • 「達人が語る こんなデータベース設計はヤダ!」へ参加してきました - 虎塚

                          あの『達人に学ぶDB設計 徹底指南書』を書かれたミックさんが講演されると聞いて、Club DB2さんの勉強会に初めてお邪魔してきました。 「第146回 達人が語る こんなデータベース設計はヤダ!」 https://www.ibm.com/developerworks/wikis/display/clubdb2/146 非常に面白く、勉強になりました。せっかくなので、備忘メモをupしておきます。 (内容に誤りがあったり、もし掲載自体に問題があったりしましたら、修正・削除しますのでお知らせください。>関係各位) 本編 (追記)発表資料にリンクしました。 http://d.hatena.ne.jp/mickmack/20120714/1342246442 ミックさんが「これだけは覚えて帰ってください」とおっしゃった3つのポイントを引用します。 トレードオフ うまい話には裏がある。 物理 vs 論

                            「達人が語る こんなデータベース設計はヤダ!」へ参加してきました - 虎塚
                          • 伊藤直也氏が語る、分散アプリケーションアーキテクチャの現在 ~Reactive SystemとMicroservices【デブサミ秋2015 基調講演レポート】

                            ストリームデータを即時にWebに反映する「リアルタイムWeb」は、TwitterやFacebookなどが普及したことでそう目新しい技術ではなくなった。しかしその実装は、まだまだ力業でなされていることが課題だ。「Developers Summit 2015 Autumn」のKaizen Platform 伊藤直也氏によるセッションでは、リアリタイムWebを実現する分散アプリケーションアーキテクチャの昨今について、「Reactive System」と「Microservices」という2つのキーワードから読み解かれた。 Kaizen Platform 技術顧問 伊藤直也氏 講演資料「分散アプリケーションアーキテクチャ 2015」 ストリーム処理は現状、まだまだ力業で乗り切っている まず、かつては大量トラフィックとデータを、どのように処理していただろうか。LAMP環境を作り、RDBにデータを溜め

                              伊藤直也氏が語る、分散アプリケーションアーキテクチャの現在 ~Reactive SystemとMicroservices【デブサミ秋2015 基調講演レポート】
                            • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                              こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                                高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                              • 【総計5万はてブ!】QiitaのAdvent Calendarのはてブ数をNode.jsで集計してRactive.jsで表示する

                                【総計5万はてブ!】QiitaのAdvent Calendarのはてブ数をNode.jsで集計してRactive.jsで表示するNode.jsRactiveJS 総はてブ数: 50,681 総記事数: 3,818/5,350 テーマ数214 【完走✕】1位 Git はてブ数合計: 2018, 記事数: 22 【完走○】2位 Vim はてブ数合計: 1887, 記事数: 25 【完走✕】3位 クローラー/スクレイピング はてブ数合計: 1759, 記事数: 24 【完走✕】4位 Yahoo! JAPAN Tech はてブ数合計: 1700, 記事数: 22 【完走○】5位 Pepabo はてブ数合計: 1622, 記事数: 25 【完走○】6位 Webアプリエンジニア養成読本 はてブ数合計: 1413, 記事数: 25 【完走✕】7位 VirtualDOM はてブ数合計: 1370, 記事数

                                  【総計5万はてブ!】QiitaのAdvent Calendarのはてブ数をNode.jsで集計してRactive.jsで表示する
                                • JMeterとJUnitとMavenで独自プロトコルサーバーの負荷テストを自動化するぞ | GREE Engineering

                                  こんにちは、インフラストラクチャ本部の@nagaseyasuhitoです。このエントリは GREE Advent Calendar 2014 10日目の記事です。昨日はイケメンmoritaさんによる男性エンジニアリングマネージャが長期育休を取った話でした。 エンジニアブログのアカウントは2年くらい前からあるのですが、これが初エントリになります。グリーでは比較的珍しいJavaEEを始めとしたサーバーサイドJavaアプリケーションの開発、SolrやHadoopといったミドルウェアの周辺機能開発や運用などを行っています。どうぞよろしくお願いします。 最近はPvE/PvP/GvGなどユーザー同士がリアルタイムに協調プレイする際、クライアント-サーバー間を常時接続通信で行うゲームが増加しています。このような場合はHTTPのREST APIなど慣れ親しんだプロトコルでは要件を満たしきれないため、Web

                                    JMeterとJUnitとMavenで独自プロトコルサーバーの負荷テストを自動化するぞ | GREE Engineering
                                  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

                                    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日本語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

                                      Hadoopリンクまとめ(1) - 科学と非科学の迷宮
                                    • 第5回 Elasticsearch 入門 Elasticsearch の使いどころ | DevelopersIO

                                      今回は少し、思考を変えてシステムを開発する際にどんなところで Elasticsearch を使えるのか?という視点で説明したいと思います。 最近のシステムの特徴 最近のシステムは、ビッグデータの重要性の認知、ソーシャルデータの活用など、1つのシステムでも様々な種類のデータを管理し活用するようになってきました。また、クラウドサービスやオープンソースが当たり前に使われるようになり、データを管理し活用するためのシステムやサービスも様々な選択肢があります。 そのため、最近のシステムではデータの利用目的によってデータストアを使い分けることが多くあります。 例えば、商品情報など構造化されたデータは、ビジネス要件を満たすためにデータを矛盾なく永続化する必要があるため、MySQL などのリレーショナル・データベースに保存されます。 また、更新や参照トラフィックが多くデータ数も多いゲームやモバイルアプリケー

                                        第5回 Elasticsearch 入門 Elasticsearch の使いどころ | DevelopersIO
                                      • アマゾン、ウィザードだけで使えるHadoopサービス開始 - @IT

                                        2009/04/02 米アマゾンの子会社、Amazon Web Services(AWS)は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。 ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ

                                        • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

                                          今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると本当に上長に叱られますの

                                          • 日本を代表するビッグデータ技術者集団が米国で起業、米トレジャーデータがDWHクラウド開始

                                            写真2●トレジャーデータのメンバー。CEOは米レッドハットなどで勤務した芳川裕誠氏。CTOの太田一樹氏はプリファードインフラストラクチャーの前CTO。楽天で分散キー・バリュー・ストアのROMAを開発した西澤無我氏、OSSのログ収集ツールFluentdやメッセージングミドルウエアMessagePackを開発した古橋貞之氏、MongoDB JPの設立メンバー井上敬浩氏などが参加している 米トレジャーデータは2012年9月27日(米国時間)、データウエアハウス(DWH)のクラウドサービスである「Treasure Data Cloud Data Warehouse(DWH) Service」を開始したと発表した。「Hadoop」をベースにしたDWHだが、Hadoop独自の「MapReduce」ではなく、SQLのクエリーや「JDBC」「ODBC」などを使って蓄積したデータを活用できることが特徴。米国

                                              日本を代表するビッグデータ技術者集団が米国で起業、米トレジャーデータがDWHクラウド開始
                                            • ナビタイムが全サービスをAWS移行 アンチパターンてんこ盛りでGPUは生かせるか (1/2)

                                              関連キーワード Amazon Web Services | Amazon EC2 | Cloud Foundry | 事例 | クラウドコンピューティング | クラウドサービス | サーバ仮想化 | 仮想化 | 仮想環境管理 | 仮想マシン(VM) 地図ポータルサイト/ナビゲーションサービス「NAVITIME」を運営するナビタイムジャパンは2018年6月、Amazon Web Servicesの年次カンファレンス「AWS Summit Tokyo 2018」に登壇。「AWS Summit Tokyo 2017」に続き、2018年も示唆に富んだ発表をした。全サービスを「Amazon Web Services」(AWS)へ移行するプロジェクトで得たノウハウや効果に加え、今回はGPU(画像処理プロセッサ)を利用したインスタンス(仮想マシン)であるGPUインスタンスを使った経路探索の実証実験につい

                                                ナビタイムが全サービスをAWS移行 アンチパターンてんこ盛りでGPUは生かせるか (1/2)
                                              • 分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)

                                                ■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 吉田 耕陽Read less

                                                  分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)
                                                • TechCrunch | Startup and Technology News

                                                  Welcome to Startups Weekly — Haje‘s weekly recap of everything you can’t miss from the world of startups. Sign up here to get it in your inbox every Friday. Well,…

                                                    TechCrunch | Startup and Technology News
                                                  • ミクシィのNoSQLデータベース「Tokyo Tyrant」をNetVibesが採用した理由

                                                    カスタマイズ可能なポータルサービスを提供するフランスの「NetVibes」は、バックエンドデータベースとしてミクシィの平林幹雄氏が開発し、同社内でも利用されているNoSQLデータベースの「Tokyo Tyrant/Tokyo Cabinet」(以下Tokyo Tyrant)を採用しているそうです(追記:平林氏は7月末でミクシィを退職されるとのこと)。 なぜNetVibesはTokyo Tyrantを採用したのか、その理由がmyNoSQLの記事「Netvibes: A Large Scale Tokyo Tyrant Deployment Case Study」で紹介されています。NetVibesは、Hadoop、CouchDB、Tokyo Tyrant、File system、MySQLを評価した上でTokyo Tyrant/Tokyo Cabinetを採用したとのこと。 NetVibes

                                                      ミクシィのNoSQLデータベース「Tokyo Tyrant」をNetVibesが採用した理由
                                                    • 社内の技術トレンドを大公開!Wantedlyのエンジニアが使ってる技術、注目している技術は? | Wantedly Engineer Blog

                                                      こんにちは。Wantedlyでエンジニアをしている森脇です。 先日とある機会があって、社内のエンジニアにアンケートを行いました。その内容は、この2つです。 仕事中によく検索するキーワードはなんですか?最近気になっている技術・話題はなんですか?その結果を眺めていると、あまり知らない名前が出てきたりして、調べながらまとめてまとめるだけで幅広い分野のトレンドを理解するのに役立ったので、せっかくなのでこのエンジニアブログで公開することにしました。 広い分野のトレンドが知りたい人は、ぜひブックマークしていただければと思います。 話題の粒度がバラバラだったり、自分が知らないところは内容が薄かったりしますが、ご容赦ください。きっと会社による偏りが出てたりすると思うので、面白いと思った人は、あなたの会社でも調べてみてはいかがでしょう? バックエンドRuby on RailsWantedly Visitのバ

                                                        社内の技術トレンドを大公開!Wantedlyのエンジニアが使ってる技術、注目している技術は? | Wantedly Engineer Blog
                                                      • AWS Lambdaの処理性能を言語毎に測ってみた - Taste of Tech Topics

                                                        こんにちは、@kojiisdです。 この間AWS Summit Tokyoに参加してきたのですが、皆一様に「AWS Lambda」を、 これからのサーバレスアーキテクチャを支える技術として紹介していましたね。 資料でも言葉でも多分に見聞きしており、軽いゲシュタルト崩壊を起こしている今日この頃、 皆さんはいかがお過ごしでしょうか。 さて、今回はAWS Lambdaです。 AWS Lambdaの処理はJavaやNode.js、Pythonなどの言語で記述することができますが、その性能差がどの程度あるのか?測ってみました。 構成 今回の構成は次の様なシンプルなものにしています。 [計測対象(言語)] Python Node.js Java [計測対象(カテゴリ)] 処理速度 使用メモリ [Lambdaでの処理内容] API Gatewayでリクエストを受け付け Lambda内でDynamoDBか

                                                          AWS Lambdaの処理性能を言語毎に測ってみた - Taste of Tech Topics
                                                        • リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey

                                                          米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY

                                                            リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey
                                                          • 最近のサーバの抽象化について - As a Futurist...

                                                            学者でもなんでもない現場のいちエンジニアの感想です。しかも、どれもちゃんと使ったことないので、聞きかじりをまとめたメモ書きなので嘘が入ってますが、興味ある方がいればどうぞ。 はじめに かつては「OS=物理サーバ」であって、その物理サーバの資源(CPU,RAM,DISK,etc.)をどのように使うかは OS がプロセスに割り振る形で決定されていました。しかし、それでは例えば以下の様な問題があります。 ファイルシステム資源をプロセスが自由にコントロールできない ProcA と ProcB で使いたい libfoo のバージョンが異なる場合面倒 CPU, RAM 資源もコントロールしにくい 同居してるプロセスがメモリ食い尽くして、みんな死亡、みたいな そもそも異なる OS を同居して使うことができない CentOS ばかり使ってるのに、使いたいライブラリが Debian でしか動かないとか 解決

                                                              最近のサーバの抽象化について - As a Futurist...
                                                            • AWS Organizationsによるマルチアカウント戦略とその実装 - クラウドワークス エンジニアブログ

                                                              SREチームの @tmknom です。ジョジョ5部のアニメ化に興奮を隠せない今日このごろです。 みなさん、AWS Organizationsは使ってますか? クラウドワークスでも最近使い始めました。AWS Organizations、超絶便利です。こんなに便利なのに、意外と公開されてる事例が少なくて、ぐぬぬってなります。というわけで、使い始めたばかりですが、サクッと公開してみます。他の会社さんも、公開してくれ!! AWS Organizations マルチアカウント戦略 先行事例の調査 コンセプト策定 Terraform戦略 Terraformモジュールによる共通化 インフラテンプレート VPCのIPアドレス空間 メールアドレスの管理ポリシー OU(Organizational Unit)の責務 管理用AWSアカウントの責務 Masterアカウントによるアカウント管理 組織 OU(Orga

                                                                AWS Organizationsによるマルチアカウント戦略とその実装 - クラウドワークス エンジニアブログ
                                                              • データ民主化の負の側面 - wyukawa's diary

                                                                データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、 クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように

                                                                  データ民主化の負の側面 - wyukawa's diary
                                                                • HRForecast - もうひとつのデータビジュアライズツール - blog.nomadscafe.jp

                                                                  ずいぶん前から作って動かしてはいるのですが、GrowthForecastの他にもうひとつのグラフ作成ツールを公開しています。 https://github.com/kazeburo/HRForecast デイリーで更新される数値のビジュアライズに使う事が出来ます。GrowthForecastにはない過去データの登録もできます。 モリスさんのスライドでも少し登場しています。弊社では主にHiveでの集計の書き出し先として使っています http://www.slideshare.net/tagomoris/log-analysis-with-hadoop-in-livedoor-2013 画面はこんな感じ 他のページにembedするHTMLの発行やCSVでダウンロードをサポートしています データの登録APIについて データの登録は、GrowthForecastと同じようにURIに対してPOSTリ

                                                                  • 固有ベクトル、主成分分析、共分散、エントロピー入門 | POSTD

                                                                    (2015/11/19、記事を修正いたしました。) 目次 線形変換 主成分分析(PCA) 共分散行列 基底変換 エントロピーと情報の取得 とにかくコードが欲しい方へ その他の参考資料 本稿は固有ベクトルと行列との関係性について、平易な言葉で、数学にあまり詳しくなくても分かるように書いてみました。この発想に基づいて、PCA、共分散、情報エントロピーについても説明します。 固有ベクトルは英語で「eigenvector」ですが、この eigen はドイツ語で、「そのものだけが持つ」という意味です。例えばドイツ語の「mein eigenes Auto」は、「ほかならぬ私が持つ車」というニュアンスです。このようにeinenは、2つのものの間に存在する特別な関係性を意味します。独特、特徴的、その性質を端的に示すものということです。この車、このベクトルは、私だけのもので、他の誰のものでもありません。 線

                                                                      固有ベクトル、主成分分析、共分散、エントロピー入門 | POSTD
                                                                    • AWSはなぜ、ECSがあるのにKubernetesのサービスを始めたのか、コックロフト氏に聞いた

                                                                      AWSはなぜ、ECSがあるのにKubernetesのサービスを始めたのか、コックロフト氏に聞いた:AWSとオープンソース(1) Amazon Web Servicesが、オープンソースへの取り組みを強めている。同社は具体的に、何をどのようにやろうとしているのか。AWSクラウドアーキテクチャ戦略バイスプレジデントのエイドリアン・コックロフト氏へのインタビューを、2回に分けてお届けする。前半では特に、Kubernetesベースのコンテナ管理基盤運用サービスを提供開始した理由などを聞いた。 Amazon Web Services(以下、AWS)が、オープンソースへの取り組みを強めている。同社は具体的に、何をどのようにやろうとしているのか。本連載では、同社におけるオープンソースへの取り組みを指揮する、AWSクラウドアーキテクチャ戦略バイスプレジデントのエイドリアン・コックロフト(Adrian Co

                                                                        AWSはなぜ、ECSがあるのにKubernetesのサービスを始めたのか、コックロフト氏に聞いた
                                                                      • LL言語が後退局面に差し掛かっている件

                                                                        LLやばくねー 2年ぐらい前からやばくねー2003年から2009年にかけてPerlを筆頭にPHP,Ruby,Javascript,PythonなどのLL言語はこの世を謳歌していたが、どうやら去年頃からその成長に陰りが見え始めたように感じている。 webアプリケーションを構成する要素の一つとしてLLを見れば、まあ、よくやっている方だし、そちらの分野では今後も相当長く現役を続けるだろう。 しかし今はまさに超大規模データをほぼリアルタイムで解析して加工しなおされたデータにこそ富を生み出すポテンシャルを秘める時代だ。Hadoopが何かさっぱりわかっていないエンジニア連中はKENT時代のPerler程度の価値しかない。 テラが当たり前のように乱れ飛ぶ現場でLLが出来る事など無いに等しい。 IDEの進化がLLの優位性をかき消したeclipseやnetbeansなどIDEは地味なのであまり報道されないけ

                                                                          LL言語が後退局面に差し掛かっている件
                                                                        • 第1回 レコメンドシステムと集合知 | gihyo.jp

                                                                          はじめに 今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。 レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。 連載の予定は次の通りです。 レコメンドシステムと集合知(今回) レコメンドシステムの実装と課題 協調フィルタリング(前・後編) コンテンツベースレコメンド(前・後編) 今回の記事のポイントは以下の通りです。 レコメンドシステムの目的は気付きと驚きを与えること 理想のレコメンドはソムリエのお薦め レコメンドシステムに必要なのは嗜好と専門性 では、早速はじめましょう。 レコメンドシステムとは? レコメンドシステムは情報フィルタリングの一種で、大量の

                                                                            第1回 レコメンドシステムと集合知 | gihyo.jp
                                                                          • グーグルとフェイスブックが「別格」たるもう1つの理由:日経ビジネスオンライン

                                                                            前回のコラムで、「Hulu(フールー)」などのネット映像配信の価値は、「配信」の部分でなく、検索・過去履歴・オススメ・ソーシャルなどといった「ネット独特のインテリジェンス」にある、ということを書いた。 このようにウェブの世界は、クラウドの中に存在するあらゆるデータを燃料として「インテリジェンス」を作り出す巨大な「発電所」の顔を持つ。そして、それを支える技術が、最近話題の「ビッグデータ」だ。 ビッグデータとは、膨大な量のデータを処理・分析し、その結果を業務に活用する仕組みのこと。金融など、定型的なトランザクションデータが膨大に発生する業界では、従来から自社内でそのデータを処理・分析して、株価の予測やオプション取引の価格づけなど、さまざまな目的に活用していた。 ところが、「ウェブ2.0」「クラウド」「ソーシャル」といった一連のネットの進化の中、ユーザーが生成するデータの増加、コンテンツのデジタ

                                                                              グーグルとフェイスブックが「別格」たるもう1つの理由:日経ビジネスオンライン
                                                                            • IBM スマートな社会を支えるITインフラストラクチャーを提唱 - Japan

                                                                              2009年12月22日 2009年12月18日 2009年12月17日 2009年12月16日 2009年12月15日 2009年12月14日 2009年12月11日 2009年12月10日 2009年12月10日 2009年12月04日 2009年12月01日 2009年11月30日 2009年11月27日 2009年11月26日 2009年11月26日 2009年11月26日 2009年11月25日 2009年11月25日 2009年11月19日 2009年11月18日 2009年11月18日 2009年11月17日 2009年11月17日 2009年11月13日 2009年11月13日 2009年11月12日 2009年11月11日 2009年11月10日 2009年11月10日 2009年11月10日 2009年のプレスリリース一覧 ここに掲載されている情報は、発表日時点の内容です

                                                                              • Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)

                                                                                Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「

                                                                                  Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)
                                                                                • 140台以上の「さくらのVPS」を自在に操る! 仮想化の鉄人が語るVPS使いこなし術

                                                                                  中小企業向けのシステム開発を手がけるデジタルシステム株式会社代表取締役の浅見氏は、高校時代からレンタルサーバを個人で運営し、高校生プログラミングコンテストの埼玉大会での優勝を経て、在学中の平成19年に同社を創業した若き経営者。浅見氏は、高校時代から仮想化技術に注目し研究を重ね、さくらインターネットのVPSサービス開始と同時に利用を開始。現在は140台以上のVPSを契約し、同社の顧客向けに提供をしているという「仮想化の鉄人」浅見氏に、VPSのメリットやノウハウについて伺った。 高い自由度と、コストパフォーマンスに優れたさくらのVPS 物理サーバ上に複数の仮想サーバを構築し、専用サーバのように利用できるVPS。2010年9月に開始したさくらインターネットのVPSサービス(さくらのVPS)は、root権限による自由度と、月額980円〜という低価格を実現した注目のサービス。中小企業向けの業務システ

                                                                                    140台以上の「さくらのVPS」を自在に操る! 仮想化の鉄人が語るVPS使いこなし術