並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 11443件

新着順 人気順

hadoopの検索結果81 - 120 件 / 11443件

  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

      Treasure Data - naoyaのはてなダイアリー
    • AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ

      エージェンシー事業でリードアプリケーションエンジニアを行なっている大窄 直樹 (おおさこ)です. AWSのログ, サーバーのログってたくさん種類があって難しいですよね... 同じようなログがたくさんあるので, 何を取れば良いのかとか どのくらいの期間保持すれば良いのかとか またその後の, ログの実装や, 分析方法する方法も難しいですよね... 今回AWSに構築した商用アプリケーションのログを整備する機会があったので, このことについて書こうかなと思います. 概要 本題に入る前の準備 今回ログ実装するアーキテクチャ ログに関する法令 ログの取得箇所 設計 保管するログの決定 インフラのログ OSのログ アプリケーションのログ ログの保管 保管場所について 保管期間について バケット構造 アプリケーション, OSのログの転送 実装 アプリケーション, OSのログをfluentbitを用いてS3

        AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ
      • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

        Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

          HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
        • 今時のWebエンジニアの入り口としてのGAE - ku-sukeのブログ

          本日、GoogleがCloud SQL(MySQLのレンタルみたいなの)の無料版を発表しました。500MB/6ヶ月でGoogle App Engineなどから無料で使えるようです。 さて、それはいいとして最近弊社なども含め、今時の環境って本気だすと複雑化してますよね。OSCで発表された前佛さんのMunin資料を31pと2つ戻って29pを見比べてみてくださいw Muninではじめる実践★リソース監視 -俺のサーバがこんなに重いはずがない、を乗り切るために- from Masahito Zembutsu こんなの絶対おかしいよ!! NoSQLや非同期処理など、様々な新しい技術にチャレンジしたいと思っていても、どこから手を付けよう、、みたいなことってありますよね。Cassandraがいいのかな、Redisがいいのかな?みたいにはてブの着いた記事があれば読んでみるんだけど、インストールとか面倒そう

            今時のWebエンジニアの入り口としてのGAE - ku-sukeのブログ
          • 2012 年 7 月 1 日のうるう秒挿入時に発生した Linux カーネルの不具合に関する情報

            更新履歴 2012-08-28: URL 公開 2012-08-29: futex、hrtimer、MySQL の発生条件、NTP SLEW モードに関する @odhrfm さんからの情報、キーワード更新、その他いろいろ細かい修正 2012-08-30: 参考リンク追加 2012-09-01: LKML まとめシートの thread#50 を追加 2012-09-03: SLES カーネルの更新情報、per-cpu についての記述、blockdiag によるブロック図を追加 2012-09-11: LKML まとめシートの thread#52, #53 を追加 2012-09-12: LKML まとめシートの thread#54 〜 #58 を追加 はじめに 日本時間 2012 年 7 月 1 日 9:00 にうるう秒が挿入されましたが、その際 Linux カーネルに起因する不具合により、

            • エンジニアの勉強と技術力と育児 | 外道父の匠

              仕事力と技術力と不安に関する雑文 | YuheiNakasaka’s Diary を読んで、自分も勉強とは技術力とはなんぞやと考えてみたくなったのでポエムです。 詰まるところ人それぞれではあるものの、考えることは少なからず良い方向に向かう、そう願いたいものです。 勉強とは 世の中にある意見として、エンジニアは生涯勉強だとか、強々エンジニアになるための勉強だとか、色んなモノを見かけます。そういう勉強に対する意見ってたいていネガティブな印象の内容が多く、なんだか迷走しているなぁという感想を持つことが多いです。 良い子ちゃん視点では、学ぶこと、その全てには意義がある、と言いたいところですが、こと仕事においては無駄な学びもあるし、将来無駄になる学びもあります。また、自発的かどうかでその効果は天地の差があるので、他人に向かってこれくらいやるべきとか言うことの意味は薄く、突き詰めると自己責任の範囲の話

                エンジニアの勉強と技術力と育児 | 外道父の匠
              • 業務系SEの末路的なお話でして - 急がば回れ、選ぶなら近道

                某DevLoveというところで話をしろ、ということでありましたので、いろいろ話をして来ました。 http://devlove.doorkeeper.jp/events/1733 まとめはこちら http://togetter.com/li/387189 あと、しんやさんの詳細なブログがこちら http://d.hatena.ne.jp/absj31/20121009/1349795347 スライドはこちら http://www.slideshare.net/okachimachi/devlove1 以下、ちょっと自分なりにまとめを。 ■自分なりにどう話したか 自分の仕事的にはHadoopとAsakusaでの課題解決が現在の本業です。ただ、Asakusaの位置づけとして、SIのための道具立てという側面が強く、また結果として会社も直接・間接にSIにはかかわっているので、割と現状の問題も意識して

                  業務系SEの末路的なお話でして - 急がば回れ、選ぶなら近道
                • Twitter での 2年 · eed3si9n

                  2022-11-20 僕は Twitter社の Build/Bazel Migration チームでスタッフ・エンジニアとして勤務していた。信じられないような 2年の後、2022年11月17日をもって退職した (企業買収後のレイオフでも任意でもあんまり関係無いが、僕は任意退職希望のオファーを取った)。Twitter社は、切磋琢磨、多様性、そして Flock を構成する全ての人に対して溢れ出る優しさというかなり特別な文化を持った職場だった。これを間近で経験して、その一員となる機会を得たことに感謝している。(Flock は「鳥の群れ」の意で、社内での Twitter社の通称) 以下は過去2年の簡単な振り返りだ。尚本稿での情報は、既に公開されているトークやデータに基づいている。買収後、うちのチームだけでも 10名以上のメンバーが Twitter社を抜けたので、在籍・元含め LinkedIn プロ

                  • 【2021年】AWS全サービスまとめ | DevelopersIO

                    こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2021年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2021年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2020年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 205個 です。 まとめるにあ

                      【2021年】AWS全サービスまとめ | DevelopersIO
                    • 日本の技術系カンファレンスまとめ - Qiita

                      日本にはどのような技術カンファレンスがあるのかを調べたことがあるのでメモを残しておこうと思います。「これも載せるべき!」というカンファレンスがある、もしくは説明に不備があるという場合は編集リクエストを送っていただけると幸いです。 全体の雰囲気を知ることができるようなカンファレンス参加レポを見つけたらそれも貼っています(★マークのやつです)。 2016年には開催されていないカンファレンスでも後に復活する可能性はあるので一応載せています。 iOS try!Swift 世界中のSwiftデベロッパーが集まって知見を共有するカンファレンスで、海外からのスピーカーも多く存在していました。同時通訳も付いていたようで、英語が苦手でも安心です。平日3日間を使っての開催です。 ★try! Swift 全日程聞き起こしまとめ | #tryswiftconf 3日間を終えての感想、家に帰ってからが try! S

                        日本の技術系カンファレンスまとめ - Qiita
                      • クックパッドとHadoop - クックパッド開発者ブログ

                        はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

                          クックパッドとHadoop - クックパッド開発者ブログ
                        • Hadoopの解析資料

                          オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする

                          • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

                            『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

                              『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
                            • 近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記

                              久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。 なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って

                                近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
                              • 伊藤直也氏が「Web開発は高度化している」と語る理由と、押さえておきたい3つの技術領域【2014年前半のインプットlog】 - エンジニアtype

                                KAIZEN platform Inc.  Senior Technology Advisor 伊藤直也氏(@naoya_ito) 2002年に新卒入社したニフティでブログサービス『ココログ』の開発担当となり、一躍有名になる。その後、はてなで『はてなブックマーク』など各種サービスを立ち上げ、2010年にグリーへ入社。2012年に同社を退職して以降は、フリーランスとしてベンチャーの技術顧問などを請け負う。自身のブログ『naoyaのはてなダイアリー』が人気 「Webアプリの実装で差別化は無理」という考えが変わった 現在、KAIZEN platform Inc.をはじめ複数社の技術顧問を務めている伊藤直也氏。「普段から、アウトプットの目的なく技術の勉強をすることはほとんどない」という性分から、今年上半期は「顧問としてベストプラクティスを提供するために知っておくべき領域」にフォーカスして情報収集を

                                  伊藤直也氏が「Web開発は高度化している」と語る理由と、押さえておきたい3つの技術領域【2014年前半のインプットlog】 - エンジニアtype
                                • SoundCloudに転職した

                                  2019年12月17日Cookpad(イギリス支社)を6月に退職し、7月からベルリンに移りSoundCloudで働いている。 日本を離れてから3年が経つ。何かしらの形で情報発信しないと日本での人間関係が文字通りゼロになってしまいそうなので近況を綴ることにした。ついでに、誰かの参考になれば尚嬉しい。 誰?2014年にCookpad入社。直後からiOS Tech Leadとして海外事業の立ち上げに従事し、2017年からは海外事業の拠点であるイギリスに出向。2019年7月にドイツに移りSoundCloud入社、現在に至る。『Swift実践入門』の著者の一人。 前職のことについてあまり言及しないが、端的に言うと素晴らしい職場だった。優秀なメンバーと刺激的なプロジェクトから多くを学んだ。こうして新しい挑戦ができるのも前職で成長する機会に恵まれたからに他ならない。日本・海外共に積極採用しているはずなの

                                  • ヤフーの分散オブジェクトストレージ Dragon について

                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、データ&サイエンスソリューション統括本部所属の後藤泰陽(@ono_matope)です。少し時間があいてしまいましたが、9月19日にお茶の水女子大学で開催された WebDB Forum 2017 において、分散オブジェクトストレージ “Dragon” について講演しました。良い機会なので、本エントリでもDragonについてご紹介させていただきたいと思います。 発表資料 WebDB Forumでの発表資料については以下をご覧ください(講演時の内容と一部異なります)。 日本語版 Dragonとは? Dragonは、ヤフー・ジャパンで開発された分散オブジェクトストレージシステムです。Amazon S3互換のWeb APIを実装

                                      ヤフーの分散オブジェクトストレージ Dragon について
                                    • 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮

                                      新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した、というので早速使ってみました。 翻訳対象はHadoopのFair Schedulerに関するドキュメントです。 Fair Schedulerは、Capacity Schedulerと並ぶHadoopの2つのスケジューラの一つですが、挙動が少し複雑で、理解するのに苦労します。ドキュメント自体も長く、英語に不慣れな人には読むのがなかなか大変な文書で、前々から訳したいとは思っていました。しかし、3700ワード(A4に文字ぎっしりで7ページ近く)の技術文書を訳すとなると、かなりの労力が必要になります。少なくとも一日仕事になるのは間違いありません。私も仕事が忙しく、なかなか翻訳の時間がとれなかったため、翻訳作業はタスクキューの底に埋もれてしまっていました。 そこで、今回新しい翻訳がどれほどのものか試すのも兼ねて、

                                        新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮
                                      • Fluentdで始めるリアルタイムでのログ有効活用

                                        はじめに Fluentdは、ログを収集し格納するためのログ収集基盤ソフトウェアです。Fluentdにインプットされた、すべてのログをJSONに変換し、アウトプットします。インプットとアウトプットはモジュール化されており、モジュールを追加することでインプット元とアウトプット先を追加できるようになっています。 Fluentdは急速に知名度を高め、多くのWebサービス会社で実際に使用されるようになりました。従来のログが抱えていた問題も、Fluentdが適切な解決策となっていると認知され、かつ簡単に導入・スモールスタートできるミドルウェアであったことが大きかったと思います。 本稿では、Fluentdの簡単な仕組みと導入方法、シンプルな動作事例について紹介します。 対象読者 システム管理者 データサイエンティスト 必要な環境 UNIX系OS Ruby 1.9 ログを出力する理由 システム運用を始める

                                          Fluentdで始めるリアルタイムでのログ有効活用
                                        • 2015年新米エンジニアがフォローすべきツイッターアカウント50選 - paiza times

                                          Photo by Andreas Eldh こんにちは。今回は谷口です。 先日、こちらの記事でTech系ニュースサイトをいくつかご紹介させていただきましたが、参考にしていただいた皆様、「他にもこんな役立つ情報サイトがあるよ」と教えてくださった皆様、ありがとうございました。 4月から新卒エンジニアになる人達に読んでほしいIT系ニュースサイト9選 - paiza開発日誌 初級エンジニアを卒業する為に見るべき海外技術系サイト9選 - paiza開発日誌 今回は、新米ITエンジニアの皆様が、さらにデキるエンジニアになるためにフォローすべきツイッターアカウントを50個ご紹介いたします。日々の情報収集にお役立ていただければと思います。 ご紹介するアカウントのカテゴリ Ruby PHP Python Java Node.js AWS クラウド アジャイル セキュリティ 競技プログラミング 著名エンジニア

                                            2015年新米エンジニアがフォローすべきツイッターアカウント50選 - paiza times
                                          • ヌーラボのアカウント基盤を Java 9 にマイグレーションして起きた問題と解決法 | 株式会社ヌーラボ(Nulab inc.)

                                            Java 9の起動パラメータ java.locale.providers に Java 8 と同じ優先度で国際化を行う指定をします。 java -Djava.locale.providers=COMPAT,SPI この設定で日付のフォーマットが Java 8 と同じように動作するようになり、自動テストが成功しました。 以上で 750 個のテストがすべて成功するようになりました。次はいよいよJava 9で既存のソースコードをコンパイルします。 Java 9でコンパイルして Java 9で動かす ヌーラボのアカウント基盤には Java のコンパイル対象が約 1,360 ファイルあります。目標は 1,360 のソースコードがJava 9 ですべてコンパイルできることです。 コンパイラの設定を Java 9に切り替える コンパイラを Java 9に切り替えます。Java 9のバージョン指定には注意

                                              ヌーラボのアカウント基盤を Java 9 にマイグレーションして起きた問題と解決法 | 株式会社ヌーラボ(Nulab inc.)
                                            • Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

                                              Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

                                                Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
                                              • バッチ処理を再考する - 急がば回れ、選ぶなら近道

                                                最近そもそもバッチ処理というものを知らない人達を見ることが多くなりました。某プロジェクトで「いや、ストプロってよくわからないんですよ。最近書いたことないし。」という話をずーっと聞いていたのですが、本人はバッチ処理という意味で話していたことが後から判明した、ということがありました。 ああ、この人はSQLでのバッチ処理しか知らないのですね、とちょっと衝撃ではありました。とうとうそーゆー時代になったかと。 まず、誤解のないようにいうとバッチ処理、という言葉自体はIT固有のものではないです。生産管理や物流や、そういった業務では普通に「バッチ」という言葉をIT以外で使います。ただし意味はある程度同じで、「一定の塊を一度に処理をする」ということです。物流システムの業務要件なんかを詰めているとバッチっていうと、どっちのこと?なんて普通に聞かれたりします。その意味ではバッチの対義語がリアルタイムというのは

                                                  バッチ処理を再考する - 急がば回れ、選ぶなら近道
                                                • Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014

                                                  Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。 GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。 Google I/Oの

                                                    Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014
                                                  • なぜ国内でPerlが急速に萎んだのか

                                                    2005年 Railsの襲来2005年に突如現れたRailsによって国内でRuby利用者が急増したのがPerl滅亡への第一歩となった。書きやすさに作者がとことんこだわって作られたRubyの魅力を一度知ってしまうとPerlの古くさく読み辛く書き辛い文法に誰もがうんざりし始める。 2007年 JavaScriptブームAjaxで再発見されたJavaScriptのブームもPerl終焉に若干ながら貢献している。ブラウザというPerlが全く手を出せないジャンルの王者JavaScriptの持つ華やかさに誰もが憧れ、そして手元のPerlの古くささに反吐が出始める。不器用で不細工なところも含めて愛していた女房とつつましく送っていた人生に、突然ぴちぴちのボイン女子大生が転がり込んで来たようなものである。 スマホ/ソーシャルゲームバブルiPhone市場が本格的に立ち上がり、Perlとは全くの無関係であるスマホ

                                                      なぜ国内でPerlが急速に萎んだのか
                                                    • Hadoop、hBaseで構築する大規模分散データ処理システム

                                                      CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                                        Hadoop、hBaseで構築する大規模分散データ処理システム
                                                      • Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog

                                                        追記(2/8 11:30) id:naoyaによる一連のまとめが【今北産業】3分で分かるLTSV業界のまとめ【LTSV】 - naoyaのはてなダイアリーにあります。 また、仕様などをまとめるために http://ltsv.org/ を立ち上げました。 追記ここまで Labeled Tab Separated Values (LTSV) というのは、はてなで使っているログフォーマットのことで、広く使われているTSV(Tab Separated Value)フォーマットにラベルを付けて扱い易くしたものです。はてなでは、もう3年以上、このフォーマットでログを残していて、one-linerからfluentd、Apache Hiveまで幅広く便利に使えています。 ログフォーマットに期待されることは、 フォーマットが統一されている → 共通のツールで集計し易い 新しいフィールドの追加が容易 → サー

                                                          Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog
                                                        • データサイエンティストになりたい学生の為の就職先の選び方 - shakezoの日記

                                                          ここ半年でIT業界ではビッグデータというバズワードが一気に広がり、データ分析者の需要が急増しています。データサイエンティストは今後10年で最も魅力的な職業になるとも言われており、データ分析に携わる仕事に就きたいと考えている学生も以前よりは増えてきているのではないかと思います。 ビッグデータ、データサイエンティスト、データマイニング、機械学習などのキーワードが散りばめられた記事も連日のように投稿されていますが、新卒の学生がデータ分析の仕事に就くための方法について触れられているものはあまりないようです。IT業界で働いている人たちの間でも、正しい認知が進んでいない状況ですので、データ分析業界の構造を学生さんが理解することは難しいのではないかと思います。 私自身はデータ分析に携わって5年程度で、まだまだ初心者の域を脱していないぺーぺーですが、データマイナーになるためにどんなキャリアを積めばよいかに

                                                            データサイエンティストになりたい学生の為の就職先の選び方 - shakezoの日記
                                                          • 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

                                                            はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全

                                                            • Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita

                                                              元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ

                                                                Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
                                                              • Java API 訴訟の件で私が Google よりも Oracle の肩を持つ理由 - Qiita

                                                                はじめに Java API を巡って Oracle と Google の訴訟が続いています。世間の論調を見ていると、「Oracle 対 Google」の構図を「プロプライエタリ対オープンソース」と位置付け、あたかも Google が正義の味方であるかのように扱っていますが、この件に関しては、私は逆の立場です。むしろ、「Google けしからん」と思っています。私がそう思う理由をここに書きます。 Java の互換性 Android が登場するずっと前から、業界の皆は、JCP (Java Community Process) に則り、協議の上 Java API の仕様を決めてきました。仕様を策定する際には、RI (Reference Implementation) (リファレンス実装) と TCK (Technology Compatibility Kit) (テスト群) も同時に用意します。

                                                                  Java API 訴訟の件で私が Google よりも Oracle の肩を持つ理由 - Qiita
                                                                • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

                                                                  8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

                                                                    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
                                                                  • 本日12月1日より、プログラマ有志による2012年の技術系Advent Calendarが各所ではじまる | gihyo.jp

                                                                    本日12月1日より、プログラマ有志による2012年の技術系Advent Calendarが各所ではじまる 本日12月1日より、プログラマ有志による2012年の各技術系Advent Calendarが一日目を担当する人のblogではじまっている。定番化したと言っていいほどの、師走の風物詩になっている。 昨年は技術系Advent Calendarが多方面で行われたが、今年は昨年を超える技術系Advent Calendarが12月1日より行われそうだ。 一般的なAdvent Calendarは、12月25日のクリスマスを楽しみに待つために、12月1日から24日までのカレンダーの日付の部分(扉だったりする)を開けるようになっており、1日ずつその日の日付の部分を開くと天使や動物の絵などが見えるという仕組み(もちろん、様々なバリエーションがある⁠)⁠。 これに発想をえて、技術系Advent Calen

                                                                      本日12月1日より、プログラマ有志による2012年の技術系Advent Calendarが各所ではじまる | gihyo.jp
                                                                    • KVS系NoSQLのまとめ(Hibari、Dynamo、Voldemort、Riak編)

                                                                      序 章 ビッグデータの時代 第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル 第3章 アーキテクチャの基本概念と技術 第4章 HadoopはNOSQL? 第5章 主なNOSQLデータベース製品 第6章 NOSQLデータベースの選択基準 第7章 NOSQLを使うビジネス 本連載は書籍『NOSQLの基礎知識』(リックテレコム刊、ISBN:978-4897978871)で解説されている内容から一部を抜粋し、本連載向けに一部再編集して掲載したものです。 書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基本概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基本概念から、各プロダクトの特徴を理解できる内容になっています。 本連載では、この書籍の内容から、主要プロダクトを紹介している第5章を抜粋し、そのエッ

                                                                        KVS系NoSQLのまとめ(Hibari、Dynamo、Voldemort、Riak編)
                                                                      • 多種多様な基準から見るプログラマの市場価値 | POSTD

                                                                        私は毎日、 Teamed.io で働くことに興味のあるプログラマから何通かメールをもらいます。彼らへの最初の質問は「あなたのレートは?」( 当社は時給ベースで給与を計算します )ということです。何より驚かされるのは、2つの方向性で、誤った試算をしているプログラマが多く見られるということです。 時給5ドルから500ドル(600円から60,000円)まで答えはさまざまです。決して否定はしませんが、私自身で代案を出してみます。このブログ記事では、どういった要素を計算に入れるか、または入れないかを述べたいと思います。私の個人的なキャリアもありますが、これが業界のスタンダードとは思わないでください。あくまで客観的で論理的だと思っていますが。それでは説明しましょう。 オープンソースへのコントリビューション ソフトウェア開発者にとってまずポイントとなり、かつ重要となる特性です。あなたはオープンソースプロ

                                                                          多種多様な基準から見るプログラマの市場価値 | POSTD
                                                                        • モバツイッターがEC2に移転したその後の話を聞いてきた(Amazon EC2 ナイトセミナ 第2回) - 元RX-7乗りの適当な日々

                                                                          恵比寿で開催されたJJUG主催のナイトセミナー「アマゾンEC2 ナイトセミナ 第2回」に参加してきました。 目的は、モバツイッターの中の人である、えふしんさんによる、モバツイをEC2へ移行した話が聞きたかったのと、ついでにご挨拶したかったので早々と仕事を切り上げて行ってきました。 参考: F's Garage @fshin2000 :そろそろモバツイがEC2に移転した話でも書くとするか。 現在のサービスの状況やシステム構成、自宅サーバ運用の限界点など、裏側の話が特に興味深かった!面白かったです。 せっかくメモをとったので、ここに残しておきます。 究極のスモールスタート 自宅サーバからEC2へ 講演者 藤川真一(えふしん)さん (株)paperboy&co. ECコミュニティ事業部 ペパボはGMOインターネットグループ、レンタルサーバ(lolipop)、ブログ(JUGEM)などが有名 カラメ

                                                                            モバツイッターがEC2に移転したその後の話を聞いてきた(Amazon EC2 ナイトセミナ 第2回) - 元RX-7乗りの適当な日々
                                                                          • Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった

                                                                            Facebookが15日に発表した新しいサービス「Facebook Messages」は、チャットやつぶやき、そして電子メールなど、自分宛のテキストやメッセージをすべて1つのインボックスで管理できると発表されました。 同社が15カ月かけて開発してきたこの新サービスのバックエンドデータベースは、これまで同社が大規模運用してきたMySQLでも、同社が開発したNoSQLデータベースのCassandraでもなく、グーグルのBigTableをモデルとしてオープンソースで開発された分散データベース「HBase」でした。 Facebookのソフトウェアエンジニア、Kannan Muthukkaruppan氏がFacebookにポストした記事「The Underlying Technology of Messages」で、その技術的背景が紹介されています。 MySQLとCassandraが落選した理由 H

                                                                              Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった
                                                                            • データマイニングを仕事にする人の生態系 - dataminer.me

                                                                              「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。 グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる: 研究開発をする人 統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他

                                                                                データマイニングを仕事にする人の生態系 - dataminer.me
                                                                              • 分散プログラミングモデルおよびデザインパターンの考察

                                                                                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 写真:アフロ データ&サイエンスソリューション統括本部、データインフラ本部、今野です。 早速ですが、今月開催の「Developers Summit 2016 (以下、デブサミ2016)」で当方が登壇する運びとなりました。気がつけば、前回の記事「分散システム処理モデルに関する動向について」から随分と日がたってしまいましたので、今回は、より広範囲な内容を整理してみたいと思います。 デブサミ2016の当方の講演テーマは「温故知新」です。今回は、このテーマにもつながる話題として、クラウド環境の代表的な分散プログラミングモデルやデザインパターンについて、一般的な考察をしてみたいと思います。 古典的なプログラミングモデルによる分類 まず最初に

                                                                                  分散プログラミングモデルおよびデザインパターンの考察
                                                                                • 【前編】トレジャーデータCTOと紐解く。日米で異なるCTOの役割とは?

                                                                                  Twitterでハッシュタグ「#naoya_sushi」が生まれてしまうほど、無類の寿司好きとして知られる伊藤直也氏(@naoya_ito)。そんな伊藤氏をホスト役とし、トップエンジニアをゲストに招いて、寿司をつまみつつホンネで語ってもらおうという、この企画。 第六回のゲストは、弱冠20歳にしてCTOとしてのキャリアをスタートさせ、現在はシリコンバレー発のベンチャー企業『トレジャーデータ株式会社』のCTOとして活躍中の太田一樹氏(@kzk_mover)が登場!日米両方でCTOを務めた経験から、そのギャップや空気感、そしてシリコンバレーから世界を相手に勝負するため起業した真意などをお聞かせいただきました。日米を股にかけるkzk氏だからこその視点で、議論していただきます。お楽しみに! — 伊藤直也(以下「naoya」):久しぶりですね。日本に戻ってくるタイミングだとやっぱり飲み会続きですか?

                                                                                    【前編】トレジャーデータCTOと紐解く。日米で異なるCTOの役割とは?