並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 11486件

新着順 人気順

hadoopの検索結果41 - 80 件 / 11486件

  • DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)

    はじめにこの記事は、Engineering Manager Advent Calendar 2020の24日目の記事す。 職種を越えた働き方を模索するWeb Engineerのtrebyさんと、技術を突き詰めたいiOS Developerのbanjunさんの二人のパーソナリティをつとめるpodcast「きのこるエフエム」でお話してきた今話題のキーワードDXについてのお話を再編して記事にしたものです。 実際のpodcastについては以下からどうぞ。 いつの間にか"DX"がデジタルトランスフォーメーションにとられてた。trebyさん(以下敬称略) これは、我々のマイブームというか、最近、「DXっていいよね?」っていうふうに私が謎掛けをしますと、banjunさんが、「DX、わからん!」というふうに返すんです。 banjunさん(以下敬称略) 「DXって何ですか?何がいいんですか?」っていう話です

      DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)
    • 時系列データベースに関する基礎知識と時系列データの符号化方式について - クックパッド開発者ブログ

      こんにちは。インフラストラクチャー部 SRE グループの吉川 ( @rrreeeyyy ) です。今期オススメのアニメはツインエンジェル BREAK です。 普段の業務並びに趣味の一環として、サーバのモニタリング環境の調査や改善に取り組んでいます。 そこで本稿では、モニタリングのコンポーネントの一つとして外すことが出来ない、時系列データベースの基礎知識に関して紹介します。 そもそも時系列データ・時系列データベースとは? 時系列データというのは、特定の時間ごとに何らかの値を取得した際の、取得した一連の値を指します。 例えば、以下のようなフォーマットをしたデータなどは時系列データにあたるでしょう。 timestamp1,key,value1 timestamp2,key,value2 timestamp3,key,value3 : 時系列データベースとは、上記のような時系列データの保存・処理に

        時系列データベースに関する基礎知識と時系列データの符号化方式について - クックパッド開発者ブログ
      • Apache Kafkaに入門した

        Apache kafka 最近仕事でApache Kafkaの導入を進めている.Kafkaとは何か? どこで使われているのか? どのような理由で作られたのか? どのように動作するのか(特にメッセージの読み出しについて)? を簡単にまとめておく(メッセージングはまだまだ勉強中なのでおかしなところがあればツッコミをいただければ幸いです). バージョンは 0.8.2 を対象に書いている. Apache Kafkaとは? 2011年にLinkedInから公開されたオープンソースの分散メッセージングシステムである.Kafkaはウェブサービスなどから発せられる大容量のデータ(e.g., ログやイベント)を高スループット/低レイテンシに収集/配信することを目的に開発されている.公式のトップページに掲載されているセールスポイントは以下の4つ. Fast とにかく大量のメッセージを扱うことができる Scal

        • データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ

          はじめに 今回紹介する本は玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れている本をいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめた本ですが、統計学がどういった分野に使われているの

            データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ
          • Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD

            (訳注:2016/1/5、いただいた翻訳フィードバックを元に記事を修正いたしました。) よくある主観的で痛烈な意見を題名に付けたクリックベイト(クリック誘導)記事だろうと思われた方、そのとおりです。以前指導してくれた教授から教わったある洞察/処世術は、些細でありながら私の人生を変えるマントラとなったのですが、私がこの記事を書いたのはそれによるものです。「同じタスクを3回以上繰り返す必要があるなら、スクリプトを書いて自動化せよ」 そろそろ、このブログはなんだろうと思い始めているのではないでしょうか。半年振りに記事を書いたのですから。ツイッターで書いた Musings on social network platforms(ソーシャル・ネットワークプラットフォームについてじっくり考える) はさておき、この半年の間書き物をしていないというのはうそです。正確には、400ページの 本 を書きました。

              Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD
            • AWS(Amazon Web Services)技術資料メモ(2015年3月版) - hiroshixの日記

              2015-03-16 AWS(Amazon Web Services)技術資料メモ(2015年3月版) 2015年3月版に更新。 技術資料はココにあるんだけど、散らかってるのでまとめてみた。全体的に資料の日付をチェックした方がいいかも。資料公開からアップデートがある場合も。あとどの資料も最初に概要入っててごめんなさい。 概要的なやつ スタートアップならおさえておきたいAWS入門サービス概要と基礎知識編 スタートアップならおさえておきたいAWS入門サービス概要と基礎知識編 from Hiroshi Takayama →つまづきやすいポイントや不安点など WebサービスStartUP向け AWSスケーラブルな構成例 WebサービスStartUP向け AWSスケーラブルな構成例 from Amazon Web Services Japan →構成例・代表的なサービスの一言紹介・課金関連・サポ

                AWS(Amazon Web Services)技術資料メモ(2015年3月版) - hiroshixの日記
              • 達人出版会:技術系電子出版・電子書籍

                探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 なぜ依存を注入するのか DIの原理・原則とパターン Steven van Deursen, Mark Seemann(著), 須田智之(訳) 高機能ヘッドレスCMS『Storyblok』入門 大宮 薫 初めてのPython配布パッケージ作成 窓川 ほしき 今日から現場で使える速習SymbolブロックチェーンJavaScript版 特定非営利活動法人 NEM技術普及推進会NEMTUS 改訂新版 ファーストステップ情報通信ネ

                  達人出版会:技術系電子出版・電子書籍
                • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)

                  基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWS:Amazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。 大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。 止まってはいけない基幹システムをクラウドへ ノーチラス・テクノロジーズ 代表取締役社長 神林飛志氏(写真中央)。 西鉄ストア様の本部基幹システムをクラウドへ移行する

                    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)
                  • 本当に読んだ?はてなブックマーク「あとで読むタグランキング」2010 - はてなニュース

                    時間がない時や、読み応えのあるエントリーを見つけた時、ついつい使ってしまう「あとで読む」というタグ。2010年のはてなブックマークで、タグ「あとで読む」(「あとで」「後で」「後で読む」「あとでよむ」「後でよむ」を含む)が多く付けられたエントリートップ50を調べてみました。“あとで読む”のを忘れていた方は、これを機に目を通してみてはいかがでしょう? 2010年 はてなブックマーク「あとで読むタグ」年間ランキング(2010/1/1-2010/12/24) 順位タグの数エントリー 1位491人生を素敵に変える今年1年の究極のライフハック記事まとめ - ホームページを作る人のネタ帳 2位488ネットで見れるすごい企画書 - NAVER まとめ 3位453http://tokkaban.com/archives/194 4位38520歳を過ぎてから英語を学ぼうと決めた人たちへ | The Wisdo

                      本当に読んだ?はてなブックマーク「あとで読むタグランキング」2010 - はてなニュース
                    • 【技術書のみ厳選】2014年11月のKindle最大50% OFF セール - 更地

                      2014-11-26 【技術書のみ厳選】2014年11月のKindle最大50% OFF セール Kindleストアで「最大50%OFF お買い得セール」と「Kindle本ポイント還元セール」が始まりました。期限はおそらく今月末まで?今回も多数の本がセール対象となっていますが、そのうち技術書だけを抜き出してリストアップしてみました。今回の目玉は「詳解UNIXプログラミング 第3版」でしょうか。元が8000円以上する本なので、半額効果で5000円近く安くなっています。ぶ厚い本なので、電子書籍の恩恵も最大限に受けられます。(Kindle版はリフロー対応なので、フォントサイズ等自由に変更できます。本をスキャンしてJPEG画像だけを貼り付けたような、テキトーな電子書籍ではないので、本のデータサイズも小さく抑えられています。good。)リストアップしてて気付いたんですが、今回セール対象になっている

                        【技術書のみ厳選】2014年11月のKindle最大50% OFF セール - 更地
                      • セールスエンジニアという仕事 - 科学と非科学の迷宮

                        現在の自分の肩書である「セールスエンジニア」という仕事がどのようなものか知らない方も多く、毎回説明するのが大変なのでブログ記事にしました。セールスエンジニアという仕事はなかなか馴染みがありませんが、20代後半から30代のITエンジニアのキャリアパスとしては面白い仕事の一つだと思います。マネージャーになるかどうか考える前に、是非一度読んでください。 この記事では、ClouderaのようなB2BのITソフトウェアベンダーのセールスエンジニアを想定して執筆しています。他の業界のセールスエンジニアについては確実に状況が異なりますのでご注意ください。 要約 セールスエンジニアとは、お客様が自分たちの製品を正しく活用できるよう情報を提供していき、営業が製品・サービスを販売するのを助ける仕事です。お客様への製品紹介と提案が主要業務ですが、その方法は様々です。お客様の要望を満たすようなサンプルプログラムを

                          セールスエンジニアという仕事 - 科学と非科学の迷宮
                        • あなたの生産性を向上させるJupyter notebook Tips | リクルートテクノロジーズ メンバーズブログ

                          このエントリは全9回を予定する18卒新人ブログリレーの第3回です. はじめまして.今年度よりリクルートテクノロジーズに入社した河野 晋策です. 7月からQassチームにて検索ロジックの改善を行っています. Qassチームは,検索基盤の運用や検索ロジックの改善を行っているチームです. 詳しくは以下の記事をご覧ください. 検索組織の機械学習実行基盤 リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch+Hadoopベースの大規模検索基盤大解剖 本記事の想定読者:普段Jupyter notebook・Jupyter Lab,Google Colaboratoryを使っている方,またこれから使おうと考えている方 本記事の概要:jupyter notebookの知見共有 はじめに Jupyter notebookとは 近年,データの重要性が様々な

                            あなたの生産性を向上させるJupyter notebook Tips | リクルートテクノロジーズ メンバーズブログ
                          • 次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

                            The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習/人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ

                              次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
                            • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

                                Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
                              • MapReduce - naoyaのはてなダイアリー

                                "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

                                  MapReduce - naoyaのはてなダイアリー
                                • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

                                  転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

                                    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
                                  • Amazon Elastic MapReduceを使ってみた - moratorium

                                    Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

                                    • データサイエンス教育用の講義資料1000ページ、教員向けに無償公開 NVIDIAと滋賀大が連携

                                      NVIDIAと滋賀大学は9月8日、データサイエンス教育用の講義資料「DLI データサイエンス教育キット」の日本語版の無償提供を始めた。同資料はNVIDIAのデジタルスキル育成プログラム「Deep Learning Institute」(DLI)の講義資料で、滋賀大学が日本語に翻訳したもの。教育機関の教員向けに提供する。利用にはNVIDIAの開発者アカウントが必要。 講義資料では「データサイエンスとRAPIDSの入門」「データ収集と前処理(ETL)」「データセットにおけるデータ倫理とバイアス」「データ統合と分析」「データビジュアライゼーション」「Hadoop、Hive、SparkとHBaseによるスケールと分散コンピューティング」「機械学習(分類)」「機械学習(クラスタリング、次元削減)」「ニューラルネットワーク」などの分野を取り上げる。 資料の元になった「DLI データサイエンス教育キット

                                        データサイエンス教育用の講義資料1000ページ、教員向けに無償公開 NVIDIAと滋賀大が連携
                                      • 怖いくらいに野心的なスタートアップのアイデア

                                        Paul Graham / 青木靖 訳 2012年3月 Y Combinatorをやってきて気づいた驚くことの1つに、最も野心的なスタートアップのアイデアの多くがいかに怖いものかということがある。このエッセイではこの現象をいくつかの例で示そうと思う。そのいずれも創業者を億万長者にしうるものだ。そう言うと魅力的に聞こえるが、それが何か書いて見せたなら、きっと思わず尻込みすることだろう。 だからといって心配することはない。それは弱さのしるしではなく、たぶん正気さのしるしなのだ。最も大きなスタートアップのアイデアは怖いものだ。多くの労力を要するからばかりではない。最も大きなアイデアというのは、自分の存在を脅かすように感じられるのだ。果たして自分にはそれをやり通せるだけの野心があるのだろうか? 『マルコヴィッチの穴』に、ダサい主人公がすごく魅力的で洗練された女性に出会う場面がある。彼女は主人公にこ

                                        • 本日12月1日より、プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる | gihyo.jp

                                          本日12月1日より、プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる 本日12月1日より、プログラマ有志による2013年の各技術系Advent Calendar(アドベントカレンダー)が一日目を担当する人のblogではじまっている。 昨年以上に細分化されたため、昨年よりも今年のAdvent Calendarの数が多くなっているようだ。また、技術系以外の人に対してもこのような形式のAdvent Calendarの認知度が上がり、技術系以外のAdvent Calendarも昨年より増えている。 一般的なAdvent Calendarは、12月25日のクリスマスを楽しみに待つために、12月1日から24日までのカレンダーの日付の部分(扉だったりする)を開けるようになっており、1日ずつその日の日付の部分を開くと天使や動物の絵などが見えるという仕組み(もちろん、様々

                                            本日12月1日より、プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる | gihyo.jp
                                          • 30歳を迎えたソフトウェア開発者である私が、20代のころに聴いておきたかったアドバイス | ライフハッカー・ジャパン

                                            どんな業界でもキャリアを始めるときには、期待に胸が膨らむ一方で、先行きの不安が立ちこめるものです。与えられた仕事をひたすら頑張ればいいのだろうか? それとも、将来有望なプロジェクトに狙いを定めて動くべき? 今回は、ひとりのソフトウェア開発者として、私が経験から学んだことをシェアしたいと思います。 以下に、私の経験と観察に基づく、いくつかのアドバイスを紹介します。もちろん、これがすべてではありません。経験は人それぞれユニークなものですからね。でも参考までに。 1. 仕事中に学ぶことを恐れない。 寂しいことに、多くの職場にある本棚はただの飾りにすぎません。本を手に取る人はめったにいません。忙しいコアタイムならなおさらです。でも、今はコンピューターの時代。あらゆる記事や書籍が電子媒体で読めるのです。だから読んでください。与えられた仕事だけをしていても、学べることは限られます。退屈な仕事を少しばか

                                              30歳を迎えたソフトウェア開発者である私が、20代のころに聴いておきたかったアドバイス | ライフハッカー・ジャパン
                                            • 分散システム処理モデルに関する動向について(MapReduceからBorgまで)

                                              詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。 純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま

                                                分散システム処理モデルに関する動向について(MapReduceからBorgまで)
                                              • MySQLのバックアップ運用について色々

                                                分散システムのFault Injectionの話 NTTデータテクノロジーカンファレンス2017で発表する際に用いたプレゼン資料 https://oss.nttdata.com/hadoop/event/201710/index.html

                                                  MySQLのバックアップ運用について色々
                                                • Yahoo! JAPANの新しいメッセージングシステムと、それをOSSで開発するエンジニアの素顔 - はてなニュース

                                                  国内有数のWebサイトであるYahoo! JAPANでは、その膨大なトラフィックを支える大規模なインフラチームを擁しています。大量なだけではなく、多様なサービスが生み出すさまざまなデータを処理したいという要求から、オープンソースとして公開されたばかりのメッセージングシステム「Pulsar」が生まれました。長年親しんだ六本木から移転したばかりのYahoo! JAPAN新オフィスで、同社のプラットフォーム開発エンジニアの考え方や働き方を、はてなエンジニアとの座談会形式でお聞きしました。 座談会出席者は、ヤフー株式会社 システム統括本部 プラットフォーム開発本部の北條正和さん、坂本雅宏さん、栗原望さん(上写真、中央より右へ)、はてなの坪内佑樹(システムプラットフォーム部 Webオペレーションエンジニア)と脇坂朝人(Mackerelチーム Webアプリケーションエンジニア)(同じく上写真、左より)

                                                    Yahoo! JAPANの新しいメッセージングシステムと、それをOSSで開発するエンジニアの素顔 - はてなニュース
                                                  • 機械学習、どこから手を付ける? ~初期コストゼロで試せるBigInsightsで、Hadoop&Sparkのエコシステムをフル活用~ - はてなニュース

                                                    「大規模データ分析や機械学習を始めてみたい」と考えているチームは多いはずだ。情報システムや業務の現場が生み出すビッグデータを最新手法で分析することで、データに潜んでいた価値を発掘でき、それを新たなビジネス価値に結び付けられるとの期待が高まっているからだ。そこで出てくる問いは「いったいどこから始めたらいいのだろうか?」。 (※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です) 大量データ分析で名前が挙がるソフトウェアといえば、Apache HadoopとApache Sparkだ。そのエコシステムは高度で充実している。だからこそ「どこから手を付けるのか」に悩む人も多い。「Hadoop/Sparkのディストリビューションを利用できるIBM BigInsights試用版や、クラウドサービスBluemixを使えば、明日からでもHadoop/Sparkによるデータ分析や機械学習に取り組

                                                      機械学習、どこから手を付ける? ~初期コストゼロで試せるBigInsightsで、Hadoop&Sparkのエコシステムをフル活用~ - はてなニュース
                                                    • FacebookにおけるMySQLを用いた大規模システムアーキテクチャの現実~MySQL Connect 2013

                                                      米オラクルが主催するMySQLのイベント「MySQL Connect」が9月21日から23日まで、サンフランシスコで開催されました。Oracle OpenWorld、JavaOneとの同時開催でした。 基調講演の1つには、MySQLのヘビーユーザーであるFacebookのHarrison Fisk氏が登壇。FacebookにおけるMySQLの役割、大規模運用の背景などを紹介しています。その内容をダイジェストで紹介しましょう。 MySQL@Facebook Lots and lots of small data Harrison Fisk氏。 Facebookでデータパフォーマンスチームのマネージャをしている。社内ではMySQLはもちろん、HBase Hadoopなどにも関わっている。 まずは、どんな種類のデータをMySQLで扱っているのかについて。 Facebookとは基本的にグラフだ。グ

                                                        FacebookにおけるMySQLを用いた大規模システムアーキテクチャの現実~MySQL Connect 2013
                                                      • 初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog

                                                        背景 お題 技術の差別化 差別化から分かること 情報資産からToBeを考える 俯瞰的・相対的な技術選定 これまでの話から学んだこと 最後に はじめまして、MonotaROでデータエンジニアをやっています、芝本です。 エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。 私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。 技術を使うためには、技術を学ばなければいけません。 プライベートにおいては、好奇心に従って自由に学びますよね。 とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。 というようにプライベートでは主に次のような選択肢があると思います。 書籍を読んで好きなものを選ぶ 実際に手を動かしてみて好きなものを選ぶ 人に教えてもらって好きなものを選ぶ 基本的にプライベートの場合は何

                                                          初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
                                                        • 『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』に参加してきた #devlove - Diary of absj31

                                                          SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道- - DevLOVE 2012/10/09 SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道 - DevLOVE #devlove - Togetter 講師及びその講師の方が話されるテーマも相俟って、募集後即定員が埋まる盛況振り。自分もタイミングを逸しキャンセル待ちで登録していたのですが、晴れてキャンセル待ち繰り上がりで参加資格を得る事が出来たのでこの日参加して来ました。 会場はマイクロソフト品川本社セミナールーム。今回はいつにもまして参加者も著名な方が多数参加。注目度の高さがここでも伺えます。 papandaさんの今回のイベント開催に至る経緯として以下の様なコメントが最初にあり、間髪入れずに本編へGOです。 ブログを読んでいて、書かれている事が仕事に対して危機感を持つ内容だった。 こういった内容を書かれる方のお話を聞いてみたい。

                                                            『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』に参加してきた #devlove - Diary of absj31
                                                          • Fluentdとログ収集のパターン - Go ahead!

                                                            「ログを集めて保存する」と言うのは簡単だけど,ログ収集の構成にはいくつか方法があり,勉強会などでちょくちょく聞かれるので,いくつかのパターンについて書く. 「俺はもうバリバリログ収集やってるぜ!」という人は多分すでに知っていることが書かれているので,タブを閉じて良い. ここではログコレクタにFluentdを想定しているが,他のログ収集プロダクトにも適用出来るはず. ただ,Fluentdはタグベースのルーティングを持ち,単体でもキューのように動作させることが可能で,既存のものより複雑な問題を解決しようとしているので,少し工夫が必要かもしれない. Fluentdそのものについては公式ドキュメントや,Fluentdとはどのようなソフトウェアなのかを参考に. クライアントから直接保存する いきなりFluentdを使わないパターン.JavaScript SDKを提供している解析サービスやモバイル端末

                                                            • あなたのJavaコードをスッキリさせる、地味に便利な新API 10選(前編) - Taste of Tech Topics

                                                              こんにちは! アキバです。 ...T3ブログは初登場かもしれません。ハジメマシテ。 以後お見知りおきを。 いよいよ、2014年3月、Java8が正式公開されますね。 なんと言っても、Java8の注目機能はラムダ式ですので、ラムダ式や型推論に関する記事は多いです。 世の中で「Java8」と検索すると、皆さんいろいろと記事を書かれているので、おおよその事はこれで分かっちゃうような気がします。 が、 実は地味に便利なAPIが追加されていたりすることを最近知りました。 これはあまり触れられていないぞ、と。 というわけで、このエントリでは、あまり日本語で情報の無い、しかし地味に便利なAPIに実際に触れてみます。 大事なところなので2回強調して書いてみました。 今回は、前編として4つ紹介します。 ※APIの紹介と言いつつ、コードにはラムダ式を使ったコードが普通に出てるので、ご了承ください。 (むしろ、

                                                                あなたのJavaコードをスッキリさせる、地味に便利な新API 10選(前編) - Taste of Tech Topics
                                                              • Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog

                                                                この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。 実問題に機械学習を適用する タスクを定義する データを特徴ベクトルに変換する 評価方法を決める 正解データの正例と負例は均等に ベースラインとなる手法を実装する 実データに向き合うときの心構え 機械学習のワークフロー 1. 前処理 データセット作成 サンプリング 特徴抽出 欠損値・欠測値への対応 値のスケーリング 特徴選択 次元削減 2. 学習 モデ

                                                                  Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
                                                                • P言語の素晴らしさについて - kuenishi's blog

                                                                  先週Microsoft社がP言語に関するブログ記事を公開し一部界隈で話題となった。 P言語くん pic.twitter.com/uULzxIO4ct— Kuntaro Ishiyama (@_iamkuntao) 2017年3月26日 「いまさら一文字言語かよ…」「何個目だ?」といった批判的諦念的なものから、「RustとGoとErlangの間の子みたいなのだなあ」「なんか読みにくい」といった反応が多くこの言語の重要性やインパクトに対して正しく理解しているものがあまりなかった。尊敬しているTD勢ですらあまり重要性が伝わってないようだ 1 2 。上記のブログ記事を読んだり、マニュアルを読んだらすぐ分かるようなことではあるが、日本語で解説しておこうと思う。なおいわゆる言語入門とかそういった類のものではないことをご理解いただきたい。 TL;DR 並行処理や分散システムの形式証明や形式検証はそれ自体

                                                                    P言語の素晴らしさについて - kuenishi's blog
                                                                  • LTSV FAQ - LTSV って何? どういうところが良いの? - naoyaのはてなダイアリー

                                                                    LTSV って何? Labeled Tab-Separated Values という、テキストのフォーマットの仕様です。CSV や TSV や JSON そのほかと同じ、テキストデータのフォーマット名。主にログ、特に httpd のアクセスログなどに適用すると便利です。 仕様は http://ltsv.org にまとまっています。随時更新中です。 LTSV は単なるログのフォーマットであって、それ以上でもそれ以下でもありません。 LTSV ってタブ区切りで値に名前を付けただけのもの? はい、そうです。 これが 127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (

                                                                      LTSV FAQ - LTSV って何? どういうところが良いの? - naoyaのはてなダイアリー
                                                                    • フェイスブックの作ったオープンソース色々:phpspot開発日誌

                                                                      公開初日に早速フェイスブックの映画、ソーシャルネットワークを見てきました。 サービスを作ってる人は、\1,800はらうだけでやる気を200%ぐらいにしてくれる映画だと思うので費用対効果は安いと思います。 映画の中で、ハーバード大学は2時間で22000アクセスのトラフィックを集めただけで落ちちゃうの?とかナップスターの作者さん遊び上手すぎじゃない?とか、新機能の実装に家かえってから1、2分とか早すぎない?等の、ツッコミどころなんかも楽しめます。 映画の中ではコーディングに関することは殆ど出てこなかったわけなんですが、膨大なトラフィックをさばくためにfacebook自体、多くのオープンソースを公開しているのでdevelopers.facebook.comから紹介してみます。 もうすぐ6億人に届くほどのユーザを扱うためには、想像を絶するインフラや高速化、サーバ間連携の仕組みが必要になるわけですが

                                                                      • バッチ処理について考える - Qiita

                                                                        TL;DR ひとくちにバッチといっても色々ある 夜間バッチをもう作るな オンラインバッチはSQL以前にDB設計がんばれ はじめに Twitterのタイムラインで以下のようなツイートが回ってきました。 バッチ処理をみんな舐めてかかったり、ショボイとか思ってる人多い印象なんだけれども、数十万~数千万件規模のデータを処理したことあるのかな。テンプレ通りのコードじゃ動かないよ?ネットに本にも答え載ってないよ?低レイヤも意識しないと動かないよ? 2020年1月10日 ツイートされたわだっしーさんの意図がどこにあるかは確認してないですが、極限の世界でテンプレート的な処理では対応出来ないのはあるよな、と思いつつもある程度はバッチの作法としての書き方があると思っています。 このツイートとその関連ツイートを読みながら、そういえばバッチ処理に関して書いてある記事はあまり見ないなぁ、とおもったので他のネットや本

                                                                          バッチ処理について考える - Qiita
                                                                        • 障害の事後分析を読んで得た教訓 ― 「何がシステムを停止させるのか?」 | POSTD

                                                                          私はポストモーテム(事後分析)の記録を読むのが大好きです。ポストモーテムを読むと勉強になりますが、大抵の教材的資料とは違って、興味深いストーリーが含まれているのです。相当な時間をかけてGoogleとMicrosoftのポストモーテムを読みました。大きな障害を招く最大の原因について、私は(まだ)きちんと分析していませんが、何度も繰り返し目にするポストモーテムのパターンがいくつかあります。 エラーハンドリング 適切なエラーハンドリングのコードを書くのは難しいものです。エラーハンドリングのコードに含まれるバグは、 大きな 問題を引き起こす主な原因となっています。つまり、エラーによってバグのあるエラーハンドリングのコードが実行されるということは、単に個々のエラーが重なるだけという事態にはとどまらないのです。障害が重なって重大なシステム停止につながることはよくあります。それはある意味明らかなことで、

                                                                            障害の事後分析を読んで得た教訓 ― 「何がシステムを停止させるのか?」 | POSTD
                                                                          • Awesome Python:素晴らしい Python フレームワーク・ライブラリ・ソフトウェア・リソースの数々 - Qiita

                                                                            元記事: Awesome Python Awesome List in Qiita Awesome Ruby Awesome Java Awesome JavaScript Awesome Node.js Awesome Go Awesome Selenium Awesome Appium 管理パネル 管理インタフェース用ライブラリ ajenti - サーバ用管理パネル. django-grappelli - Django 管理インターフェースのためのジャズスキン. django-jet - 改良された機能を備えた Django 管理インターフェース用の最新のレスポンシブテンプレート. django-suit - Django Admin インターフェースの代替 (非商用の場合のみ無料). django-xadmin - Django 管理者のドロップイン置換. jet-bridge -

                                                                              Awesome Python:素晴らしい Python フレームワーク・ライブラリ・ソフトウェア・リソースの数々 - Qiita
                                                                            • プログラミング言語やデータベースが選べる新世代PaaS「DotCloud」が正式サービス開始

                                                                              DotCloudの最大の特徴は、PHPやPerl、Ruby、Java、Python、Node.jsなど複数の言語と、MySQL、PostgreSQL、Cassandra、MongoDB、CouchDB、Redisなど複数のデータベースやMemcached、RabbitMQ、Hadoopなどのさまざまなソフトウェアを開発者が自由に組み合わせてプラットフォームを構成することができ、それがクラウド上のPaaSとして提供されるという点です。 構成されたPaaSの運用は当然ながらDotCloudが行います。モニタリングや動的なスケーリング、フェイルオーバー、耐障害性向上のため自動的に3つのデータセンターへの分散などが行われ、基本的に開発者は運用を気にする必要はありません。 新しい世代のPaaS これまでの代表的なPaaS、例えばグーグルのGoogle App Engine、セールスフォース・ドットコ

                                                                                プログラミング言語やデータベースが選べる新世代PaaS「DotCloud」が正式サービス開始
                                                                              • 入社2週間で書類1枚書かずに大きな決裁!グリーのスピード感:Rails Hub情報局:エンジニアライフ

                                                                                「オレ、入社2週間で大きな決裁を通しましたよ! まだ試用期間中だったのに(笑)」。JRubyのコミッターで、Rubyコミュニティで広く知られた大場光一郎さんに久しぶりにお会いしたら、ちょっと興奮気味にこうおっしゃるのですよ。具体的な数字は書けませんが、確かに、ふつうの企業なら1週間や2週間で決まるような金額ではありません。まして入社2週間の試用期間中の社員の提案です。 大場さんは2011年12月に、日本で5本の指に入る大手SIerを退職し、ソーシャル・ネットワーキング・サービス「GREE」を運営するグリーに入社したというではありませんか。そして、あまりの2社のスピード感の違いに驚いているというのです。Developers Summit 2012(通称デブサミ)が終わった後の飲み会でお話を伺ったのですが、水を得た魚とはこのことかというほど楽しそうに、新しい仕事上のチャレンジについて話をされて

                                                                                  入社2週間で書類1枚書かずに大きな決裁!グリーのスピード感:Rails Hub情報局:エンジニアライフ
                                                                                • グーグル発「Hadoop」、日本企業も利用へ

                                                                                  Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

                                                                                    グーグル発「Hadoop」、日本企業も利用へ