「hadoop」を検索 - はてなブックマーク

81 - 120 件 / 12945件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果81 - 120 件 / 12945件

MapReduce - naoyaのはてなダイアリー
- 520 users
- naoya-2.hatenadiary.org
- 暮らし
- 2008/05/11
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
- mapreduce
- google
- perl
- algorithm
- programming
- hadoop
- アルゴリズム
- naoya
- 分散
- search
面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ！
- 515 users
- antibayesian.hateblo.jp
- テクノロジー
- 2013/12/02
転職して丁度2年がたちました。現在はWebベンチャーで統計屋しています。大変楽しい毎日です。なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。あと現職の解決しがたい不満についても書いています。糞長くなってしまったので要約すると「今糞面白いけど超えられない壁あるので誰か助けて」です。現職面白い理由5個。 1．データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした行動経済学やテキストマイニングをやっていました。そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。ですが今はSNSやソーシャルゲームや広告の
- 統計
- ビジネス
- データ
- statistics
- 仕事
- ゲーム
- デザイン
- SNS
- アイデア
- *temp
Amazon Elastic MapReduceを使ってみた - moratorium
- 514 users
- kzk9.net
- 暮らし
- 2009/04/03
Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以
- mapreduce
- amazon
- hadoop
- cloud
- ec2
- aws
- クラウド
- webサービス
- amazon ec2
- google
怖いくらいに野心的なスタートアップのアイデア
- 512 users
- www.aoky.net
- テクノロジー
- 2012/03/15
Paul Graham / 青木靖訳 2012年3月 Y Combinatorをやってきて気づいた驚くことの１つに、最も野心的なスタートアップのアイデアの多くがいかに怖いものかということがある。このエッセイではこの現象をいくつかの例で示そうと思う。そのいずれも創業者を億万長者にしうるものだ。そう言うと魅力的に聞こえるが、それが何か書いて見せたなら、きっと思わず尻込みすることだろう。だからといって心配することはない。それは弱さのしるしではなく、たぶん正気さのしるしなのだ。最も大きなスタートアップのアイデアは怖いものだ。多くの労力を要するからばかりではない。最も大きなアイデアというのは、自分の存在を脅かすように感じられるのだ。果たして自分にはそれをやり通せるだけの野心があるのだろうか？『マルコヴィッチの穴』に、ダサい主人公がすごく魅力的で洗練された女性に出会う場面がある。彼女は主人公にこ
- スタートアップ
- アイデア
- startup
- paul graham
- business
- webサービス
- idea
- google
- paulgraham
- 起業
データサイエンス教育用の講義資料1000ページ、教員向けに無償公開　NVIDIAと滋賀大が連携
- 512 users
- www.itmedia.co.jp
- テクノロジー
- 2022/09/08
NVIDIAと滋賀大学は9月8日、データサイエンス教育用の講義資料「DLI データサイエンス教育キット」の日本語版の無償提供を始めた。同資料はNVIDIAのデジタルスキル育成プログラム「Deep Learning Institute」（DLI）の講義資料で、滋賀大学が日本語に翻訳したもの。教育機関の教員向けに提供する。利用にはNVIDIAの開発者アカウントが必要。講義資料では「データサイエンスとRAPIDSの入門」「データ収集と前処理（ETL）」「データセットにおけるデータ倫理とバイアス」「データ統合と分析」「データビジュアライゼーション」「Hadoop、Hive、SparkとHBaseによるスケールと分散コンピューティング」「機械学習（分類）」「機械学習（クラスタリング、次元削減）」「ニューラルネットワーク」などの分野を取り上げる。資料の元になった「DLI データサイエンス教育キット
Google App Engine上のベスト・プラクティス、その１: Datastore
- 510 users
- satoshi.blogs.com
- 暮らし
- 2010/02/08
Google App Engine上でアプリを作りはじめて約二ヶ月。いろいろと分かって来たこともあるので、自分へのメモも含めてまとめてみる。まずは、Datastoreの話から。なによりも大切なのはデータベースの設計あたりまえと言えばあたりまえの話だが、App Engine上でアプリを作る上でもっとも大切なこと（＝頭を使うべきところ）は、データベースの設計である。特にリレーショナル・データベース（RDB）上でのアプリ作りに慣れた人には、大きな「発想の転換」が必要なので、ここは注意が必要。特に絶対にやっては行けないのは、将来RDB上へ移行できるようにレイヤーを作って、その上にアプリを作る RDB上に作ったアプリをデータモデルを大幅に変更せずにApp Engine上に移植する RDBを前提に設計されたフレームワークをApp Engine上に載せて、その上にアプリを作るなど。App En
- GAE
- google app engine
- GoogleAppEngine
- google
- datastore
- appengine
- tips
- 開発
- db
- 設計
クックパッドのデータ処理、たった5万円：日経ビジネスオンライン
- 509 users
- business.nikkeibp.co.jp
- 暮らし
- 2010/04/19
気になる記事をスクラップできます。保存した記事は、マイページでスマホ、タブレットからでもご確認頂けます。※会員限定無料会員登録詳細｜ログイン月間ユニークユーザー数、884万人、月間ページビュー数、4億6000万（2010年3月）を誇る国内ナンバーワンの料理レシピの投稿・検索サイト「クックパッド」。日常的に料理をする人はもちろんのこと、たまにしか包丁を握らない人でもクックパッドのウェブサイトを一度は訪れたことがあるのではないか。 2ちゃんねるやTwitterを凌駕するそれくらい、クックパッドはレシピの投稿・検索サイトとして不動の地位を築いているように思える。なにしろ、母の日とカミサンの誕生日くらいしか、料理をしない筆者でさえも、クックパッドは何度かのぞき、お世話になったことがあるくらいだ。ページビュー数の比較でいえば、この4億6000万という数字は、2ちゃんねるや今流行りのT
- cookpad
- クラウド
- cloud
- Amazon EC2
- クックパッド
- Amazon
- Hadoop
- ビジネス
- ruby
- EC2
https://jp.techcrunch.com/2012/10/31/20121027big-data-right-now-five-trendy-open-source-technologies/
- 500 users
- jp.techcrunch.com
- テクノロジー
- 2012/10/31
- ビッグデータ
- オープンソース
- bigdata
- データ解析
- hadoop
- oss
- db
- 技術
- nosql
- cassandra
30歳を迎えたソフトウェア開発者である私が、20代のころに聴いておきたかったアドバイス | ライフハッカー・ジャパン
- 495 users
- www.lifehacker.jp
- 暮らし
- 2015/03/05
どんな業界でもキャリアを始めるときには、期待に胸が膨らむ一方で、先行きの不安が立ちこめるものです。与えられた仕事をひたすら頑張ればいいのだろうか？　それとも、将来有望なプロジェクトに狙いを定めて動くべき？　今回は、ひとりのソフトウェア開発者として、私が経験から学んだことをシェアしたいと思います。以下に、私の経験と観察に基づく、いくつかのアドバイスを紹介します。もちろん、これがすべてではありません。経験は人それぞれユニークなものですからね。でも参考までに。 1. 仕事中に学ぶことを恐れない。寂しいことに、多くの職場にある本棚はただの飾りにすぎません。本を手に取る人はめったにいません。忙しいコアタイムならなおさらです。でも、今はコンピューターの時代。あらゆる記事や書籍が電子媒体で読めるのです。だから読んでください。与えられた仕事だけをしていても、学べることは限られます。退屈な仕事を少しばか
本日12月1日より、プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる | gihyo.jp
- 494 users
- gihyo.jp
- テクノロジー
- 2013/12/01
本日12月1日より、プログラマ有志による2013年の技術系Advent Calendarが各所ではじまる本日12月1日より、プログラマ有志による2013年の各技術系Advent Calendar（アドベントカレンダー）が一日目を担当する人のblogではじまっている。昨年以上に細分化されたため、昨年よりも今年のAdvent Calendarの数が多くなっているようだ。また、技術系以外の人に対してもこのような形式のAdvent Calendarの認知度が上がり、技術系以外のAdvent Calendarも昨年より増えている。一般的なAdvent Calendarは、12月25日のクリスマスを楽しみに待つために、12月1日から24日までのカレンダーの日付の部分（扉だったりする）を開けるようになっており、1日ずつその日の日付の部分を開くと天使や動物の絵などが見えるという仕組み（もちろん、様々
Twitterの大規模システム運用技術、あるいはクジラの腹の中（前編）～ログの科学的な分析と、Twitterの「ダークモード」
- 491 users
- www.publickey1.jp
- 暮らし
- 2010/06/30
Twitterの大規模システム運用技術、あるいはクジラの腹の中（前編）～ログの科学的な分析と、Twitterの「ダークモード」先週の6月22日から、米サンタクララで行われていたWebサイトのパフォーマンスと運用に関するオライリーのイベント「Velocity 2010」が開催されていました。その中で、TwitterのJohn Adams氏がTwitterのシステム運用について説明するセッション「In the Belly of the Whale: Operations at Twitter」（クジラの腹の中：Twitterでの運用）が行われています。Twitterのような大規模かつリアルタイムなWebサイトの運用とはどういうものなのでしょうか？公開されているセッションの内容を基に概要を記事で紹介しましょう。システム管理者の新たな役割、Railsの性能の評価、Bittorrentを使った
データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
- 490 users
- tjo.hatenablog.com
- 学び
- 2013/05/07
追記2 2015年末の時点での最新リストはこちらです。追記この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「＊」を打ってあります*1*2*3 統計学統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ
分散システム処理モデルに関する動向について（MapReduceからBorgまで）
- 489 users
- techblog.yahoo.co.jp
- テクノロジー
- 2015/06/10
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化（限定）されたモデルであったと言えます。また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま
MySQLのバックアップ運用について色々
- 479 users
- www.slideshare.net/yoku0825
- テクノロジー
- 2015/02/28
分散システムのFault Injectionの話 NTTデータテクノロジーカンファレンス2017で発表する際に用いたプレゼン資料 https://oss.nttdata.com/hadoop/event/201710/index.html
- mysql
- バックアップ
- backup
- DB
- 運用
- mysqldump
- database
- あとで読む
- データベース
- development
Yahoo! JAPANの新しいメッセージングシステムと、それをOSSで開発するエンジニアの素顔 - はてなニュース
- 478 users
- hatenanews.com
- テクノロジー
- 2016/12/12
国内有数のWebサイトであるYahoo! JAPANでは、その膨大なトラフィックを支える大規模なインフラチームを擁しています。大量なだけではなく、多様なサービスが生み出すさまざまなデータを処理したいという要求から、オープンソースとして公開されたばかりのメッセージングシステム「Pulsar」が生まれました。長年親しんだ六本木から移転したばかりのYahoo! JAPAN新オフィスで、同社のプラットフォーム開発エンジニアの考え方や働き方を、はてなエンジニアとの座談会形式でお聞きしました。座談会出席者は、ヤフー株式会社システム統括本部プラットフォーム開発本部の北條正和さん、坂本雅宏さん、栗原望さん（上写真、中央より右へ）、はてなの坪内佑樹（システムプラットフォーム部 Webオペレーションエンジニア）と脇坂朝人（Mackerelチーム Webアプリケーションエンジニア）（同じく上写真、左より）
- pulsar
- yahoo
- あとで読む
- oss
- エンジニア
- Yahoo!
- architecture
- hatena
- Yahoo! JAPAN
- mq
機械学習、どこから手を付ける？～初期コストゼロで試せるBigInsightsで、Hadoop＆Sparkのエコシステムをフル活用～ - はてなニュース
- 470 users
- hatenanews.com
- テクノロジー
- 2016/11/21
「大規模データ分析や機械学習を始めてみたい」と考えているチームは多いはずだ。情報システムや業務の現場が生み出すビッグデータを最新手法で分析することで、データに潜んでいた価値を発掘でき、それを新たなビジネス価値に結び付けられるとの期待が高まっているからだ。そこで出てくる問いは「いったいどこから始めたらいいのだろうか？」。（※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です）大量データ分析で名前が挙がるソフトウェアといえば、Apache HadoopとApache Sparkだ。そのエコシステムは高度で充実している。だからこそ「どこから手を付けるのか」に悩む人も多い。「Hadoop/Sparkのディストリビューションを利用できるIBM BigInsights試用版や、クラウドサービスBluemixを使えば、明日からでもHadoop/Sparkによるデータ分析や機械学習に取り組
ついにRFCに登場！Webサーバとの双方向通信を実現する「WebSocket」 - builder
- 470 users
- builder.japan.zdnet.com
- テクノロジー
- 2012/01/06
次世代のWebアプリケーションの中核を担う技術として「HTML5」に注目が集まっているが、それと並んで期待されている技術に「WebSocket」がある。 IETFとW3Cによって仕様の策定が進められており、最初の提案以来幾度もの改訂を経て、2011年12月11日にそのプロトコル仕様がRFCのProposed Standard（RFC 6455）となった。 AjaxからComet、そしてWebSocketへ WebSocketはウェブサーバとブラウザが直接コネクションを張って双方向通信するための技術規格である。HTTPとは異なる独自の軽量プロトコルによって通信を行うため、オーバーヘッドが小さく、長時間に渡って通信する場合でもHTTPコネクションを占有する必要がないというメリットがある。 WebSocketが生まれた背景には、サーバとブラウザがもっとリアルタイムに通信して情報の配信や更新を行え
- websocket
- html5
- rfc
- web
- programming
- network
- ajax
- web制作
- NoSQL
- サーバ
fluentd を利用した大規模ウェブサービスのロギング
- 468 users
- www.slideshare.net/slideshow
- テクノロジー
- 2012/02/04
3. • id:secondlife • @hotchpotch • 舘野祐一 / Yuichi Tateno • Shibuya.js 発起人 • Asakusa.rb 所属 • ﬂuentd コミッタ̶ • BiS, ももいろクローバーZ
- fluentd
- cookpad
- log
- fluent
- rails
- ruby
- server
- git
- slide
- web
FacebookにおけるMySQLを用いた大規模システムアーキテクチャの現実～MySQL Connect 2013
- 468 users
- www.publickey1.jp
- テクノロジー
- 2013/09/27
米オラクルが主催するMySQLのイベント「MySQL Connect」が9月21日から23日まで、サンフランシスコで開催されました。Oracle OpenWorld、JavaOneとの同時開催でした。基調講演の1つには、MySQLのヘビーユーザーであるFacebookのHarrison Fisk氏が登壇。FacebookにおけるMySQLの役割、大規模運用の背景などを紹介しています。その内容をダイジェストで紹介しましょう。 MySQL@Facebook Lots and lots of small data Harrison Fisk氏。 Facebookでデータパフォーマンスチームのマネージャをしている。社内ではMySQLはもちろん、HBase Hadoopなどにも関わっている。まずは、どんな種類のデータをMySQLで扱っているのかについて。 Facebookとは基本的にグラフだ。グ
- mysql
- facebook
- architecture
- DB
- memcached
- database
- データベース
- php
- publickey
- データ
初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
- 466 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/06/03
背景お題技術の差別化差別化から分かること情報資産からToBeを考える俯瞰的・相対的な技術選定これまでの話から学んだこと最後にはじめまして、MonotaROでデータエンジニアをやっています、芝本です。エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。技術を使うためには、技術を学ばなければいけません。プライベートにおいては、好奇心に従って自由に学びますよね。とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。というようにプライベートでは主に次のような選択肢があると思います。書籍を読んで好きなものを選ぶ実際に手を動かしてみて好きなものを選ぶ人に教えてもらって好きなものを選ぶ基本的にプライベートの場合は何
『SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道-』に参加してきた #devlove - Diary of absj31
- 465 users
- absj31.hatenadiary.com
- テクノロジー
- 2012/10/09
SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道- - DevLOVE 2012/10/09 SIエンジニアの自分戦略 -急がば回れ、選ぶなら近道 - DevLOVE #devlove - Togetter 講師及びその講師の方が話されるテーマも相俟って、募集後即定員が埋まる盛況振り。自分もタイミングを逸しキャンセル待ちで登録していたのですが、晴れてキャンセル待ち繰り上がりで参加資格を得る事が出来たのでこの日参加して来ました。会場はマイクロソフト品川本社セミナールーム。今回はいつにもまして参加者も著名な方が多数参加。注目度の高さがここでも伺えます。 papandaさんの今回のイベント開催に至る経緯として以下の様なコメントが最初にあり、間髪入れずに本編へGOです。ブログを読んでいて、書かれている事が仕事に対して危機感を持つ内容だった。こういった内容を書かれる方のお話を聞いてみたい。
- SI
- エンジニア
- キャリア
- sier
- IT
- 仕事
- it業界
- career
- devlove
- business
クックパッド開発者ブログ
- 460 users
- techlife.cookpad.com
- 暮らし
- 2008/09/29
こんにちは。SRE の小川 (@coord_e) です。先日の投稿にあった通り、クックパッドはレシピサービスをグローバル版に統合しました。サービスの統合に伴って、開発や運用のインフラもグローバルチームで利用されているものを使うことになりました。運用インフラの中でも特に大きな違いとして、日本とグローバル版ではコンテナオーケストレーションの仕組みが異なっています。日本では Amazon Elastic Container Service (ECS) を使ってコンテナを実行していますが、グローバル版では Amazon Elastic Kubernetes Service (EKS) の上でコンテナを実行しています。また開発面ではデプロイフローに大きな違いがあります。日本では、アプリケーションの新しいリビジョンのデプロイは ChatOps によって行なっていました。main ブランチに PR
- cookpad
- blog
- webサービス
- rails
- development
- ruby
- クックパッド
- apache
- 料理
- サーバ
あなたのJavaコードをスッキリさせる、地味に便利な新API 10選（前編） - Taste of Tech Topics
- 459 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2014/03/12
こんにちは！アキバです。．．．T3ブログは初登場かもしれません。ハジメマシテ。以後お見知りおきを。いよいよ、2014年3月、Java8が正式公開されますね。なんと言っても、Java8の注目機能はラムダ式ですので、ラムダ式や型推論に関する記事は多いです。世の中で「Java8」と検索すると、皆さんいろいろと記事を書かれているので、おおよその事はこれで分かっちゃうような気がします。が、実は地味に便利なAPIが追加されていたりすることを最近知りました。これはあまり触れられていないぞ、と。というわけで、このエントリでは、あまり日本語で情報の無い、しかし地味に便利なAPIに実際に触れてみます。大事なところなので２回強調して書いてみました。今回は、前編として４つ紹介します。 ※APIの紹介と言いつつ、コードにはラムダ式を使ったコードが普通に出てるので、ご了承ください。 (むしろ、
- java
- Java8
- api
- programming
- ラムダ式
- 便利
- プログラミング
- string
- 未読
- ()
Fluentdとログ収集のパターン - Go ahead!
- 459 users
- repeatedly.github.io
- テクノロジー
- 2014/07/31
「ログを集めて保存する」と言うのは簡単だけど，ログ収集の構成にはいくつか方法があり，勉強会などでちょくちょく聞かれるので，いくつかのパターンについて書く．「俺はもうバリバリログ収集やってるぜ！」という人は多分すでに知っていることが書かれているので，タブを閉じて良い．ここではログコレクタにFluentdを想定しているが，他のログ収集プロダクトにも適用出来るはず．ただ，Fluentdはタグベースのルーティングを持ち，単体でもキューのように動作させることが可能で，既存のものより複雑な問題を解決しようとしているので，少し工夫が必要かもしれない． Fluentdそのものについては公式ドキュメントや，Fluentdとはどのようなソフトウェアなのかを参考に．クライアントから直接保存するいきなりFluentdを使わないパターン．JavaScript SDKを提供している解析サービスやモバイル端末
- fluentd
- ログ
- logging
- log
- インフラ
- development
- プログラミング
- Apache
- システム
- パターン
テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり〜langstatの研究日誌〜
- 453 users
- hatena.blog
- テクノロジー
- 2012/05/04
「遊び」をクリエイトするAI デスピサロを相手に、効くはずのないザラキを唱えまくるクリフトを見ながら、AIというのはなんてアホなのだろうと思った。多分、それが、僕が初めてAIに出会った瞬間だったと思うのだけど、時は過ぎ、現代では生成AIを中心とした「かしこいAI」たちが世に溢れていて、…
Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
- 453 users
- developer.hatenastaff.com
- テクノロジー
- 2016/10/05
この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1（基礎編）では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2（実用編）では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。実問題に機械学習を適用するタスクを定義するデータを特徴ベクトルに変換する評価方法を決める正解データの正例と負例は均等にベースラインとなる手法を実装する実データに向き合うときの心構え機械学習のワークフロー 1. 前処理データセット作成サンプリング特徴抽出欠損値・欠測値への対応値のスケーリング特徴選択次元削減 2. 学習モデ
スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech
- 452 users
- speakerdeck.com/takus
- テクノロジー
- 2015/03/22
スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…
- ログ
- アクセス解析
- presto
- smartNews
- aws
- jawsdays
- log
- hive
- slide
- あとで読む
P言語の素晴らしさについて - kuenishi's blog
- 452 users
- kuenishi.hatenadiary.jp
- テクノロジー
- 2017/05/25
先週Microsoft社がP言語に関するブログ記事を公開し一部界隈で話題となった。 P言語くん pic.twitter.com/uULzxIO4ct— Kuntaro Ishiyama (@_iamkuntao) 2017年3月26日「いまさら一文字言語かよ…」「何個目だ？」といった批判的諦念的なものから、「RustとGoとErlangの間の子みたいなのだなあ」「なんか読みにくい」といった反応が多くこの言語の重要性やインパクトに対して正しく理解しているものがあまりなかった。尊敬しているTD勢ですらあまり重要性が伝わってないようだ 1 2 。上記のブログ記事を読んだり、マニュアルを読んだらすぐ分かるようなことではあるが、日本語で解説しておこうと思う。なおいわゆる言語入門とかそういった類のものではないことをご理解いただきたい。 TL;DR 並行処理や分散システムの形式証明や形式検証はそれ自体
- P
- programming
- plang
- P言語
- あとで読む
- microsoft
- 言語
- プログラミング
- 分散システム
- language
LTSV FAQ - LTSV って何? どういうところが良いの? - naoyaのはてなダイアリー
- 451 users
- naoya-2.hatenadiary.org
- テクノロジー
- 2013/02/09
LTSV って何? Labeled Tab-Separated Values という、テキストのフォーマットの仕様です。CSV や TSV や JSON そのほかと同じ、テキストデータのフォーマット名。主にログ、特に httpd のアクセスログなどに適用すると便利です。仕様は http://ltsv.org にまとまっています。随時更新中です。 LTSV は単なるログのフォーマットであって、それ以上でもそれ以下でもありません。 LTSV ってタブ区切りで値に名前を付けただけのもの? はい、そうです。これが 127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (
- ltsv
- log
- フォーマット
- apache
- ログ
- format
- http
- nginx
- naoya
- JSON
フェイスブックの作ったオープンソース色々:phpspot開発日誌
- 451 users
- phpspot.org
- 暮らし
- 2011/01/17
公開初日に早速フェイスブックの映画、ソーシャルネットワークを見てきました。サービスを作ってる人は、\1,800はらうだけでやる気を200％ぐらいにしてくれる映画だと思うので費用対効果は安いと思います。映画の中で、ハーバード大学は2時間で22000アクセスのトラフィックを集めただけで落ちちゃうの？とかナップスターの作者さん遊び上手すぎじゃない？とか、新機能の実装に家かえってから1、2分とか早すぎない？等の、ツッコミどころなんかも楽しめます。映画の中ではコーディングに関することは殆ど出てこなかったわけなんですが、膨大なトラフィックをさばくためにfacebook自体、多くのオープンソースを公開しているのでdevelopers.facebook.comから紹介してみます。もうすぐ6億人に届くほどのユーザを扱うためには、想像を絶するインフラや高速化、サーバ間連携の仕組みが必要になるわけですが
- facebook
- オープンソース
- php
- oss
- ライブラリ
- まとめ
- 開発
- C++
- tool
- opensource
バッチ処理について考える - Qiita
- 450 users
- qiita.com/koduki
- テクノロジー
- 2020/01/11
TL;DR ひとくちにバッチといっても色々ある夜間バッチをもう作るなオンラインバッチはSQL以前にDB設計がんばれはじめに Twitterのタイムラインで以下のようなツイートが回ってきました。バッチ処理をみんな舐めてかかったり、ショボイとか思ってる人多い印象なんだけれども、数十万～数千万件規模のデータを処理したことあるのかな。テンプレ通りのコードじゃ動かないよ？ネットに本にも答え載ってないよ？低レイヤも意識しないと動かないよ？ 2020年1月10日ツイートされたわだっしーさんの意図がどこにあるかは確認してないですが、極限の世界でテンプレート的な処理では対応出来ないのはあるよな、と思いつつもある程度はバッチの作法としての書き方があると思っています。このツイートとその関連ツイートを読みながら、そういえばバッチ処理に関して書いてある記事はあまり見ないなぁ、とおもったので他のネットや本
障害の事後分析を読んで得た教訓 ― 「何がシステムを停止させるのか？」 | POSTD
- 449 users
- postd.cc
- テクノロジー
- 2015/09/25
私はポストモーテム（事後分析）の記録を読むのが大好きです。ポストモーテムを読むと勉強になりますが、大抵の教材的資料とは違って、興味深いストーリーが含まれているのです。相当な時間をかけてGoogleとMicrosoftのポストモーテムを読みました。大きな障害を招く最大の原因について、私は（まだ）きちんと分析していませんが、何度も繰り返し目にするポストモーテムのパターンがいくつかあります。エラーハンドリング適切なエラーハンドリングのコードを書くのは難しいものです。エラーハンドリングのコードに含まれるバグは、大きな問題を引き起こす主な原因となっています。つまり、エラーによってバグのあるエラーハンドリングのコードが実行されるということは、単に個々のエラーが重なるだけという事態にはとどまらないのです。障害が重なって重大なシステム停止につながることはよくあります。それはある意味明らかなことで、
Awesome Python：素晴らしい Python フレームワーク・ライブラリ・ソフトウェア・リソースの数々 - Qiita
- 446 users
- qiita.com/h_nt21
- テクノロジー
- 2017/02/01
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 元記事: Awesome Python Awesome List in Qiita Awesome Ruby Awesome Java Awesome JavaScript Awesome Node.js Awesome Go Awesome Selenium Awesome Appium 管理パネル管理インタフェース用ライブラリ ajenti - サーバ用管理パネル. django-grappelli - Django 管理インターフェースのためのジャズスキン. django-jet - 改良された機能を備えた Django 管理イ
プログラミング言語やデータベースが選べる新世代PaaS「DotCloud」が正式サービス開始
- 445 users
- www.publickey1.jp
- 暮らし
- 2011/06/30
DotCloudの最大の特徴は、PHPやPerl、Ruby、Java、Python、Node.jsなど複数の言語と、MySQL、PostgreSQL、Cassandra、MongoDB、CouchDB、Redisなど複数のデータベースやMemcached、RabbitMQ、Hadoopなどのさまざまなソフトウェアを開発者が自由に組み合わせてプラットフォームを構成することができ、それがクラウド上のPaaSとして提供されるという点です。構成されたPaaSの運用は当然ながらDotCloudが行います。モニタリングや動的なスケーリング、フェイルオーバー、耐障害性向上のため自動的に3つのデータセンターへの分散などが行われ、基本的に開発者は運用を気にする必要はありません。新しい世代のPaaS これまでの代表的なPaaS、例えばグーグルのGoogle App Engine、セールスフォース・ドットコ
入社2週間で書類1枚書かずに大きな決裁！グリーのスピード感：Rails Hub情報局：エンジニアライフ
- 443 users
- el.jibun.atmarkit.co.jp
- テクノロジー
- 2012/02/23
「オレ、入社2週間で大きな決裁を通しましたよ！まだ試用期間中だったのに（笑）」。JRubyのコミッターで、Rubyコミュニティで広く知られた大場光一郎さんに久しぶりにお会いしたら、ちょっと興奮気味にこうおっしゃるのですよ。具体的な数字は書けませんが、確かに、ふつうの企業なら1週間や2週間で決まるような金額ではありません。まして入社2週間の試用期間中の社員の提案です。大場さんは2011年12月に、日本で5本の指に入る大手SIerを退職し、ソーシャル・ネットワーキング・サービス「GREE」を運営するグリーに入社したというではありませんか。そして、あまりの2社のスピード感の違いに驚いているというのです。Developers Summit 2012（通称デブサミ）が終わった後の飲み会でお話を伺ったのですが、水を得た魚とはこのことかというほど楽しそうに、新しい仕事上のチャレンジについて話をされて
- gree
- github
- ruby
- git
- オープンソース
- SIer
- 企業
- DeNA
- プログラマ
- work
グーグル発「Hadoop」、日本企業も利用へ
- 442 users
- xtech.nikkei.com
- 暮らし
- 2011/01/17
Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ
- Hadoop
- google
- オープンソース
- 検索
- 技術
- 開発
- technology
- ITpro
- MapReduce
- あとで読む
Treasure Data - naoyaのはてなダイアリー
- 442 users
- naoya-2.hatenadiary.org
- テクノロジー
- 2013/03/22
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。
- treasuredata
- fluentd
- bigdata
- hadoop
- Treasure Data
- MapReduce
- log
- ログ
- data
- programming
AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ
- 439 users
- blog.engineer.adways.net
- テクノロジー
- 2023/10/20
エージェンシー事業でリードアプリケーションエンジニアを行なっている大窄直樹 (おおさこ)です. AWSのログ, サーバーのログってたくさん種類があって難しいですよね... 同じようなログがたくさんあるので, 何を取れば良いのかとかどのくらいの期間保持すれば良いのかとかまたその後の, ログの実装や, 分析方法する方法も難しいですよね... 今回AWSに構築した商用アプリケーションのログを整備する機会があったので, このことについて書こうかなと思います. 概要本題に入る前の準備今回ログ実装するアーキテクチャログに関する法令ログの取得箇所設計保管するログの決定インフラのログ OSのログアプリケーションのログログの保管保管場所について保管期間についてバケット構造アプリケーション, OSのログの転送実装アプリケーション, OSのログをfluentbitを用いてS3
- aws
- ログ
- あとで読む
- 設計
- log
- logging
- 法律
- architecture
- security
- 設定
HBaseとはどんなNoSQLデータベースなのか？日本語で読める情報を集めてみた
- 429 users
- www.publickey1.jp
- 暮らし
- 2010/11/21
Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model（一貫性モデル）を備えている自動ロードバランス、フェイルオーバー、圧縮機能サーバーごとに数十個のシャードを割り当て可能、などなどこのHBaseはどのようなデータベースなのでしょうか？情報を集めてみました。 HBase入門のプレゼンテーション最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン
- hbase
- NoSQL
- Hadoop
- DB
- facebook
- データベース
- database
- Cassandra
- あとで読む
- kvs
月間57億PV、300台のサーバを運用するミツバチワークスが編み出したインフラ技術
- 428 users
- atmarkit.itmedia.co.jp
- 暮らし
- 2010/09/01
ミツバチワークスのエンジニアは、「月間57億PV」という巨大なトラフィックをさばくため、さまざまな技術を駆使してインフラを構築している。主と副の2本立てでデータベースを運用し、300台のサーバを使いながら「負荷の限界」に挑むエンジニアに、技術ノウハウを聞く。ミツバチワークスが運営するケータイブログサービス「DECOLOG」は、異色のサービスである。10代後半から20代前半の女性に最も人気のあるケータイブログサービスで、「デコメール」などを利用して、かわいくカラフルなブログを作成できる。広告基準を厳しくすることで女性ユーザーにも不安なく使ってもらえるような安心感を作り出し、口コミだけでじわじわとアクセス数を伸ばしてきた。結果、2010年7月実績で月間57億PV（ページビュー）超、想定800万UU（ユニークユーザー）、会員登録者数180万件と、ケータイブログサイトでは国内最大のサービスとし
- 負荷分散
- インフラ
- 運用
- server
- サーバ
- MySQL
- システム
- PHP
- DECOLOG
- 技術