本文「hadoop」を検索 - はてなブックマーク

321 - 360 件 / 11443件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果321 - 360 件 / 11443件

ソリューションアーキテクトという仕事について - 工場長のブログ
- 153 users
- imai-factory.hatenablog.com
- テクノロジー
- 2017/12/12
ex-mixi Advent Calander 2017の12/12分のポストです。みんなエモいことを書いているのでわたしもエモいことを書くことにします。ちなみに今日はわたしの結婚記念日で、嫁とはmixiで出会いました（物理/社内）。で、テーマはソリューションアーキテクト（以下、SAと略します）という仕事について。もっとみんなにSAって何なのかというのを知ってもらいたいなと思ってます。SAってめっちゃ面白いよ！ってのを叫びたいのです。なお、本ポストではわたしがAWSでSAをやっていたときの話をしますが、あくまで経験や「わたしはこうやっていた」という話であって、AWSを代表する見解ではないことをご理解ください。 mixiには2010/2から2012/7までの約2.5年在籍していて、ずっと広告関連のアプリケーション開発をやっていました。自分のなかではものすごく体感時間長かったんですが、振り
- aws
- キャリア
- 仕事
- エンジニア
- あとで読む
- 考え方
- 生き方
- 開発
- ビジネス
達人出版会
- 153 users
- tatsu-zine.com
- テクノロジー
- 2020/07/03
探検! Python Flask Robert Picard, 濱野司(訳) BareMetalで遊ぶ　Raspberry Pi 西永俊文なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う！オープンソースライセンス可知豊きつねさんでもわかるLLVM 柏木餅子, 風薬 R／RStudioでやさしく学ぶプログラミングとデータ分析掌田津耶乃データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書クジラ飛行机スッキリわかるサーブレット＆JSP入門第4版国本大悟(著), 株式会社フレアリンク(監修) 徹底攻略基本情報技術者教科書令和6年度株式会社わくわくスタディワール
- ebook
- あとで読む
- epub
- プログラミング
- book
- 開発
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 151 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
富士通クラウドテクノロジーズ株式会社 aka ニフティ株式会社を退職します - PolyPeaceLight
- 151 users
- muddydixon.hatenablog.com
- テクノロジー
- 2017/06/27
2017/06/28 14:00 追記「富士通」が冠についたことは何一つ退職の原因ではありません(そうでなければ「面白い会社です！」とか書きません)。クラウドを作る側に回りたいヒト、クラウドをもっと便利に使うための機能を作りたいヒトは引き続きおすすめの会社の1つです退職エントリを見るたびに「知らんがな」という思いと「全員に直接いうのも変だから便利そう」という思いの両方がありましたが、いざ、自分が退職することになると「全員と飲みましょう」とか無理だと気が付き「便利」となったので書くことにしました。正確には「富士通クラウドテクノロジーズ株式会社」を退職するのですが、正直2ヶ月しか働いておらず「遅れたニフティ株式会社の卒業生」という気持ちしかないので以降「ニフティ」と記載します。このエントリも消されるかもしれませんが、そのときは社会の闇だと思って下さい。就職してからここまで博士課程満
- 退職
- ニフティ
- あとで読む
- Nifty
- engineer
- 仕事
- 転職
- エンジニア
- AWS
インタビュー：Rubyコミッターの笹田氏がクックパッドへの入社を決めた理由。オープンソースのコミッタはどのような思いで転職するのか？
- 150 users
- www.publickey1.jp
- テクノロジー
- 2017/01/24
インタビュー：Rubyコミッターの笹田氏がクックパッドへの入社を決めた理由。オープンソースのコミッタはどのような思いで転職するのか？ Rubyのコアコミッターである笹田耕一氏が、レシピ共有サービスなどを展開しているクックパッドへ入社することは、1月21日付の記事「［速報］Rubyのコアコミッター笹田耕一氏、クックパッドへ」で紹介しました。本記事ではあらためて、笹田氏がクックパッドへの入社を決めた理由や、クックパッドが笹田氏に声を掛けた背景、そして笹田氏にとっての転職の意味などについて、笹田耕一氏と、クックパッドの執行役CTO成田一生氏に聞きました。クックパッドへの転職に大きな可能性を感じた ──── あらためてクックパッドが笹田さんに声をかけた背景を教えてください。成田氏　クックパッドでは長年、Rubyを用いたサービス開発を行ってきました。 Rubyはシンプルな記述で高度な処理を表現
第1回　RDBMSとNoSQLデータベース | gihyo.jp
- 150 users
- gihyo.jp
- 暮らし
- 2010/05/21
はじめに NoSQL（Not Only SQL）という言葉が注目を集めています。これは「RDBMSが得意なことはRDBMSで、不得意なところにはRDBMSにこだわらず、用途に合ったデータストアを使いましょう』という考え方です。最近では、いわゆるNoSQLデータベース（⁠key-valueストアや各種データベース⁠）⁠ が次々と登場してきています。そこで今回から数回に渡り、それぞれのNoSQLデータベースの特徴や具体的な使い方について紹介していきます。 RDBMSの強みとはそもそも、MySQLやPostgreSQLなどのRDBMSの弱みを補うため、様々なNoSQLデータベースが登場してきたわけですが、RDBMSにはたくさんの強みがあることも忘れてはいけません。 RDBMSの強みデータの一貫性（⁠トランザクション）更新時のコストが少ない（JOINが前提でテーブルが正規化されている）
- NoSQL
- kvs
- データベース
- database
- db
- sql
- mysql
- IT
- tutorial
- RDBMS
明暗くっきり、オライリーと技術評論社
- 149 users
- anond.hatelabo.jp
- テクノロジー
- 2011/12/30
オライリー本の値段は高いが、質も高い。自分の専門分野のオライリー本は必ず一冊は持っているのが当たり前だった。「サイ本」とか本にニックネームが付けられてそれで通用するぐらいに、とにかくオライリーの本はwebエンジニアにとって特別な本であった。そして時代は変わる。オライリー自体は変わっていないが、時代が変わってしまった。日本語で出版されるオライリー本の価値がゆっくりと毀損する間に、技術評論社の書籍の評価はうなぎ上りだ。うん、ここ最近ではHadoop本は秀逸だった。トレンド技術を捉えてうえで数年は価値が落ちない網羅っぷり。まだ枯れきっていない分野で日本語オライリー本が存在感を示した最後の例になるかもしれない。乱立するKVS分野において日本語オライリー本は無力極まりなしで目も当てられない。 cassandraがようやく出たがversion0.8だ。外人さんが書いた原本を数ヶ月から一年か
- プログラミング
- book
- programming
- 英語
- 書籍
- エンジニア
- 学習
- 出版
- engineer
- web
楽天テクノロジーカンファレンス 2008にいってきました - d.hatena.zeg.la
- 148 users
- zegenvs.hatenadiary.org
- 暮らし
- 2008/11/29
1000人以上のエンジニア、全国各地に開発拠点をもっている楽天のテクノロジーカンファレンスにいってきました。分散並列処理フレームワークfaily,P2PオンメモリストレージROMAが 2009年にOpenSource化されるとのことでした。楽天ウェブサービス APIの紹介 16種類のAPI 直近だと楽天ランキングAPI 1500万件,2万件の宿泊施設 Affiriateと連動可能 REST,JSON,SOAPのフォーマットをサポート楽天ダイナミックアド楽天版アドセンス記事の内容にマッチした楽天の商品を出す楽天経済圏 APIを使ったアプリが入り込めるマッシュアップブームおちちている ALL 35,000ID Active 5,000ID Webサービス経由の流通金額は7.24% 3,500万request/day ItemSearch,GenreSearch,Itemcode
- 楽天
- event
- rakuten
- ruby
- server
- 勉強会
- oss
- 負荷分散
- report
- hadoop
LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog
- 148 users
- mixiengineer.hatenablog.com
- テクノロジー
- 2010/05/06
GW 中の長距離移動のために体調が優れない takahi-i です. 今回は巨大なデータをマイニングする一つの技術として LSH (Localtiy Sensitive Hashing) を紹介させていただきます. LSH とは LSH は大量なデータから類似度が高いインスタンスのペアを高速に抽出してくれるアルゴリズムです. ここでインスタンスはデータ集合の一つの要素を表します. たとえば扱うデータが E-コマースサイトの購買ログであれば, インスタンスは各ユーザですし, 画像データ集合であれば, インスタンスは個々の画像データです. LSH の詳しい解説については以下のサイトがあります. Wikipedia のエントリ LSH に関する論文がまとめられているページ本稿ではE-コマースサイトの購買履歴データを基に LSH の機能について述べてゆきます. 以下のような E-コマースサイトの
Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016
- 146 users
- www.publickey1.jp
- テクノロジー
- 2016/02/09
Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日本を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan（以下Yahoo!）です。同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。同社データインフラ本部遠藤禎士（えんどうただし）氏
- hadoop
- Yahoo
- あとで読む
- Yahoo!
- BigData
- ビッグデータ
- spark
- Publickey
- 事例
ヤフーを変え始めたHadoop
- 146 users
- xtech.nikkei.com
- 暮らし
- 2010/06/14
ヤフーが日本独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System（GFS）」と「MapReduce」を模したオープンソースソフトである（図）。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ～数ペタバイトに及ぶデータを高速に処理できる。 Hadoopを日本国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった（表）。
- hadoop
- yahoo
- Yahoo!
- クラウド
- MapReduce
- 高速化
- cloud
- google
- db
- オープンソース
Web Architecture 101
- 145 users
- engineering.videoblocks.com
- テクノロジー
- 2018/07/13
Modern web application architecture overviewThe above diagram is a fairly good representation of our architecture at Storyblocks. If you’re not an experienced web developer, you’ll likely find it complicated. The walk through below should make it more approachable before we dive into the details of each component. A user searches on Google for “Strong Beautiful Fog And Sunbeams In The Forest”. The
- architecture
- web
- あとで読む
- WebDevelopment
- engineering
- IT
- server
ストリームデータ分散処理基盤Storm
- 144 users
- www.slideshare.net/hadoopxnttdata
- テクノロジー
- 2013/04/22
2012年12月10日 NTTデータオープンソースDAY 2012 講演資料『ストリームデータ分散処理基盤 Storm』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス岩崎正剛 http://oss.nttdata.co.jp/hadoop/
- storm
- hadoop
- データ分析
- OSS
- slideshare
- database
- 分散処理
- 分散
- distributed
- *reference
DeNAの分析を支える分析基盤
- 144 users
- www.slideshare.net/slideshow
- テクノロジー
- 2016/02/02
Hadoop/Spark Conference Japan 2016でのライトニングトークの資料 by Ryosuke Iwanaga (@riywo) This document summarizes a microservices meetup hosted by @mosa_siru. Key points include: 1. @mosa_siru is an engineer at DeNA and CTO of Gunosy. 2. The meetup covered Gunosy's architecture with over 45 GitHub repositories, 30 stacks, 10 Go APIs, and 10 Python batch processes using AWS services like Kinesis, Lambda, SQS a
- DeNA
- データ分析
- Hadoop
- Spark
- Elasticsearch
- 分析
- analytics
- analysis
- ゲーム
- data
Hadoopの異端さが面白い - wyukawa's diary
- 143 users
- wyukawa.hatenablog.com
- 暮らし
- 2011/09/04
Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（
- hadoop
- SIer
- si
- プログラミング
- java
- 開発
- programming
データベースは目的別に使い分けるべし
- 143 users
- www.publickey1.jp
- 暮らし
- 2009/11/09
元マイクロソフトのSQL Server開発チームの一員であり、その後マイクロソフトのデータセンターのアーキテクトとして活躍。昨年アマゾンに移籍して、現在はAmazon Web Servicesの上級エンジニアであるJames Hamilton氏が、自身のブログの「One Size Does Not Fit All」というエントリで、リレーショナルデータベースだけにとどまらない幅広いデータベースの種類を4つに分類して紹介しています。 4つの種類とは「機能優先」「スケーラビリティ優先」「シンプル」「目的別」です。 Hamilton氏は、アマゾンがAmazonクラウドでMySQLのサービスを開始したところ、以前から提供していたキーバリュー型データストアの「SimpleDB」は終了するのではないかと心配する声があったことを挙げ、 I can understand why some might co
- DB
- database
- データベース
- クラウド
- nosql
- mysql
- sql
- kvs
- 開発
- amazon
電子書籍『実践機械学習』の無料ダウンロードが可能に！
- 143 users
- www.oreilly.co.jp
- テクノロジー
- 2014/08/22
機械学習の基礎について解説した電子書籍『実践機械学習 ― レコメンデーションにおけるイノベーション』がHadoop情報サイト「Hadoop Times」から無料でダウンロードできます。著者は『Mahoutイン・アクション』の著作でもお馴染みのTed DunningとEllen Friedman。Apache Mahoutプロジェクトでプロジェクトマネジメント委員やコミッタとして活躍しながら、MapR社でチーフアプリケーションアーキテクトやコンサルタントを務めている両氏が、機械学習の初学者のために書き下ろしたの一冊です。50ページほどの手軽なボリュームながら、レコメンデーションを洗練させるための重要なエッセンスが詰まっています。機械学習とレコメンデーションについて学習したいけれど、どこから始めればよいか迷っているという方は、手始めに本書を読むところから始めてみてはいかがでしょうか。 H
- 機械学習
- oreilly
- 電子書籍
- mahout
- hadoop
- ダウンロード
- ebook
- 本
- book
- 書籍
MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入
- 143 users
- www.publickey1.jp
- テクノロジー
- 2016/04/07
MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入 MariaDB ColumnStoreは、その名が示す通りMariaDBのストレージエンジンとして組み込めるカラム型のデータベースエンジンです。一般のデータベースエンジンはデータを行単位で扱うのに対して、カラム型データベースエンジンは列単位で処理するのが最大の特徴です。データを列単位で処理すると同一型のデータが並ぶためデータの圧縮効率が高く、また一般に列方向で行われる集計処理も高速に、しかも列ごとに分散して並列に行えるという利点があります。そのためにカラム型データベースエンジンは、大規模な分析や集計処理を得意とするデータベース製品で使われています。 MariaDB ColumnStoreはもともとオープンソースのデータウェアハウス向けデータベース「InfiniDB」をフォークした
- mariadb
- mysql
- db
- database
- DBMS
- Publickey
- あとで読む
Treasure Dataに入社しました - かみぽわーる
- 142 users
- blog.kamipo.net
- テクノロジー
- 2015/04/03
近況などをブログに書いたことはなかったんですが、4月からTreasure Dataで働くことになりました。 3月に新しい仕事を探してたタイミングでちょうど声をかけてもらって、他に誘ってくれてるところもあっていろいろ考えたんですけど、今まで自分がやってたWeb屋さんとは結構ちがう専門的なプロダクトが面白そうだったこと、話してみてエンジニアリング上の解決したい課題についてすごく具体的にいろいろ話してくれたので、畑違いな気もするけどやれることは結構ありそうだなとイメージできたので入社することにしました。あとは声をかけてくれるのが2週間遅かったら他のところに決めちゃってたので、お互いのタイミングが合ってたことで自分が想像していなかった選択肢が生まれたことにも面白さを感じて、まあこれも自分の中のひとつのチャレンジだと思って返事をしたという感じです。 HadoopもFluentdもよく分からんしSl
- kamipo
- treasuredata
- 転職
- treasure_data
- career
- Treasure Data
- bless
- work
- person
- エンジニア
そんなトランザクションマネージャで大丈夫か？
- 141 users
- www.slideshare.net/slideshow
- テクノロジー
- 2014/06/01
Hadoop/Spark を使うなら Bigtop を使い熟そう！～並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介～（Ope... Hadoop/Spark を使うなら Bigtop を使い熟そう！～並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介～（Open Source Conference 2021 Online/Fukuoka 発表資料） 2021年11月20日（土） NTTデータ技術革新統括本部システム技術本部菅野未来
注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース（BUSINESS INSIDER JAPAN） - Yahoo!ニュース
- 140 users
- headlines.yahoo.co.jp
- テクノロジー
- 2019/07/19
Coding Dojoはアメリカのユニコーン企業が使用しているプログラミング言語、フレームワーク、データベースのデータを求人情報から収集した。【全画像をみる】注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース対象となったユニコーンは、WeWork、Stripe、Airbnb、SpaceXなど。人気の言語はJavaScript、Java、そしてPython。KotlinやGoといった新しい言語も人気になりつつある。ウィーワーク（WeWork）、ストライプ（Stripe）、エアビーアンドビー（Airbnb）、スペースX（SpaceX）のような数十億ドル規模のスタートアップがどのような開発言語を使っているのかと疑問に思ったとしても、もう調べる必要はない。開発者をトレーニングし、就職をサポートする「Coding Dojo」は、求人サイト「Indeed」と開発
広告ログ解析基盤にFluentdを使っている話 - すずけんメモ
- 139 users
- suzuken.hatenablog.jp
- テクノロジー
- 2013/12/14
これはFluentd Advent Calendar 14日目の記事です。私は現在、VOYAGE GROUPの子会社であるadingoで、DMP cosmiの開発をしています。今日はcosmiでのfluentd利用の話をしようと思います。 DMPについて過去に勉強会でアドテクまわり及びDMPについて話したのでそれを貼っておきます。ざっというと、いい感じにいろんなログを受けいられるようにして、それらをモニタリングしながら整理して使えるようにする、という役割をもったプロダクトです。 Head First Ad Technology and DMP http://www.slideshare.net/suzuken/head-first-ad-technology-and-dmp どこで使っているかほぼ全てです。構成としてはログ収集サーバ | | out-forward (roundro
- fluentd
- aws
- adtech
- fluent
- DMP
- ad
- インフラ
- ログ
- サーバ
[セッションレポート]NetflixにおけるMicroservicesアーキテクチャ #reinvent | DevelopersIO
- 139 users
- dev.classmethod.jp
- テクノロジー
- 2014/11/14
この記事は AWS re:Invent 2014、PFC304-JT - Effective Interprocess Communications in the Cloud: The Pros and Cons of Micro Services Architectures - Japanese Trackのレポートです。スピーカーはNetflixのSudhir Tonse。レポートどうやってMicroservicesに変化していったのかを話したい。これまで何度か本番環境が停止し、そこからたくさんのことを学んだ。それを共有したい。 Netflixについて。映画のストリーミングサービス。 PCやPS4などで再生できる。ネットワークの1/3のトラフィックをNetflixが占めることがある。 20億以上のエッヂAPIリクエストがあって、500以上のMicroservicesが動いてい
- microservices
- netflix
- aws
- architecture
- reinvent
- API
- Amazon
- アーキテクト
- IT
- development
実践！「MapReduceでテキストマイニング」徹底解説
- 138 users
- atmarkit.itmedia.co.jp
- 暮らし
- 2011/07/20
「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場
ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
- 137 users
- ka-nipan.hatenablog.com
- テクノロジー
- 2015/12/06
はじめにこれはドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話です【その2】ドリコム Advent Calendar 2015 もあります自己紹介 @ka_nipan 去年のドリコムを支えるデータ分析基盤に引き続き、今年もドリコムのデータ分析基盤を担当しています。分析基盤をTreasure Dataに移行オンプレ環境の Hadoop からTreasure Data に移行しました。また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、徐々にオンプレ環境を離れつつあります。背景オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。さてどうしようかとなった時に、ほぼ迷いなく外部
- bigquery
- treasuredata
- Treasure Data
- redshift
- AWS
- adventcalendar
- あとで読む
- td
- ドリコム
- amazon
Treasure Dataのサービスはクラウド上でどう構築されているのか（前編）～July Tech Festa 2013
- 137 users
- www.publickey1.jp
- テクノロジー
- 2013/08/04
Treasure Dataのサービスはクラウド上でどう構築されているのか（前編）～July Tech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。注目されているクラウドサービスがどのような仕組みになっており、それはどのような考え方で作られているのか。クラウドでシステム構築を考えている多くのエンジニアの参考になるはずです。講演の内容をダイジェストで紹介します。 Treasure Dataのクラウド戦略 Treasure Data, Inc。シニアソフトウェアエンジニア中川真宏氏。スタートアップなこともあ
- treasuredata
- fluentd
- Treasure Data
- hadoop
- publickey
- クラウド
- サービス
- TD
- 事例
- cloud
Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
- 137 users
- www.intellilink.co.jp
- テクノロジー
- 2014/10/22
バッチを高速にした後はリアルタイムの世界へ！現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、直近10秒間のトラフィックを集計したい。直近10分間で自社商品がTwitterで話題になった回数を知りたい。直近10時間での全店舗での来客数を集計したい。といったリアルタイムなモニタリングを実現したくなるのではないだろうか？こういったモニタリング用の集計は、技術的には「ウインドウ集計（Time-Window Operation）」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac
- spark
- Apache Spark
- apache
- Scala
- ビッグデータ
- Streaming
- Hadoop
- あとで読む
カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 - Retty Tech Blog
- 137 users
- engineer.retty.me
- テクノロジー
- 2017/06/13
こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie（@chie8842）です。好きなたべものは焼肉とみかんです。現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。はじめに - カラムナフォーマットとはカラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで
- Parquet
- DWH
- database
- ORC
- データ
- 分析
- format
- Retty
- DB
- あとで読む
GitLab & web hooks & git-flowで実現する企業向けgit環境の構築
- 135 users
- www.slideshare.net/slideshow
- テクノロジー
- 2014/01/29
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
- gitlab
- git
- git-flow
- 運用
- SlideShare
- ソフトウェア開発
- development
- インフラ
- flow
- 開発
C#での、正しいマルチスレッドプログラムの書き方を求めて - 情報科学屋さんを目指す人のメモ
- 134 users
- did2.blog64.fc2.com
- 暮らし
- 2009/11/13
タグ Windows / インストール / Linux / 設定 / エラー / Java / Eclipse / AutoHotkey / TeX / C# / VisualStudio2008 / 対策 / Subversion / LaTeX / Vista / 方法 / CentOS / Android / Microsoft / Windows7 / Office / バージョン管理 / プログラミング / eclipse / PowerPoint / SSH / Ubuntu / WindowsVista / コマンド / ショートカット / .NET / Desire / VisualStudio / 便利 / P2P / Unix /
- C#
- マルチスレッド
- .NET
- プログラミング
- programming
- thread
- msdn
- スレッド
- まとめ
- tutorial
Jupyter Notebook を使ってみよう
- 133 users
- pythondatascience.plavox.info
- テクノロジー
- 2016/08/03
本ページでは、Jupyter Notebook の概要と基本的な使い方について紹介します。 Jupyter Notebook とは Jupyter Notebook (読み方は「ジュパイター・ノートブック」または「ジュピター・ノートブック」) とは、ノートブックと呼ばれる形式で作成したプログラムを実行し、実行結果を記録しながら、データの分析作業を進めるためのツールです。プログラムとその実行結果やその際のメモを簡単に作成、確認することができるため、自分自身の過去の作業内容の振り返りや、チームメンバーへ作業結果を共有する際に便利なほか、スクール形式での授業や研修などでの利用にも向いています。このようなノートブック形式で分析作業を行うためのツールとしては、微分積分などの科学技術系計算ソフトウェアの Mathematica (マセマティカ) や Spark, Hadoop などの並列分散処理シ
- Jupyter
- Python
- anaconda
- Jupyter Notebook
- ipython
- analysis
- あとで読む
- tutorial
UserAgent判定器 Project Woothee はじめました - たごもりすメモ
- 133 users
- tagomoris.hatenablog.com
- テクノロジー
- 2012/01/23
UserAgent判定ライブラリはCPANに数多くあるし他の言語でも似たようなものだと思うが、ライブラリや言語をまたがって一致した結果を返してくれるようなものは存在しない(と思う)。が、特にHadoopを使うようになってJavaの事情をある程度無視できなくなってくると、これがたいへん問題に思えてきた。Javaで書かれたUserAgent判定ロジックが欲しいが、普段書くコードはJavaではない*1ので、他の言語でも全く同じように判定してくれるライブラリが欲しい。結果が食い違っていたり、新しいUserAgentを判定したいときに片方だけ対応されて片方は置き去りになったりすると大変困る。ということで、作った。v0.1.0。現状ではJavaとPerlの実装がある*2。 https://github.com/tagomoris/woothee https://github.com/tagomori
- useragent
- perl
- java
- ライブラリ
- browser
- web
- ua
- livedoor
- Hive
- dev
グーグルキラーとなるか--オープンソースで分散型のグーグルクローンを作る:コラム - CNET Japan
- 132 users
- japan.cnet.com
- 暮らし
- 2007/05/28
情報開示：本記事の著者であるEmre Sokulluは、2007年3月に検索エバンジェリストとしてHakiaに加わっている。以下の記事はいかなる意味においてもHakiaの見解を代表するものではなく、Emreの個人的な意見である。 Googleは若いマンモスのようなものだ。すでに十分強いが、まだ成長の最中だ。四半期決算は良好で、オンライン広告スペースに対する評価が上がっていることは、GoogleがNASDAQでの勢いを維持する最大の要因になっている。しかし、ここで土俵の外側からGoogleキラーのシナリオを考えてみることにしよう。読者の方はわたしがオープンソースで頭がいっぱいだということをご存じかもしれないが（例えばopenhumanやsimplekdeなどのわたしのプロジェクトから）、これを反映して、わたしの提案はオープンソースに基づくものだ。これをGoogle@Homeと呼びたい。最初
- search
- google
- p2p
- opensource
- 検索
- オープンソース
- 検索エンジン
- OSS
- searchengine
- Web
データベース研究者から見た"ビッグデータ"の意義「HadoopもNoSQLも邪道だけど…」
- 132 users
- logmi.jp
- テクノロジー
- 2015/04/25
情報処理における全国のエキスパートが一堂に会したリクルート主催の「春の情報処理祭」。人々が日常的に大量のデータを生成・消費するに伴い、「ビッグデータ」の重要性が高まっていると語る、大阪大学准教授の原隆浩氏。「ビッグデータを制する者が世界を制する」とまで言われ、その研究に注目が集まるデータベース分野の歴史と可能性について解説します。（春の情報処理祭in京都より）高校生の頃まで、パソコンが苦手だった原隆浩氏：まず、今日データベース研究会のほうから代表ということで来ましたので、自己紹介を兼ねてお話したいと思います。私は今、大阪大学で准教授をしていまして、42歳になります。なので、大学を卒業してちょうど20年経っているぐらいです。研究の専門分野は、あんまりデータベースっぽくなくて、どちらかというとネットワークとデータベースの境界領域みたいなことをやって、アドホックとかセンサーネットワークにデ
- データベース
- ビッグデータ
- あとで読む
- database
- hadoop
- nosql
- パソコン
- DB
- 歴史
次世代ウェブカンファレンス #nextwebconf に参加できませんでしたのでお詫びします - kuenishi's blog
- 132 users
- kuenishi.hatenadiary.jp
- テクノロジー
- 2015/10/29
去る10月18日に行われた次世代ウェブカンファレンスは、わたしもサーバーアーキテクチャーというセッションにスピーカーとして呼ばれていた。わたしも話す気満々だったが、当日の朝になって次男が発熱してしまい家庭の予定を変更して妻は次男、わたしは長男を連れて彼の予定をこなすことにした。ので泣く泣く当日朝に参加を断った。当日は盛況だったようで何よりである。当日はスタッフが充実していて、ストリーミングや録画も行われた。わたしが出るはずだった server_arch セッションの動画も公開されている。ここでは、当日言おうと思っていたことと、この動画を見て言いたいことをここに書いて当日参加できなかった詫びとしたい。すまんかった。ウェブ is 何 / 次世代 is 何 CERN発祥のHTTP/HTMLで情報伝達する仕組み（昔WWWとか言われていたもの）が普及しきって、あらゆる情報がインターネットを介して
Tumblr Architecture - 15 Billion Page Views a Month and Harder to Scale than Twitter - High Scalability -
- 132 users
- highscalability.com
- テクノロジー
- 2012/02/14
« Sponsored Post: Percona Live, AiCache, Next Big Sound, ElasticHosts, Red 5 Studios, Logic Monitor, New Relic, AppDynamics, CloudSigma, ManageEngine, Site24x7 | Main | Stuff The Internet Says On Scalability For February 10, 2012 » With over 15 billion page views a month Tumblr has become an insanely popular blogging platform. Users may like Tumblr for its simplicity, its beauty, its strong focus
10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
- 132 users
- tjo.hatenablog.com
- テクノロジー
- 2023/08/26
このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事
うるう秒の挿入で複数のサイトに障害が発生
- 131 users
- japan.cnet.com
- テクノロジー
- 2012/07/02
インターネットに大混乱を引き起こすには、ほんの1秒あれば十分だ。グリニッジ標準時（GMT）7月1日午前0時、協定世界時にうるう秒が追加されたことで、複数の人気ウェブサイトやソフトウェアプラットフォームでサイトの混乱が発生したようだ。国際地球回転及び基準座標系事業（International Earth Rotation and Reference Systems Service）が行うこの時間調整は、原子時計をムラのある地球の自転速度と一致させるために必要だ。1972年に時間調整が導入されて以来、何度となくうるう秒が追加されてきた。うるう秒が引き起こした障害の影響を受けたサイトには、人気のリンク共有サイトRedditが含まれる。Redditは、Javaで構築されたオープンソースデータベース「Apache Cassandra」に問題が発生したのはうるう秒が原因、とTwitterで述べた
- うるう秒
- 障害
- Webサービス
- trouble
- 2012年
- Java
- 時計
- web
- Reddit
- ニュース
最近のストリーム処理事情振り返り
- 131 users
- www.slideshare.net/slideshow
- テクノロジー
- 2017/03/05
Hadoopソースコードリーディング第22回での発表資料です。 https://www.eventbrite.com/e/hadoop-22-tickets-31987821435 Read less
- stream
- ストリーム
- kafka
- あとで読む
- Apache Beam
- streaming
- Apache Spark
- slide
- distributed
- bigdata
勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
- 130 users
- shiumachi.hatenablog.com
- 暮らし
- 2010/09/15
id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの？　データ全部をなめてるの？ Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか？さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの？ jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。あとで調べときます。今の世の中に出てるHadoop本って構築とか運用の話
- hadoop
- mapreduce
- 勉強会
- プログラミング
- programming
- slide
- 資料
- presentation
- algorithm