並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 11443件

新着順 人気順

hadoopの検索結果321 - 360 件 / 11443件

  • ソリューションアーキテクトという仕事について - 工場長のブログ

    ex-mixi Advent Calander 2017の12/12分のポストです。みんなエモいことを書いているのでわたしもエモいことを書くことにします。 ちなみに今日はわたしの結婚記念日で、嫁とはmixiで出会いました(物理/社内)。 で、テーマはソリューションアーキテクト(以下、SAと略します)という仕事について。もっとみんなにSAって何なのかというのを知ってもらいたいなと思ってます。SAってめっちゃ面白いよ!ってのを叫びたいのです。なお、本ポストではわたしがAWSでSAをやっていたときの話をしますが、あくまで経験や「わたしはこうやっていた」という話であって、AWSを代表する見解ではないことをご理解ください。 mixiには2010/2から2012/7までの約2.5年在籍していて、ずっと広告関連のアプリケーション開発をやっていました。自分のなかではものすごく体感時間長かったんですが、振り

      ソリューションアーキテクトという仕事について - 工場長のブログ
    • 達人出版会

      探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

        達人出版会
      • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

        はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

          次世代データ基盤:データレイクハウスを Google Cloud で実現する
        • 富士通クラウドテクノロジーズ株式会社 aka ニフティ株式会社を退職します - PolyPeaceLight

          2017/06/28 14:00 追記 「富士通」が冠についたことは何一つ退職の原因ではありません(そうでなければ「面白い会社です!」とか書きません)。クラウドを作る側に回りたいヒト、クラウドをもっと便利に使うための機能を作りたいヒトは引き続きおすすめの会社の1つです 退職エントリを見るたびに「知らんがな」という思いと「全員に直接いうのも変だから便利そう」という思いの両方がありましたが、いざ、自分が退職することになると「全員と飲みましょう」とか無理だと気が付き「便利」となったので書くことにしました。 正確には「富士通クラウドテクノロジーズ株式会社」を退職するのですが、正直2ヶ月しか働いておらず「遅れたニフティ株式会社の卒業生」という気持ちしかないので以降「ニフティ」と記載します。 このエントリも消されるかもしれませんが、そのときは社会の闇だと思って下さい。 就職してからここまで 博士課程満

            富士通クラウドテクノロジーズ株式会社 aka ニフティ株式会社を退職します - PolyPeaceLight
          • インタビュー:Rubyコミッターの笹田氏がクックパッドへの入社を決めた理由。オープンソースのコミッタはどのような思いで転職するのか?

            インタビュー:Rubyコミッターの笹田氏がクックパッドへの入社を決めた理由。オープンソースのコミッタはどのような思いで転職するのか? Rubyのコアコミッターである笹田耕一氏が、レシピ共有サービスなどを展開しているクックパッドへ入社することは、1月21日付の記事「[速報]Rubyのコアコミッター笹田耕一氏、クックパッドへ」で紹介しました。 本記事ではあらためて、笹田氏がクックパッドへの入社を決めた理由や、クックパッドが笹田氏に声を掛けた背景、そして笹田氏にとっての転職の意味などについて、笹田耕一氏と、クックパッドの執行役CTO成田一生氏に聞きました。 クックパッドへの転職に大きな可能性を感じた ──── あらためてクックパッドが笹田さんに声をかけた背景を教えてください。 成田氏 クックパッドでは長年、Rubyを用いたサービス開発を行ってきました。 Rubyはシンプルな記述で高度な処理を表現

              インタビュー:Rubyコミッターの笹田氏がクックパッドへの入社を決めた理由。オープンソースのコミッタはどのような思いで転職するのか?
            • 第1回 RDBMSとNoSQLデータベース | gihyo.jp

              はじめに NoSQL(Not Only SQL)という言葉が注目を集めています。これは「RDBMSが得意なことはRDBMSで、不得意なところにはRDBMSにこだわらず、用途に合ったデータストアを使いましょう』という考え方です。最近では、いわゆるNoSQLデータベース (⁠key-valueストアや各種データベース⁠)⁠ が次々と登場してきています。 そこで今回から数回に渡り、それぞれのNoSQLデータベースの特徴や具体的な使い方について紹介していきます。 RDBMSの強みとは そもそも、MySQLやPostgreSQLなどのRDBMSの弱みを補うため、様々なNoSQLデータベースが登場してきたわけですが、RDBMSにはたくさんの強みがあることも忘れてはいけません。 RDBMSの強み データの一貫性 (⁠トランザクション) 更新時のコストが少ない(JOINが前提でテーブルが正規化されている)

                第1回 RDBMSとNoSQLデータベース | gihyo.jp
              • 明暗くっきり、オライリーと技術評論社

                オライリー本の値段は高いが、質も高い。 自分の専門分野のオライリー本は必ず一冊は持っているのが当たり前だった。「サイ本」とか本にニックネームが付けられてそれで通用するぐらいに、とにかくオライリーの本はwebエンジニアにとって特別な本であった。そして時代は変わる。 オライリー自体は変わっていないが、時代が変わってしまった。 日本語で出版されるオライリー本の価値がゆっくりと毀損する間に、技術評論社の書籍の評価はうなぎ上りだ。 うん、ここ最近ではHadoop本は秀逸だった。トレンド技術を捉えてうえで数年は価値が落ちない網羅っぷり。 まだ枯れきっていない分野で日本語オライリー本が存在感を示した最後の例になるかもしれない。 乱立するKVS分野において日本語オライリー本は無力極まりなしで目も当てられない。 cassandraがようやく出たがversion0.8だ。外人さんが書いた原本を数ヶ月から一年か

                  明暗くっきり、オライリーと技術評論社
                • 楽天テクノロジーカンファレンス 2008にいってきました - d.hatena.zeg.la

                  1000人以上のエンジニア、全国各地に開発拠点をもっている 楽天のテクノロジーカンファレンスにいってきました。 分散並列処理フレームワークfaily,P2PオンメモリストレージROMAが 2009年にOpenSource化されるとのことでした。 楽天ウェブサービス APIの紹介 16種類のAPI 直近だと楽天ランキングAPI 1500万件,2万件の宿泊施設 Affiriateと連動可能 REST,JSON,SOAPのフォーマットをサポート 楽天ダイナミックアド 楽天版アドセンス 記事の内容にマッチした楽天の商品を出す 楽天経済圏 APIを使ったアプリが入り込める マッシュアップブームおちちている ALL 35,000ID Active 5,000ID Webサービス経由の流通金額は7.24% 3,500万request/day ItemSearch,GenreSearch,Itemcode

                    楽天テクノロジーカンファレンス 2008にいってきました - d.hatena.zeg.la
                  • LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog

                    GW 中の長距離移動のために体調が優れない takahi-i です. 今回は巨大なデータをマイニングする一つの技術として LSH (Localtiy Sensitive Hashing) を紹介させていただきます. LSH とは LSH は大量なデータから類似度が高いインスタンスのペアを高速に抽出してくれるアルゴリズムです. ここでインスタンスはデータ集合の一つの要素を表します. たとえば扱うデータが E-コマースサイトの購買ログであれば, インスタンスは各ユーザですし, 画像データ集合であれば, インスタンスは個々の画像データです. LSH の詳しい解説については以下のサイトがあります. Wikipedia のエントリ LSH に関する論文がまとめられているページ 本稿ではE-コマースサイトの購買履歴データを基に LSH の機能について述べてゆきます. 以下のような E-コマースサイトの

                      LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog
                    • Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016

                      Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日本を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan(以下Yahoo!)です。 同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。 同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。 同社データインフラ本部 遠藤禎士(えんどうただし)氏

                        Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016
                      • ヤフーを変え始めたHadoop

                        ヤフーが日本独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日本国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

                          ヤフーを変え始めたHadoop
                        • Web Architecture 101

                          Modern web application architecture overviewThe above diagram is a fairly good representation of our architecture at Storyblocks. If you’re not an experienced web developer, you’ll likely find it complicated. The walk through below should make it more approachable before we dive into the details of each component. A user searches on Google for “Strong Beautiful Fog And Sunbeams In The Forest”. The

                            Web Architecture 101
                          • ストリームデータ分散処理基盤Storm

                            2012年12月10日 NTTデータ オープンソースDAY 2012 講演資料 『ストリームデータ分散処理基盤 Storm』 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 岩崎 正剛 http://oss.nttdata.co.jp/hadoop/

                              ストリームデータ分散処理基盤Storm
                            • DeNAの分析を支える分析基盤

                              Hadoop/Spark Conference Japan 2016でのライトニングトークの資料 by Ryosuke Iwanaga (@riywo) This document summarizes a microservices meetup hosted by @mosa_siru. Key points include: 1. @mosa_siru is an engineer at DeNA and CTO of Gunosy. 2. The meetup covered Gunosy's architecture with over 45 GitHub repositories, 30 stacks, 10 Go APIs, and 10 Python batch processes using AWS services like Kinesis, Lambda, SQS a

                                DeNAの分析を支える分析基盤
                              • Hadoopの異端さが面白い - wyukawa's diary

                                Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH(

                                  Hadoopの異端さが面白い - wyukawa's diary
                                • データベースは目的別に使い分けるべし

                                  元マイクロソフトのSQL Server開発チームの一員であり、その後マイクロソフトのデータセンターのアーキテクトとして活躍。昨年アマゾンに移籍して、現在はAmazon Web Servicesの上級エンジニアであるJames Hamilton氏が、自身のブログの「One Size Does Not Fit All」というエントリで、リレーショナルデータベースだけにとどまらない幅広いデータベースの種類を4つに分類して紹介しています。 4つの種類とは「機能優先」「スケーラビリティ優先」「シンプル」「目的別」です。 Hamilton氏は、アマゾンがAmazonクラウドでMySQLのサービスを開始したところ、以前から提供していたキーバリュー型データストアの「SimpleDB」は終了するのではないかと心配する声があったことを挙げ、 I can understand why some might co

                                    データベースは目的別に使い分けるべし
                                  • 電子書籍『実践 機械学習』の無料ダウンロードが可能に!

                                    機械学習の基礎について解説した電子書籍『実践 機械学習 ― レコメンデーションにおけるイノベーション』がHadoop情報サイト「Hadoop Times」から無料でダウンロードできます。 著者は『Mahoutイン・アクション』の著作でもお馴染みのTed DunningとEllen Friedman。Apache Mahoutプロジェクトでプロジェクトマネジメント委員やコミッタとして活躍しながら、MapR社でチーフアプリケーションアーキテクトやコンサルタントを務めている両氏が、機械学習の初学者のために書き下ろしたの一冊です。50ページほどの手軽なボリュームながら、レコメンデーションを洗練させるための重要なエッセンスが詰まっています。 機械学習とレコメンデーションについて学習したいけれど、どこから始めればよいか迷っているという方は、手始めに本書を読むところから始めてみてはいかがでしょうか。 H

                                      電子書籍『実践 機械学習』の無料ダウンロードが可能に!
                                    • MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入

                                      MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入 MariaDB ColumnStoreは、その名が示す通りMariaDBのストレージエンジンとして組み込めるカラム型のデータベースエンジンです。 一般のデータベースエンジンはデータを行単位で扱うのに対して、カラム型データベースエンジンは列単位で処理するのが最大の特徴です。 データを列単位で処理すると同一型のデータが並ぶためデータの圧縮効率が高く、また一般に列方向で行われる集計処理も高速に、しかも列ごとに分散して並列に行えるという利点があります。そのためにカラム型データベースエンジンは、大規模な分析や集計処理を得意とするデータベース製品で使われています。 MariaDB ColumnStoreはもともとオープンソースのデータウェアハウス向けデータベース「InfiniDB」をフォークした

                                        MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入
                                      • Treasure Dataに入社しました - かみぽわーる

                                        近況などをブログに書いたことはなかったんですが、4月からTreasure Dataで働くことになりました。 3月に新しい仕事を探してたタイミングでちょうど声をかけてもらって、他に誘ってくれてるところもあっていろいろ考えたんですけど、今まで自分がやってたWeb屋さんとは結構ちがう専門的なプロダクトが面白そうだったこと、話してみてエンジニアリング上の解決したい課題についてすごく具体的にいろいろ話してくれたので、畑違いな気もするけどやれることは結構ありそうだなとイメージできたので入社することにしました。 あとは声をかけてくれるのが2週間遅かったら他のところに決めちゃってたので、お互いのタイミングが合ってたことで自分が想像していなかった選択肢が生まれたことにも面白さを感じて、まあこれも自分の中のひとつのチャレンジだと思って返事をしたという感じです。 HadoopもFluentdもよく分からんしSl

                                          Treasure Dataに入社しました - かみぽわーる
                                        • そんなトランザクションマネージャで大丈夫か?

                                          Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope... Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~ (Open Source Conference 2021 Online/Fukuoka 発表資料) 2021年11月20日(土) NTTデータ 技術革新統括本部 システム技術本部 菅野 未来

                                            そんなトランザクションマネージャで大丈夫か?
                                          • 注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース(BUSINESS INSIDER JAPAN) - Yahoo!ニュース

                                            Coding Dojoはアメリカのユニコーン企業が使用しているプログラミング言語、フレームワーク、データベースのデータを求人情報から収集した。 【全画像をみる】注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース 対象となったユニコーンは、WeWork、Stripe、Airbnb、SpaceXなど。 人気の言語はJavaScript、Java、そしてPython。KotlinやGoといった新しい言語も人気になりつつある。 ウィーワーク(WeWork)、ストライプ(Stripe)、エアビーアンドビー(Airbnb)、スペースX(SpaceX)のような数十億ドル規模のスタートアップがどのような開発言語を使っているのかと疑問に思ったとしても、もう調べる必要はない。 開発者をトレーニングし、就職をサポートする「Coding Dojo」は、求人サイト「Indeed」と開発

                                              注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース(BUSINESS INSIDER JAPAN) - Yahoo!ニュース
                                            • 広告ログ解析基盤にFluentdを使っている話 - すずけんメモ

                                              これはFluentd Advent Calendar 14日目の記事です。 私は現在、VOYAGE GROUPの子会社であるadingoで、DMP cosmiの開発をしています。今日はcosmiでのfluentd利用の話をしようと思います。 DMPについて 過去に勉強会でアドテクまわり及びDMPについて話したのでそれを貼っておきます。ざっというと、いい感じにいろんなログを受けいられるようにして、それらをモニタリングしながら整理して使えるようにする、という役割をもったプロダクトです。 Head First Ad Technology and DMP http://www.slideshare.net/suzuken/head-first-ad-technology-and-dmp どこで使っているか ほぼ全てです。構成としては ログ収集サーバ | | out-forward (roundro

                                                広告ログ解析基盤にFluentdを使っている話 - すずけんメモ
                                              • [セッションレポート]NetflixにおけるMicroservicesアーキテクチャ #reinvent | DevelopersIO

                                                この記事は AWS re:Invent 2014、PFC304-JT - Effective Interprocess Communications in the Cloud: The Pros and Cons of Micro Services Architectures - Japanese Trackのレポートです。 スピーカーはNetflixのSudhir Tonse。 レポート どうやってMicroservicesに変化していったのかを話したい。 これまで何度か本番環境が停止し、そこからたくさんのことを学んだ。それを共有したい。 Netflixについて。映画のストリーミングサービス。 PCやPS4などで再生できる。 ネットワークの1/3のトラフィックをNetflixが占めることがある。 20億以上のエッヂAPIリクエストがあって、500以上のMicroservicesが動いてい

                                                  [セッションレポート]NetflixにおけるMicroservicesアーキテクチャ #reinvent | DevelopersIO
                                                • 実践! 「MapReduceでテキストマイニング」徹底解説

                                                  「青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

                                                    実践! 「MapReduceでテキストマイニング」徹底解説
                                                  • ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

                                                    はじめに これは ドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話 です 【その2】ドリコム Advent Calendar 2015 もあります 自己紹介 @ka_nipan 去年の ドリコムを支えるデータ分析基盤 に引き続き、今年もドリコムのデータ分析基盤を担当しています。 分析基盤をTreasure Dataに移行 オンプレ環境の Hadoop からTreasure Data に移行しました。 また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、 徐々にオンプレ環境を離れつつあります。 背景 オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。 さてどうしようかとなった時に、ほぼ迷いなく外部

                                                      ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
                                                    • Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~July Tech Festa 2013

                                                      Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~July Tech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。 注目されているクラウドサービスがどのような仕組みになっており、それはどのような考え方で作られているのか。クラウドでシステム構築を考えている多くのエンジニアの参考になるはずです。講演の内容をダイジェストで紹介します。 Treasure Dataのクラウド戦略 Treasure Data, Inc。シニアソフトウェアエンジニア 中川真宏氏。 スタートアップなこともあ

                                                        Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~July Tech Festa 2013
                                                      • Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

                                                        バッチを高速にした後はリアルタイムの世界へ! 現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、 直近10秒間のトラフィックを集計したい。 直近10分間で自社商品がTwitterで話題になった回数を知りたい。 直近10時間での全店舗での来客数を集計したい。 といったリアルタイムなモニタリングを実現したくなるのではないだろうか?こういったモニタリング用の集計は、技術的には「ウインドウ集計(Time-Window Operation)」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac

                                                          Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
                                                        • カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog

                                                          こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie(@chie8842)です。 好きなたべものは焼肉とみかんです。 現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。 今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。 はじめに - カラムナフォーマットとは カラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで

                                                            カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog
                                                          • GitLab & web hooks & git-flowで実現する企業向けgit環境の構築

                                                            HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...

                                                              GitLab & web hooks & git-flowで実現する企業向けgit環境の構築
                                                            • C#での、正しいマルチスレッドプログラムの書き方を求めて - 情報科学屋さんを目指す人のメモ

                                                              タグ Windows  /  インストール  /  Linux  /  設定  /  エラー  /  Java  /  Eclipse  /  AutoHotkey  /  TeX  /  C#  /  VisualStudio2008  /  対策  /  Subversion  /  LaTeX  /  Vista  /  方法  /  CentOS  /  Android  /  Microsoft  /  Windows7  /  Office  /  バージョン管理  /  プログラミング  /  eclipse  /  PowerPoint  /  SSH  /  Ubuntu  /  WindowsVista  /  コマンド  /  ショートカット  /  .NET  /  Desire  /  VisualStudio  /  便利  /  P2P  /  Unix  /

                                                              • Jupyter Notebook を使ってみよう

                                                                本ページでは、Jupyter Notebook の概要と基本的な使い方について紹介します。 Jupyter Notebook とは Jupyter Notebook (読み方は「ジュパイター・ノートブック」または「ジュピター・ノートブック」) とは、ノートブックと呼ばれる形式で作成したプログラムを実行し、実行結果を記録しながら、データの分析作業を進めるためのツールです。 プログラムとその実行結果やその際のメモを簡単に作成、確認することができるため、自分自身の過去の作業内容の振り返りや、チームメンバーへ作業結果を共有する際に便利なほか、スクール形式での授業や研修などでの利用にも向いています。 このようなノートブック形式で分析作業を行うためのツールとしては、微分積分などの科学技術系計算ソフトウェアの Mathematica (マセマティカ) や Spark, Hadoop などの並列分散処理シ

                                                                • UserAgent判定器 Project Woothee はじめました - たごもりすメモ

                                                                  UserAgent判定ライブラリはCPANに数多くあるし他の言語でも似たようなものだと思うが、ライブラリや言語をまたがって一致した結果を返してくれるようなものは存在しない(と思う)。が、特にHadoopを使うようになってJavaの事情をある程度無視できなくなってくると、これがたいへん問題に思えてきた。Javaで書かれたUserAgent判定ロジックが欲しいが、普段書くコードはJavaではない*1ので、他の言語でも全く同じように判定してくれるライブラリが欲しい。結果が食い違っていたり、新しいUserAgentを判定したいときに片方だけ対応されて片方は置き去りになったりすると大変困る。 ということで、作った。v0.1.0。現状ではJavaとPerlの実装がある*2。 https://github.com/tagomoris/woothee https://github.com/tagomori

                                                                    UserAgent判定器 Project Woothee はじめました - たごもりすメモ
                                                                  • グーグルキラーとなるか--オープンソースで分散型のグーグルクローンを作る:コラム - CNET Japan

                                                                    情報開示:本記事の著者であるEmre Sokulluは、2007年3月に検索エバンジェリストとしてHakiaに加わっている。以下の記事はいかなる意味においてもHakiaの見解を代表するものではなく、Emreの個人的な意見である。 Googleは若いマンモスのようなものだ。すでに十分強いが、まだ成長の最中だ。四半期決算は良好で、オンライン広告スペースに対する評価が上がっていることは、GoogleがNASDAQでの勢いを維持する最大の要因になっている。しかし、ここで土俵の外側からGoogleキラーのシナリオを考えてみることにしよう。読者の方はわたしがオープンソースで頭がいっぱいだということをご存じかもしれないが(例えばopenhumanやsimplekdeなどのわたしのプロジェクトから)、これを反映して、わたしの提案はオープンソースに基づくものだ。これをGoogle@Homeと呼びたい。 最初

                                                                      グーグルキラーとなるか--オープンソースで分散型のグーグルクローンを作る:コラム - CNET Japan
                                                                    • データベース研究者から見た"ビッグデータ"の意義 「HadoopもNoSQLも邪道だけど…」

                                                                      情報処理における全国のエキスパートが一堂に会したリクルート主催の「春の情報処理祭」。人々が日常的に大量のデータを生成・消費するに伴い、「ビッグデータ」の重要性が高まっていると語る、大阪大学准教授の原隆浩氏。「ビッグデータを制する者が世界を制する」とまで言われ、その研究に注目が集まるデータベース分野の歴史と可能性について解説します。(春の情報処理祭in京都より) 高校生の頃まで、パソコンが苦手だった 原隆浩氏:まず、今日データベース研究会のほうから代表ということで来ましたので、自己紹介を兼ねてお話したいと思います。私は今、大阪大学で准教授をしていまして、42歳になります。なので、大学を卒業してちょうど20年経っているぐらいです。 研究の専門分野は、あんまりデータベースっぽくなくて、どちらかというとネットワークとデータベースの境界領域みたいなことをやって、アドホックとかセンサーネットワークにデ

                                                                        データベース研究者から見た"ビッグデータ"の意義 「HadoopもNoSQLも邪道だけど…」
                                                                      • 次世代ウェブカンファレンス #nextwebconf に参加できませんでしたのでお詫びします - kuenishi's blog

                                                                        去る10月18日に行われた次世代ウェブカンファレンスは、わたしもサーバーアーキテクチャーというセッションにスピーカーとして呼ばれていた。わたしも話す気満々だったが、当日の朝になって次男が発熱してしまい家庭の予定を変更して妻は次男、わたしは長男を連れて彼の予定をこなすことにした。ので泣く泣く当日朝に参加を断った。当日は盛況だったようで何よりである。 当日はスタッフが充実していて、ストリーミングや録画も行われた。わたしが出るはずだった server_arch セッションの動画も公開されている。ここでは、当日言おうと思っていたことと、この動画を見て言いたいことをここに書いて当日参加できなかった詫びとしたい。すまんかった。 ウェブ is 何 / 次世代 is 何 CERN発祥のHTTP/HTMLで情報伝達する仕組み(昔WWWとか言われていたもの)が普及しきって、あらゆる情報がインターネットを介して

                                                                          次世代ウェブカンファレンス #nextwebconf に参加できませんでしたのでお詫びします - kuenishi's blog
                                                                        • Tumblr Architecture - 15 Billion Page Views a Month and Harder to Scale than Twitter - High Scalability -

                                                                          « Sponsored Post: Percona Live, AiCache, Next Big Sound, ElasticHosts, Red 5 Studios, Logic Monitor, New Relic, AppDynamics, CloudSigma, ManageEngine, Site24x7 | Main | Stuff The Internet Says On Scalability For February 10, 2012 » With over 15 billion page views a month Tumblr has become an insanely popular blogging platform. Users may like Tumblr for its simplicity, its beauty, its strong focus

                                                                          • 10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                            このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。 実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。 しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事

                                                                              10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                            • うるう秒の挿入で複数のサイトに障害が発生

                                                                              インターネットに大混乱を引き起こすには、ほんの1秒あれば十分だ。 グリニッジ標準時(GMT)7月1日午前0時、協定世界時にうるう秒が追加されたことで、複数の人気ウェブサイトやソフトウェアプラットフォームでサイトの混乱が発生したようだ。 国際地球回転及び基準座標系事業(International Earth Rotation and Reference Systems Service)が行うこの時間調整は、原子時計をムラのある地球の自転速度と一致させるために必要だ。1972年に時間調整が導入されて以来、何度となくうるう秒が追加されてきた。 うるう秒が引き起こした障害の影響を受けたサイトには、人気のリンク共有サイトRedditが含まれる。Redditは、Javaで構築されたオープンソースデータベース「Apache Cassandra」に問題が発生したのはうるう秒が原因、とTwitterで述べた

                                                                                うるう秒の挿入で複数のサイトに障害が発生
                                                                              • 最近のストリーム処理事情振り返り

                                                                                Hadoopソースコードリーディング 第22回 での発表資料です。 https://www.eventbrite.com/e/hadoop-22-tickets-31987821435 Read less

                                                                                  最近のストリーム処理事情振り返り
                                                                                • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

                                                                                  id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoop本って構築とか運用の話

                                                                                    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮