並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 713件

新着順 人気順

hadoopの検索結果41 - 80 件 / 713件

  • 【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉

    こんにちはあんどう(@t_andou)です。 今回はKubernetesを使って並列処理させた記録です。 まだ「とりあえずそれっぽく動くまで試してみた」という段階で、kubernetesを理解できてはいないので自分用のメモを公開しているという認識でご覧ください。 間違っている部分や、よりスマートなやり方がありましたらご指摘いただけると幸いです。 この記事の概要 機械学習に使う特徴量の作成で1週間かかりそうな処理を10分くらいで終わらせられないかと考え、GKE(=GoogleのKubernetes環境)を使い試行錯誤した記録です。 今回は一部失敗して完了時間が1.5時間になったものの、設定を上手く出来れば15分程度で終わる見込みです。 対象読者 ・Kubernetesの概要は知っているくらいのレベルの人 ・KubernetesのJobを使った並列処理をしたい人 目次 この記事の概要 対象読者

      【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉
    • 苦手を捨てる決断により広がった世界 - 限られたリソースしか持たないエンジニアの戦い方 - Findy Engineer Lab

      サムネイルは筆者が住むイスラエルの写真。 はじめまして、Sukuda Peppei(@knqyf263) と申します。現在はイスラエルに住んでいて、セキュリティ企業でソフトウェアエンジニア(以下エンジニア)をしています。もともとコンテナイメージの既知の脆弱性を簡単に検知できるOSSを趣味で開発していたのですが、今の会社から買収の申し出を受けたため、そのまま自分も入社しフルタイムでOSSの開発を続けています。過去に個人ブログでも説明しているため、詳細が気になる方はご確認ください。 今回キャリアについて書く機会をいただいたのですが、あまり長期的な計画というのは持たずに生きてきたため、多くの人に参考になるようなキャリア設計はお伝えできそうにありません。一方で改めて振り返ると自分の中の判断軸には気が付いたので、そのことについてお話しさせていただきます。 現在は経歴や会社の肩書を取っ払っても「こうい

        苦手を捨てる決断により広がった世界 - 限られたリソースしか持たないエンジニアの戦い方 - Findy Engineer Lab
      • データサイエンティストに王道無し - 渋谷駅前で働くデータサイエンティストのブログ

        TL;DR(思ったよりもかなりの長文になってしまったので*1、時間がないという方は1番目と2番目のセクションの冒頭だけお読みください) しんゆうさんの舌鋒鋭いブログ&note記事にはいつも楽しませていただいているのですが、この記事は一点僕のデータ分析業界の認識に新たな視点を与える話題があって特に目を引きました。それが以下の箇所です。 資格があるわけでもないので名乗るのは自由だし、未経験だろうが文系だろうがそれはどうでもいいのだけど、傍から見ていると「サイエンティスト」と名乗っているわりには「サイエンス」な話をしていないなぁとは思っている。(中略) 現在起きている第3次データサイエンティストブームは「データサイエンティストと名乗りたい人」が盛り上げているように見える。 (太字筆者) この問題は、このブログの前々回の記事でも取り上げています。 ただ、僕はこういう「データサイエンティストになりた

          データサイエンティストに王道無し - 渋谷駅前で働くデータサイエンティストのブログ
        • Old Brains - kuenishi's blog

          そろそろ歳も40近くなり、老いについて考えることが増えてきた。たとえば10ヶ月も続く在宅勤務の中で少しでも運動をサボると左膝がすぐに痛みだしたり、うっかり水分を摂り忘れたりすると頭痛がきたりする。もちろん体重は史上ピークを記録し続けている。身体の老いについては、まあそういうものであるし、特に外見などに気を遣って生きてきたわけでもないからそんなには気にしていない。しかしながら、人間の人間たる由来はその精神や振る舞いにあると思っているから、そちらでの老いの方が問題だ。 前職までは大抵、わたし自身は年齢が1番か2番めくらいに若い職場で仕事をしていることがほとんどであった。ほとんど同年代か、10から20くらい上であることが多かったように思う。単に物理的な年齢もあるが、職業経験も私より長い人たちばかりであったので、教わることの方が多かったから、物事の考え方が揃っていたことが心地よかったということには

            Old Brains - kuenishi's blog
          • LINEの会計システムに関連する開発業務をしているチームを紹介します

            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEの会計システムに関連する開発業務をしているチームを紹介します。 財務情報室の室長である呉世鎮(オ・セジン)、 会計システム企画運営チームのマネージャー瀧澤智大、 精算プラットフォームチームのマネージャーである藤田摂に話を聞きました。 (左から)藤田さん、呉さん、瀧澤さん ―― 皆さんの自己紹介をお願いします 呉:2012年に入社したタイミングで日本に来ました。入社以来ずっと社内情報システムを担当としていて、企業に必要な情報管理とそのた

              LINEの会計システムに関連する開発業務をしているチームを紹介します
            • もう10年前…? SNSが大流行した2010年【特集・2010年代のはてなブログ】 - 週刊はてなブログ

              はてなブログは、2011年11月にベータ版をリリースし*1、2019年2月にはてなダイアリーと統合しました*2。現在では多くの方にご利用いただき、好きなものに対する熱い想いや、社会に対する意見、日常の記録など、たくさんの方の「人生の物語」が投稿され続けています。本企画では来たる2020年を前に、2010年代のはてなブログ・はてなダイアリーを1年ごとに振り返ります。 小惑星探査機はやぶさの帰還やバンクーバー五輪があった2010年。「〜〜なう」が新語・流行語大賞のトップテンに入るなど、ソーシャルネットワークサービスが多くの人に利用され始めた時期でした。 この年は、はてなブログがリリースされる前年。はてなブログの前身である「はてなダイアリー」に投稿された当時の記事は、そのほとんどがはてなブログに移行しています。 スタッフが選ぶ、注目エントリー 惜しくもランキングには入らなかったエントリーのうち、

                もう10年前…? SNSが大流行した2010年【特集・2010年代のはてなブログ】 - 週刊はてなブログ
              • 達人出版会

                探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 デザインディレクション・ブック 橋本 陽夫 現場のプロがやさしく書いたWebサイトの分析・改善の教科書【改訂3版 GA4対応】 小川 卓 解釈可能なAI Ajay Thampi(著), 松田晃一(翻訳) PowerPoint 目指せ達人 基本&活用術 Office 2021 & Microsoft 365対応 PowerPoint基本&活用術編集部 ランサムウェア対策 実践ガイド 田中啓介, 山重徹 TODによるサステナ

                  達人出版会
                • 本当にDropboxはオンプレ回帰なのだろうか? - 256bitの殺人メニュー

                  おはようございます。やっぱヒノキっぽいんだよなぁ、、、(花粉 ということで鼻ズルズルマンです。 Dropboxはオンプレ回帰した? 最近良く聞きます、Dropboxはオンプレ回帰した、クラウドはコストが高いから最近オンプレに戻る企業が増えている、とか。 一つ一つの記事やツイートをイチイチピックアップはしないですが、とにかくよく聞くわけです。 でも思うんですよね、「そんなわけないのでは?」だってよく考えてみてください、テックが強い組織であればあるほど適材適所でクラウドを使ったほうがいい所も見えてきます。 現代のアーキテクチャでクラウドがハマる部分が全くないシステムはありません。一時的なリソース確保と開放、管理のいらないインフラ、様々なサービス。これを利用しないなんてことあるのかな?ってことなわけです。無理にオンプレのみで頑張るのが論理的か?という話かもしれません Dropboxがオンプレに移

                    本当にDropboxはオンプレ回帰なのだろうか? - 256bitの殺人メニュー
                  • データエンジニアリングの基礎

                    データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.

                      データエンジニアリングの基礎
                    • 制度もシステムも「ソフト」だから改善できる。リクルートが推し進める個別最適と全体最適の組織づくり - はてなニュース

                      2021年に実施された7つの中核事業会社および機能会社の統合を経て、リクルートでは、組織やシステムの統合・再編が進んでいます。 当然ながら、組織やシステムは単に「くっつければいい」という単純なものではありません。アクションの解像度を一段上げると、それぞれに紐付く人材や制度をどうするか、過去との整合性をどのように担保するか、など乗り越えなければならない課題が数多く見えてきます。 以前掲載したこちらの記事では、総合後のデータ組織におけるアジリティの高さ、個別最適と全体最適のバランスを紹介しましたが、これらはどのようにして成り立っているのでしょうか。 今回は、統合の裏側で人材制度や基盤システムの調整を推進し、組織価値の向上に大きな貢献を果たした、データ推進室の​​阿部直之さん、竹迫良範さんが対談。リクルートの社内事例にとどまらず、組織論、システム論といったメタ領域まで話題が及ぶ内容となりました。

                        制度もシステムも「ソフト」だから改善できる。リクルートが推し進める個別最適と全体最適の組織づくり - はてなニュース
                      • Dockerって何? って聞かれたときの解説、の解説

                        TL;DR Dockerは仮想化であるコンテナの実装の一種 ただし、広義のDockerはOCI系コンテナの総称 アプリの配布と実行の仕組みと思えばOK コンテナによりIaCや一貫したデプロイ、H/Wの効率的な利用がしやすくなる ※ コメントでいくつか指摘があったので記事を更新しました。ご指摘ありがとうございました! はじめに おそらく過去幾度となく生み出されたであろうDocker解説記事となります。正確には解説動画の解説記事。 というのも、Dockerあるいはコンテナはもはや当たり前、と言えるほど普及してるようにもSNSやブログとかだけ見てると思えますが、実際には話題は知ってるけど良く分かってない/業務で今度使う事を検討したいけどつまり何なの? って人もまだまだ多いです。 なので私が 「Dockerって何?」 と聞かれたとき答えてる内容を動画にしてみました。技術的な詳細を解説というよりは

                          Dockerって何? って聞かれたときの解説、の解説
                        • 達人出版会

                          探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                            達人出版会
                          • プログラミング言語 Ruby30 周年記念イベント レポート

                            プログラミング言語 Ruby30 周年記念イベント 2023 年 2 月 25 日、Ruby 誕生 30 年を記念したイベントが開催されました。 2020 年から流行した新型コロナウィルス感染症の影響で、一時期のイベントはすべてオンラインでの開催が主流となっていました。 本イベントも当初はオンライン形式で予定されていましたが、当日は松江オープンソースラボをメイン会場としてオフラインとオンラインのハイブリッドで開催されました。 開催日 2023-02-25 (土) 13:40 - 17:30 開催場所 松江オープンソースラボ / YouTube 配信 主催 一般財団法人 Ruby アソシエーション / 一般社団法人 日本 Ruby の会 公式ページ プログラミング言語 Ruby30 周年記念イベント 進行 :前田修吾 公式ハッシュタグ #ruby30th 動画 アーカイブ動画 オープニング

                            • The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog

                              こんにちは、Wantedly の Infrastructure Team で Engineer をしている南(@south37)です。 今日は、WANTEDLY TECH BOOK 5 から「巨大企業による分散データベース技術の発展」という章を抜粋して Blog にします。 「WANTEDLY TECH BOOK 1-7を一挙大公開」でも書いた通り、Wantedly では WANTEDLY TECH BOOK のうち最新版を除いた電子版を無料で配布する事にしました。Wantedly Engineer Blogでも過去記事の内容を順次公開予定であり、この Blog もその一環となっています。 Wantedly における Go 導入にまつわる技術背景 | Wantedly Engineer Blog (本記事は Go Conference 2019 Autumn にて無料配布した冊子『WANT

                                The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog
                              • データプラットフォーム統合プロジェクトの紹介 - KADOKAWA Connected Engineering Blog

                                KADOKAWA Connected / ドワンゴの @saka1 です。 少し前までは株式会社ドワンゴのWebバックエンドエンジニア的な仕事をしていたのですが、最近は出向1してKADOKAWAグループのDXを推進する戦略子会社である株式会社KADOKAWA Connected(以下KDX)でデータ分析周りのお仕事をしています。この世界はジョブチェンジが激しいですね。 しばらく開発に関与していたドワンゴ・KADOKAWA向け新データプラットフォームの初期リリースに成功したので、この記事ではその話を書きます。KDXのデータエンジニアリングに関する取り組みのほんの一端ではあるのですが、なんとなく雰囲気が伝わればいいなと思っています。 この記事は全体概要編のようなものです。 移行プロジェクトとしての事例紹介を中心にして書きました。プロジェクトの置かれたコンテキストや、出てくる課題にどう判断をつけ

                                  データプラットフォーム統合プロジェクトの紹介 - KADOKAWA Connected Engineering Blog
                                • 【2024年】AWS全サービスまとめ | DevelopersIO

                                  こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                                    【2024年】AWS全サービスまとめ | DevelopersIO
                                  • 検索体験を向上する Query Understanding とは | Recruit Tech Blog

                                    検索体験を向上する Query Understanding とは 本記事は Recruit Engineers Advent Calendar 2019 – Adventar 25日目(最終日!)の記事です. はじめまして.リクルートテクノロジーズの河野 晋策です. 私は,Qassチームというリクルート横断の検索改善を行うチームにて検索改善を行っています. Qassチームは,検索基盤の運用や検索改善を行っているチームです. 詳しくは以下の記事をご覧ください. 「いい検索」を考える 検索組織の機械学習実行基盤 リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch+Hadoopベースの大規模検索基盤大解剖 Argoによる機械学習実行基盤の構築・運用からみえてきたこと (CNDT2019, OSDT2019) 本記事の想定読者:検索初学者の方

                                      検索体験を向上する Query Understanding とは | Recruit Tech Blog
                                    • GPTが自社の情報を正しく学習するためにはWebサイトをセマンティックなHTMLでマークアップした方がよい説 | DevelopersIO

                                      ChatGPTを試用している中で、質問に対する回答が誤っていることがあります。自社の情報をWebサイトで提供している企業として、どのようにすれば、GPTがより正確な自社の情報を学習するようになるのでしょうか。 ChatGPTに質問しつつ考えてみました。 はじめに ChatGPTについて、日々さまざまな応用が提案されています。 そのChatGPTを試用している中で、質問に対する回答が誤っていることがあります。自社の情報をWebサイトで提供している企業として、どのようにすれば、GPTがより正確な自社の情報を学習するようになるのでしょうか。 ChatGPTに質問しつつ考えてみました。 事前調査 まず、Generative Pre-trained Transformer 3 (GPT-3)について調べてみました。 WikipediaのGPT-3に関する項目では、GPT-3 の事前学習データについて

                                        GPTが自社の情報を正しく学習するためにはWebサイトをセマンティックなHTMLでマークアップした方がよい説 | DevelopersIO
                                      • 社会人のための量子コンピューター超入門 量子コンピューターのよくある誤解を正す編 - Qiita

                                        量子コンピューターはよく誤解される 最近(2020年2月)、ハイプカーブの絶頂期に入った量子コンピューターですが、良い記事や書籍が増えてきました。しかし、それでも初期のころは、誤解を招くような記事が散見されたことも事実です。現状でも完全に無くなったとは言い難いところです。 一時期のAIブームの時のAIに対する見え方に似ていて、もうすでにものすごいものが動いているように見えている印象があります。 期待値が上がってくるのは、自称量子コンピューターエンジニアとしては嬉しいことではありますが、一方で過度の期待を招くものでもあり、それはそれで危険でもあります。 現状を正しい理解しておくことはとても大切です。 ここでは、雑談レベルで話しているときに、よく聞かれる内容をダンプしておきたいと思います。 量子コンピューターは並列処理ができるので速いらしいじゃん! ⇨ 並列処理ではなく、計算のルールの違いを巧

                                          社会人のための量子コンピューター超入門 量子コンピューターのよくある誤解を正す編 - Qiita
                                        • クックパッドにおける推薦システムの取り組み

                                          2019年6月24日、Machine Learning Pitchが主催するイベント「Machine Learning Recommender Pitch #3」が開催されました。機械学習を業務に用いる中で培った知見や経験を共有することを目的に設立された本イベント。今回は「情報推薦」をテーマに、株式会社Gunosy、エムスリー株式会社、クックパッド株式会社の3社のエンジニアが、自社の取り組みにおける知見を語ります。プレゼンテーション「クックパッドにおける推薦システムの取り組み 」に登壇したのは、クックパッド株式会社の林田千瑛氏。講演資料はこちら クックパッドにおける推薦システムの取り組み 林田千瑛 氏(以下、林田):最後の登壇になりますが「クックパッドにおける推薦(と検索)についての取り組み」について、発表させていただきます。ちなみに、前の2人はごりごり数式を出してくれていたのです

                                            クックパッドにおける推薦システムの取り組み
                                          • 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog

                                            こんにちは。業務委託として SRE チームのお手伝いをしている @syucream です。 本記事では Repro にて開発した、 Go 製のカラムナフォーマットへのデータ変換ツール columnify について、開発背景や技術的な取り組みを紹介します。 なぜカラムナフォーマットか? ことのおこり 事業がスケールすると共に扱うログの量が増えることは、喜ばしい反面さまざまな悩みをもたらします。その中でも顕著なものの一つとしてコストの問題が挙げられます。 膨大なログデータはログに対するストレージ料金を増大させると共に、分析や可視化に際してクエリで求められるコンピュートのコストも無視できなくなっていきます。 近頃 Repro でもコンテナのログの管理においてこの問題が顕著になってきました。Repro のバックエンドシステムは ECS 上のコンテナで実現され、ログの閲覧・管理のため外部のログ収集サ

                                              軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog
                                            • Google Cloud Japan Customer Engineer Advent Calendar 2019

                                              https://medium.com/google-cloud-jp から派生したGoogle Cloud Japan の Customer Engineer (CE) が 書く Advent Calendar 2019 です。CE 達が是非紹介したい機能、いままで培ってきたノウハウ、知っておくと便利なTipsなどを公開予定です。 google-cloud-jp はGoogle Cloud Platform 製品などに関連するコミュニティが記載したテクニカル記事集です。掲載された意見はすべて著者個人のものであり、必ずしも Google のものを反映するものではありません。 12/1Kubernetes とGCPの世界をつなぐアクセス管理のはなし (Hiroki Tanaka)12/2Apache Hadoop のデータを BigQuery で分析するための移行手順 ( Keiji Yosh

                                                Google Cloud Japan Customer Engineer Advent Calendar 2019
                                              • LINE DEVELOPER DAY 2019 を開催しました

                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog Developer Relationsチームの三木です。 11月20日から21日にかけて、LINEのエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」を開催しました。社内外のエンジニアの皆様3,000名以上にご来場いただく大盛況なイベントとなりました。ご来場いただいた皆様、登壇いただいたゲストの皆様、運営に携わっていただいた皆様、誠にありがとうございました! 今年のLINE DEVELOPER DAYは、より深く幅広い分野に関連した内容を提供するために、二日間の構成としました。全部で68個のメイントーク、42個のショートトラック、9個のポスターセッション、6個のハンズオンセッション、19個のブー

                                                  LINE DEVELOPER DAY 2019 を開催しました
                                                • 達人出版会

                                                  探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                                    達人出版会
                                                  • データサイエンティストにおすすめの資格とは?将来、必要なスキルを知ろう|Udemy メディア

                                                    ビッグデータや機械学習を活用したビジネスの普及に伴い、大規模なデータを扱えるデータサイエンティストの需要が高まっています。データサイエンティストは、今後も需要が伸びていくと考えられている職種であり、スキルを修得すれば年収アップが期待できます。 ここではデータサイエンティストの仕事内容と求められるスキル、おすすめの資格について紹介します。 データサイエンティストの資格を知る前に:そもそもデータサイエンティストって何? データサイエンティストとは、大量のデータを収集・分析する人のことで、比較的新しい職業です。データの収集、管理、仮設検証、結果報告などを行い、情報をビジネスなどで役立てる「データ」として整えることが主な業務です。 最近では企業の「ビッグデータ」への関心も高く、データを専門的に扱うデータサイエンティストの需要も拡大しています。 データサイエンティストは、データの処理を専門に行う職業

                                                      データサイエンティストにおすすめの資格とは?将来、必要なスキルを知ろう|Udemy メディア
                                                    • AWS Config + Athena + QuickSightによる複数AWSアカウント横断でのセキュリティ状態の可視化 - メドピア開発者ブログ

                                                      CTO室SREの侘美です。最近は社内のセキュリティ対策関連を生業にしております。 今回は最近進めていた社内のAWSアカウントのセキュリティ可視化がある程度形になったので記事にしたいと思います。 課題:多数のAWSアカウントのセキュリティをチェックしたい サイバー攻撃が増加している昨今、AWSなどのPaaS環境においても構築時にセキュリティの観点で注意すべき点がいくつもあります。 例えば、不必要なサーバー/ポートがインターネットに公開されていないか、アカウントにMFAが設定されているか、等々実施しておきたいセキュリティ対策は多岐にわたります。 弊社では、AWSを用いてインフラを構築する際にセキュリティ上守るべきルール集を、インフラセキュリティポリシーというドキュメントを定義しています。 しかし、あくまでドキュメントベースなので、実際にこのドキュメントに書かれたルールに準拠した構成になっている

                                                        AWS Config + Athena + QuickSightによる複数AWSアカウント横断でのセキュリティ状態の可視化 - メドピア開発者ブログ
                                                      • 【SAP試験対策】IAMの勉強であやふやな理解だったポイントをしっかり整理する | DevelopersIO

                                                        AWS認定のSolution Architect Professional試験用に、AWS IAMに関連したキーポイントを断片的にまとめました。 「SAPの試験問題って、大学センター試験の国語に似てね?」 UdemyにあるAWS認定のSAP模擬試験を4本こなした結果、問題の傾向として気づいたことです。どう考えても絞りきれない選択肢が2つ3つあるんですよね〜。 私は受験教科の中で国語が一番苦手でだったので、塾の先生から「問題文に書いてあることに沿って、合っているものではなく、間違ってないものを選べ」と、しょっちゅう教えられていたことを思い出しました。SAPの試験でも同じように「問題の要件と関係ない用語が含まれている選択肢をまず消去し、選択肢が2つ残ってしまったら、問題文に書いてあることに沿った、間違っていない選択肢を選ぶ」ことが大事だなと感じています。 さて、「間違っていないかどうか」を判断

                                                          【SAP試験対策】IAMの勉強であやふやな理解だったポイントをしっかり整理する | DevelopersIO
                                                        • Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]

                                                          2021年2月20日紙版発売 2021年2月18日電子版発売 下田倫大,寳野雄太,饗庭秀一郎,吉田啓二 著 B5変形判/440ページ 定価3,740円(本体3,400円+税10%) ISBN 978-4-297-11948-5 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto この本の概要 AIやIoTが実用化フェーズに入りつつあるのみならず,デジタルトランスフォーメーション(DX)への注目の高まりによって,事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。 データ基盤を構築するにあたり,先行する事例から,Google Cloud(Google Cloud Platform, GCP)はデ

                                                            Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]
                                                          • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

                                                            本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                                                              S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
                                                            • スノーフレイク (SNOW) の技術的な企業分析

                                                              Snowflake(SNOW)は、2012年に設立されたクラウドベースのデータウェアハウス企業である。カリフォルニア州サンマテオに拠点を置く、同社は9月下旬にニューヨーク証券取引所に上場し、米国での株式公開で過去最大のソフトウェア企業となった。 当初、株式の価格は75ドルから85ドルの間と予想されていたが、同社は120ドルで上場し、取引初日には300ドルにまで急上昇した。これは別の記録を更新した。スノーフレークは、上場初日に株式価値が2倍になった史上最大の企業となり、時価総額は750億ドル近くに達した。 これまで多くの企業データはオンプレミスで保存されてきた。つまり、データは企業が管理する物理サーバーに保存されていた。OracleやIBMなどの現存企業が伝統的にこの領域を支配してきた。 しかし、Snowflakeは根本的に違う。Snowflakeは、データをオンプレミスに保存するのではなく

                                                                スノーフレイク (SNOW) の技術的な企業分析
                                                              • The Four Innovation Phases of Netflix’s Trillions Scale Real-time Data Infrastructure

                                                                My name is Zhenzhong Xu. I joined Netflix in 2015 as a founding engineer on the Real-time Data Infrastructure team and later led the Stream Processing Engines team. I developed an interest in real-time data in the early 2010s, and ever since believe there is much value yet to be uncovered. Netflix was a fantastic place to be surrounded by many amazing colleagues. I can’t be more proud of everyone

                                                                  The Four Innovation Phases of Netflix’s Trillions Scale Real-time Data Infrastructure
                                                                • Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services

                                                                  AWS News Blog Introducing Amazon Managed Workflows for Apache Airflow (MWAA) As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and data engineers use Apache Airflow, a platform created by the commun

                                                                    Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
                                                                  • [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO

                                                                    [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 Partition Projection(パーティション射影)は、テーブル定義で指定したパーティションキーのルールやフォーマットからパーティションを計算し、パーティションプルーニングを自動化します。パフォーマンスの向上やパーティション管理の自動化などインパクトがある新機能なので、実際の動作を確認しつつ、ユースケースについて解説します。 用語の補足:パーティションプルーニングとは、一定の期間(年、月、日)やキー情報に基づき、データを分割管理したデータをクエリする際に、範囲外のデータスキャンを避ける仕組みを表します。 Glueパーティションの課題 従来のGlueパーティションは、メタデータストアがパーティション情報を保持しているので、データストア(S

                                                                      [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO
                                                                    • 月間800億PVを支えるIaaS基盤の舞台裏(運用編)

                                                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、社内IaaS(Infrastructure as a Service)の構築・運用などを行っている奥野です。私たちのチームはヤフー内のIaaS基盤の開発及び運用を担当しています。 IaaSとはサーバーやストレージ、ネットワークといったインフラリソースを仮想的に定義し、ユーザーへ提供するサービスです。ヤフーのIaaS基盤は社内のユーザーやサービスに対して幅広く提供しており、ヤフーがエンドユーザーに対して公開している多くのサービス(Yahoo!ニュースや、ヤフオク!など)もこのIaaS基盤を利用しています。 本項では、「構築編」と「運用編」という前後編でこのヤフーのIaaS基盤についてご紹介します。 本記事では「運用編」と

                                                                        月間800億PVを支えるIaaS基盤の舞台裏(運用編)
                                                                      • AWSエンジニアから見たGCPサービス(DB/ストレージ編)

                                                                        こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。 前回の記事「元AWSエンジニアがGoogle Cloud Professional Cloud Architectを取得した話」を読んでいただいた方々、ありがとうございます。 こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。前回の記事「PostgreSQLのメモリアーキテクチャを知る」を読んでいただいた方々、ありがとうございます。先日、Google Cloud のProfessional Cloud Architect(以下PCA)を取得する機会があったので今回はその合格までの道のりについてお話しいたします。きっかけきっかけとなったのは、Google Cloudが主催している特別トレーニング「G.I.G.」に参加する機会が巡ってきたことです。GMOアドマーケティングに入社して約1年が経つと

                                                                          AWSエンジニアから見たGCPサービス(DB/ストレージ編)
                                                                        • AWSエンジニアから見たGCP(データ分析編)

                                                                          こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ

                                                                            AWSエンジニアから見たGCP(データ分析編)
                                                                          • エンジニアなら気の向くまま「縦へ深化、横へ探索」してみよう 自由に楽しみながらキャリアを作り上げるコツ

                                                                            技育祭は「技術者を育てる」ことを目的としたエンジニアを目指す学生のための日本最大のオンラインカンファレンスです。「技育祭2023【春】」に登壇したのは、株式会社CARTA HOLDINGS・CTOの鈴木健太氏。エンジニアが圧倒的に成長するためのコツを話しました。1回目は「好奇心」について。 CARTA HOLDINGS社・CTOの鈴木健太氏 鈴木健太氏:それでは「新卒入者から1500人規模のCTOに、エンジニアが圧倒的に成長する3つのコツ」というテーマで、これからの未来をつくる学生エンジニアのみなさんに向けて、CARTAのCTOの鈴木健太こと、すずけんが話をしようと思っています。よろしくお願いします。 簡単に自己紹介をしていきます。僕は2011年の頃、学生の時にスタートアップのCTOをしていたのですが、2012年にVOYAGE GROUP、今のCARTA HOLDINGSに入社して、それか

                                                                              エンジニアなら気の向くまま「縦へ深化、横へ探索」してみよう 自由に楽しみながらキャリアを作り上げるコツ
                                                                            • クラウドの会社に転職してからそろそろ1年経つ話 - nikuyoshiのブログ

                                                                              毎年恒例の1年の振り返り、どうも @nikuyoshi です。今年はAmazon Web Services Japan ( AWS ) に転職した話がメイントピックです。弱くてニューゲームしました。 去年までの記事は次のURLのとおりです。2018年は技術書典で初めて個人で本を出した話、2017年は子どもを授かってからITの力でいかに楽するかの話、2016年は脱臼手術と写真の話がメイントピックでした。 nikuyoshi.hatenablog.com nikuyoshi.hatenablog.com nikuyoshi.hatenablog.com AWSに転職しました 2019年1月1日付けで入社し、 ( 最初の出勤は1/4 ) ソリューションアーキテクト ( SA ) として現在活動しています。界隈の神様が同僚、上司だったりして、月並みな表現とはなりますが働いていて大変刺激を受ける職場

                                                                                クラウドの会社に転職してからそろそろ1年経つ話 - nikuyoshiのブログ
                                                                              • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                                                                                2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                                                                                  LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                                                                                • 重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ

                                                                                  こんにちは、昨年末に新しくノートPCを注文したら年明けに新モデルが発表されてしまったショックを未だ引きずっているエンジニアの回路(@qazx7412)です。 今回は昨年末に取り組んだAthenaを利用した集計バッチの高速化についての話をしようと思います。 あらすじ さて、私が普段関わっている配信システムには「売上集計」と呼ばれている夜間バッチがあります。 これがなにかといえば名前のとおり売上を集計する夜間バッチなのですが、配信システムにはユーザーが購入を行ったときに発行した購入キーとコンテンツIDおよびユーザーIDを紐付けて購入履歴として管理するテーブルがあり、ここから毎晩その日の購入の集計を行います。 実際のものとは異なりますがたとえばこんな感じです。 (purchase_records) key content_id user_id price unixtime - AAAAbbbb

                                                                                    重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ