並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 38 件 / 38件

新着順 人気順

hadoopの検索結果1 - 38 件 / 38件

  • データベースを遅くするための8つの方法

    はじめに Twitterのタイムラインを見ていたらバッチ系のプログラムで逐次コミットをやめて一括コミットにしたら爆速になったというのを見ました。当たり前でしょ、と思ったけど確かに知らなければ分からないよね、と思って主に初心者向けにRDBを扱うときの注意点をまとめてみました。 プログラミングテクニック的なところからテーブル設計くらいの範疇でDBチューニングとかは入ってないです。 自分の経験的にOracleをベースに書いていますが、他のRDBでも特に変わらないレベルの粒度だと思います。 大量の逐次コミットをする バッチアプリケーションでDBにデータをインサートすると言うのはかなり一般的な処理です。しかしデータ量が少ない時はともかく大量のインサートを逐次コミットで処理するとめちゃくちゃ遅くなります。数倍から十数倍遅くなることもあるので、10分程度のバッチが1時間越えに化けることもザラにあるので原

      データベースを遅くするための8つの方法
    • Log4jの深刻な脆弱性CVE-2021-44228についてまとめてみた - piyolog

      2021年12月10日、Javaベースのログ出力ライブラリ「Apache Log4j」の2.x系バージョン(以降はLog4j2と記載)で確認された深刻な脆弱性を修正したバージョンが公開されました。セキュリティ関係組織では過去話題になったHeartbleedやShellshockと同レベルの脆弱性とも評価しています。ここでは関連する情報をまとめます。 1.何が起きたの? Javaベースのログ出力ライブラリLog4j2で深刻な脆弱性(CVE-2021-44228)を修正したバージョンが公開された。その後も修正が不完全であったことなどを理由に2件の脆弱性が修正された。 広く利用されているライブラリであるため影響を受ける対象が多く存在するとみられ、攻撃が容易であることから2014年のHeartbleed、Shellshock以来の危険性があるとみる向きもあり、The Apache Software

        Log4jの深刻な脆弱性CVE-2021-44228についてまとめてみた - piyolog
      • 【2020年】AWS全サービスまとめ | DevelopersIO

        このエントリは、2018年、2019年に公開したAWS全サービスまとめの2020年版です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。 こんにちは。サービスグループの武田です。 このエントリは、2018年、2019年に公開した AWS全サービスまとめの2020年版 です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。どちらがいいのか正直わからないので、フィードバックなどあれば参考にさせていただきます。 2020-01-08 リクエストがあったためAmazon Mechanical Turkを追加。 2018年まとめ 【2018年】AWS全サービスまとめ その1(コンピューティング、ストレージ、データベー

          【2020年】AWS全サービスまとめ | DevelopersIO
        • 日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり

          大学時代に日本屈指の技術系スタートアップCTOを経験。25歳で日本から飛び出して、シリコンバレーで起業した ――まず太田さんがシリコンバレーで起業するまでの経緯を聞かせてください。 高校生の時に初めて携帯電話を買ってもらいました。その携帯がiアプリといって、Javaのプログラムが動作する端末でした。そこで近くの書店でプログラミングの本を買って、簡単なシューティングゲームを作りました。 すると、それが40万件以上ダウンロードされたんです。塾の帰りなど、隣にいる人が自分の作ったゲームをプレイしているのを見て驚きました。それが最初のコンピュータ、インターネットの原体験で、そこからプログラミングにのめり込んでいきました。 太田 一樹(Treasure Data 共同創業者 取締役) 1985年生まれ。東京大学大学院情報理工学研究科修士課程修了。学部課程在学中の2006年、自然言語処理と検索エンジン

            日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり
          • DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)

            はじめにこの記事は、Engineering Manager Advent Calendar 2020の24日目の記事す。 職種を越えた働き方を模索するWeb Engineerのtrebyさんと、技術を突き詰めたいiOS Developerのbanjunさんの二人のパーソナリティをつとめるpodcast「きのこるエフエム」でお話してきた今話題のキーワードDXについてのお話を再編して記事にしたものです。 実際のpodcastについては以下からどうぞ。 いつの間にか"DX"がデジタルトランスフォーメーションにとられてた。trebyさん(以下敬称略) これは、我々のマイブームというか、最近、「DXっていいよね?」っていうふうに私が謎掛けをしますと、banjunさんが、「DX、わからん!」というふうに返すんです。 banjunさん(以下敬称略) 「DXって何ですか?何がいいんですか?」っていう話です

              DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)
            • データサイエンス教育用の講義資料1000ページ、教員向けに無償公開 NVIDIAと滋賀大が連携

              NVIDIAと滋賀大学は9月8日、データサイエンス教育用の講義資料「DLI データサイエンス教育キット」の日本語版の無償提供を始めた。同資料はNVIDIAのデジタルスキル育成プログラム「Deep Learning Institute」(DLI)の講義資料で、滋賀大学が日本語に翻訳したもの。教育機関の教員向けに提供する。利用にはNVIDIAの開発者アカウントが必要。 講義資料では「データサイエンスとRAPIDSの入門」「データ収集と前処理(ETL)」「データセットにおけるデータ倫理とバイアス」「データ統合と分析」「データビジュアライゼーション」「Hadoop、Hive、SparkとHBaseによるスケールと分散コンピューティング」「機械学習(分類)」「機械学習(クラスタリング、次元削減)」「ニューラルネットワーク」などの分野を取り上げる。 資料の元になった「DLI データサイエンス教育キット

                データサイエンス教育用の講義資料1000ページ、教員向けに無償公開 NVIDIAと滋賀大が連携
              • 初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog

                背景 お題 技術の差別化 差別化から分かること 情報資産からToBeを考える 俯瞰的・相対的な技術選定 これまでの話から学んだこと 最後に はじめまして、MonotaROでデータエンジニアをやっています、芝本です。 エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。 私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。 技術を使うためには、技術を学ばなければいけません。 プライベートにおいては、好奇心に従って自由に学びますよね。 とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。 というようにプライベートでは主に次のような選択肢があると思います。 書籍を読んで好きなものを選ぶ 実際に手を動かしてみて好きなものを選ぶ 人に教えてもらって好きなものを選ぶ 基本的にプライベートの場合は何

                  初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
                • バッチ処理について考える - Qiita

                  TL;DR ひとくちにバッチといっても色々ある 夜間バッチをもう作るな オンラインバッチはSQL以前にDB設計がんばれ はじめに Twitterのタイムラインで以下のようなツイートが回ってきました。 バッチ処理をみんな舐めてかかったり、ショボイとか思ってる人多い印象なんだけれども、数十万~数千万件規模のデータを処理したことあるのかな。テンプレ通りのコードじゃ動かないよ?ネットに本にも答え載ってないよ?低レイヤも意識しないと動かないよ? 2020年1月10日 ツイートされたわだっしーさんの意図がどこにあるかは確認してないですが、極限の世界でテンプレート的な処理では対応出来ないのはあるよな、と思いつつもある程度はバッチの作法としての書き方があると思っています。 このツイートとその関連ツイートを読みながら、そういえばバッチ処理に関して書いてある記事はあまり見ないなぁ、とおもったので他のネットや本

                    バッチ処理について考える - Qiita
                  • AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ

                    エージェンシー事業でリードアプリケーションエンジニアを行なっている大窄 直樹 (おおさこ)です. AWSのログ, サーバーのログってたくさん種類があって難しいですよね... 同じようなログがたくさんあるので, 何を取れば良いのかとか どのくらいの期間保持すれば良いのかとか またその後の, ログの実装や, 分析方法する方法も難しいですよね... 今回AWSに構築した商用アプリケーションのログを整備する機会があったので, このことについて書こうかなと思います. 概要 本題に入る前の準備 今回ログ実装するアーキテクチャ ログに関する法令 ログの取得箇所 設計 保管するログの決定 インフラのログ OSのログ アプリケーションのログ ログの保管 保管場所について 保管期間について バケット構造 アプリケーション, OSのログの転送 実装 アプリケーション, OSのログをfluentbitを用いてS3

                      AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ
                    • エンジニアの勉強と技術力と育児 | 外道父の匠

                      仕事力と技術力と不安に関する雑文 | YuheiNakasaka’s Diary を読んで、自分も勉強とは技術力とはなんぞやと考えてみたくなったのでポエムです。 詰まるところ人それぞれではあるものの、考えることは少なからず良い方向に向かう、そう願いたいものです。 勉強とは 世の中にある意見として、エンジニアは生涯勉強だとか、強々エンジニアになるための勉強だとか、色んなモノを見かけます。そういう勉強に対する意見ってたいていネガティブな印象の内容が多く、なんだか迷走しているなぁという感想を持つことが多いです。 良い子ちゃん視点では、学ぶこと、その全てには意義がある、と言いたいところですが、こと仕事においては無駄な学びもあるし、将来無駄になる学びもあります。また、自発的かどうかでその効果は天地の差があるので、他人に向かってこれくらいやるべきとか言うことの意味は薄く、突き詰めると自己責任の範囲の話

                        エンジニアの勉強と技術力と育児 | 外道父の匠
                      • Twitter での 2年 · eed3si9n

                        2022-11-20 僕は Twitter社の Build/Bazel Migration チームでスタッフ・エンジニアとして勤務していた。信じられないような 2年の後、2022年11月17日をもって退職した (企業買収後のレイオフでも任意でもあんまり関係無いが、僕は任意退職希望のオファーを取った)。Twitter社は、切磋琢磨、多様性、そして Flock を構成する全ての人に対して溢れ出る優しさというかなり特別な文化を持った職場だった。これを間近で経験して、その一員となる機会を得たことに感謝している。(Flock は「鳥の群れ」の意で、社内での Twitter社の通称) 以下は過去2年の簡単な振り返りだ。尚本稿での情報は、既に公開されているトークやデータに基づいている。買収後、うちのチームだけでも 10名以上のメンバーが Twitter社を抜けたので、在籍・元含め LinkedIn プロ

                        • 【2021年】AWS全サービスまとめ | DevelopersIO

                          こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2021年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2021年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2020年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 205個 です。 まとめるにあ

                            【2021年】AWS全サービスまとめ | DevelopersIO
                          • SoundCloudに転職した

                            2019年12月17日Cookpad(イギリス支社)を6月に退職し、7月からベルリンに移りSoundCloudで働いている。 日本を離れてから3年が経つ。何かしらの形で情報発信しないと日本での人間関係が文字通りゼロになってしまいそうなので近況を綴ることにした。ついでに、誰かの参考になれば尚嬉しい。 誰?2014年にCookpad入社。直後からiOS Tech Leadとして海外事業の立ち上げに従事し、2017年からは海外事業の拠点であるイギリスに出向。2019年7月にドイツに移りSoundCloud入社、現在に至る。『Swift実践入門』の著者の一人。 前職のことについてあまり言及しないが、端的に言うと素晴らしい職場だった。優秀なメンバーと刺激的なプロジェクトから多くを学んだ。こうして新しい挑戦ができるのも前職で成長する機会に恵まれたからに他ならない。日本・海外共に積極採用しているはずなの

                            • Goで解放したメモリが少しずつ戻ってくる現象 - knqyf263's blog

                              情報を発信する人のところに情報が集まることを日々実感しているので、Linuxのメモリ管理に特に詳しいわけではないのですが最近遭遇した問題について自分の理解を書いておきます。ざっと調べても同じことを書いている人を見つけられなかったので、公開には意義があると考えています。識者の方がフィードバックをくださると嬉しいです。 ※ AIの出力をベースに書いているのでいつもと少し文体が違います。 背景 要約 調査 再現の難しさ Goアプリケーションの調査 pprofによる分析 GCログの調査 Linuxの調査 Goランタイムの調査 GoのGCとTHP khugepagedの問題 Goランタイムにおける回避策 回避策の削除 max_ptes_noneのデフォルト値について MADV_NOHUGEPAGEをやめた理由 調査内容まとめ 解決策 検証 C言語 Go言語 まとめ 背景 Go言語で書かれたOSSのア

                                Goで解放したメモリが少しずつ戻ってくる現象 - knqyf263's blog
                              • Treasure Data を退職しました - k0kubun's blog

                                約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。 仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィー やっていたこと APIチーム 元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実

                                  Treasure Data を退職しました - k0kubun's blog
                                • プログラミング文体練習

                                  レーモン・クノーの『文体練習』から着想を得て執筆された本書は、1つの課題を異なるプログラミングスタイルで実装し、さまざまなスタイルの特性やスタイルが生まれた歴史的経緯などを解説します。本家の『文体練習』は、「バスの中で起きた諍いと、その張本人を後で目撃した」という内容を、公的文書風、宣伝風、業界用語風など、99の異なる文体で表現したものですが、本書は、「単語の出現頻度をカウントして多いものから出力する」という課題を、40のスタイルで実装しています。リソース制約が大きかった時代の方法から、オブジェクト指向、純粋関数型、リフレクション、並行処理、ニューラルネットワークまで幅広いスタイルを扱い、マルチパラダイム言語Pythonの威力と魅力を感じられる構成となっています。 訳者まえがき 第2版 まえがき 第1版 まえがき 序章 第Ⅰ部 歴史的スタイル 1章 古き良き時代:アセンブリ言語 2章 Fo

                                    プログラミング文体練習
                                  • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

                                    (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

                                      データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
                                    • リモートでアメリカの大学院に通い始めた - k0kubun's blog

                                      今年春に出願、夏に合格して秋学期からオンラインのコンピュータサイエンス修士コースで勉強している。ちょうど秋学期が終わって成績が返ってきたので、どういう感じだったか書いておく。 I've been officially admitted to Georgia Tech's OMSCS (Online Master of Computer Science). I'm excited for being a student again. I chose the online course to take it without quitting my job, but due to COVID-19 it's probably not that different from other people's experience.— k0kubun (@k0kubun) July 31, 2020 ど

                                        リモートでアメリカの大学院に通い始めた - k0kubun's blog
                                      • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

                                        基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

                                          分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
                                        • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

                                          新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

                                            新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
                                          • NATゲートウェイの通信内容を調査して対策し、コストを約60%削減した話 - ZOZO TECH BLOG

                                            はじめに こんにちは。WEARバックエンド部SREブロックの春日です。普段はWEARというサービスのSREとして開発・運用に携わっています。本記事では、約60%のコスト削減に成功したNATゲートウェイの通信内容の調査方法と通信量の削減方法についてご紹介します。 目次 はじめに 目次 背景 コストの把握 NATゲートウェイの通信内容の把握 CloudWatchメトリクスでの確認 VPCフローログでの確認 リゾルバーでのクエリログでの確認 調査結果をもとにNATゲートウェイ経由での通信量を削減する AWSサービスとの通信 Datadogとの通信 WEARのAPIとの通信 ECRパブリックリポジトリとの通信 結果 まとめ 背景 ZOZOではより効果的な成長を目指してコストの最適化を進めています。コストの増大はサービスの拡大を鈍化させる原因となるため、常に最適な状態に保つことが必要です。WEARで

                                              NATゲートウェイの通信内容を調査して対策し、コストを約60%削減した話 - ZOZO TECH BLOG
                                            • AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方

                                              リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活

                                                AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方
                                              • 【2022年】AWS全サービスまとめ | DevelopersIO

                                                こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個 です。 まとめるにあ

                                                  【2022年】AWS全サービスまとめ | DevelopersIO
                                                • スタートアップである弊社が全員ほぼ未経験でRuby on RailsをScalaに移行した理由、その効果と苦労点 - Qiita

                                                  スタートアップである弊社が全員ほぼ未経験でRuby on RailsをScalaに移行した理由、その効果と苦労点RubyRailsScalaポエムスタートアップ この記事を書くに至った経緯 僕が代表をしている株式会社KOSKAでは製造業の原価管理をIoTで自動化するGenkanというサービスを提供しております。 そんな弊社では半年前、バックエンドをRuby on RailsからScalaに移行したのですが、その効果が思ったよりだいぶ大きく、いずれこの効果を共有したいなーと思っていました。 弊社ではスタートアップで全員ほぼ未経験状態のScalaを採用するという挑戦をした結果、「Scalaを書きたい」というレベルの高い人材をかなりの確率で捕まえられるようになり、開発がものすごい加速した上に堅牢になったのでそのうちスタートアップでScalaを採用するメリットを記事にする予定。 https://t

                                                    スタートアップである弊社が全員ほぼ未経験でRuby on RailsをScalaに移行した理由、その効果と苦労点 - Qiita
                                                  • 自由と統制のバランスを追求し、アジリティの高いデータ組織を目指すリクルートの組織作りとは? - はてなニュース

                                                    さまざまな事業領域にわたってサービスを展開する株式会社リクルートでは、7つの中核事業会社および機能会社を2021年4月に吸収合併し、組織全体を統合しました。今回ご紹介するデータ推進室は、統合に先んじて1年前の2020年4月に各事業会社のデータエンジニアが集まる形で組閣されました。 ▶ Recruit Data Blog | リクルートデータ組織のブログはじめました 事業領域が異なれば商慣習が異なり、それに合わせてデータの特性も大きく異なる中、統合から約2年がたち、どのような変化があり、どのように組織運営されているのでしょうか。データ推進室でユニット長あるいは部長としてチームをまとめる、阿部直之さん、田中孝昌さん、李石映雪さんの3人に話を伺いました。 ※この記事は株式会社リクルートによるSponsoredContentです。 ベストプラクティスが自発的に横展開される生態系的な進化 組織統合だ

                                                      自由と統制のバランスを追求し、アジリティの高いデータ組織を目指すリクルートの組織作りとは? - はてなニュース
                                                    • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

                                                      ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

                                                        【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
                                                      • ゆるふわMLOps入門 - Re:ゼロから始めるML生活

                                                        MLOpsに関してちゃんと勉強中でして、色々事例とか調べてました。 とは言うものの、現在ではMLOpsを様々な観点から語られて、MLOpsという言葉にいろんな意味が含まれています。 という事情から色々探していたら、こちらをお見かけしました。 medium.com 書籍へのリンクはこちらです。 n月刊ラムダノート Vol.1, No.1(2019)(紙書籍+PDF版) – 技術書出版と販売のラムダノート こちらの書籍では基本的な背景からきれいに整理されていました。 こちらを参考にしつつ、頑張ってMLOpsの動向について整理してみたので、そのメモです。 それでは張り切って書いていきます。 tl;dr; 背景・問題設定 機械学習は学習のアルゴリズムよりその周辺のほうが大きい 機械学習システムに携わる人の役割の違いによってうまくいかないことがある 機械学習システムの構築・運用する上で課題も多い 問

                                                          ゆるふわMLOps入門 - Re:ゼロから始めるML生活
                                                        • どうして Julia を作ったか

                                                          プログラミング言語「Julia」開発者さんの文章がとても好きなので、雰囲気重視で訳しました。結構意訳です。原典:https://julialang.org/blog/2012/02/why-we-created-julia/ =================================================「どうして Julia を作ったか」 それは、僕らが欲張りだからだ。 Matlab はめっちゃ使う。僕らの中にはLispの天才もいるし、PythonやRuby のすげー奴、Perl を巧みに使いこなす奴もいる。毛も生えない子供の頃からMathematica で遊んだ奴もいる。いまだにツルツルな奴だって仲間だ。Rではアホみたいにたくさんグラフを書いた。C言語からは、いつだって冒険の匂いがする。 ぜんぶ、大好きだ。面白いし、いろいろなことができる。何かをしたいと思った時--科

                                                          • 老兵のようなRDBMSからの解放を AWSが手がけるデータストアの再発明

                                                            オンラインで開催されているAWS最大のグローバルカンファレンス「AWS re:Invent 2020」。12月2日に行なわれたAWS CEOのアンディ・ジャシー氏の基調講演では、データストア分野にもフォーカス。ストレージとデータベースの新サービスは、コスト削減と高い性能を求める顧客の声に応えた正常進化と言えそうだ。 もはや古いデータストアでは対応できない 3時間におよぶアンディ・ジャシー氏の基調講演において、コンピュート分野に続いて解説されたのがデータストアの分野だ。ここではデータを利活用するストレージの技術革新に加え、データベースへの取り組みも披露された。 まずゲストとして登壇したのは、2006年のAmazon S3ラウンチ当時にいち早くデータを格納したSmugMugの創業者であるドン・マクスキル氏。S3にデータをホストしたことで、最新の分析やデータ管理ツールを利用でき、1日数十億枚とい

                                                              老兵のようなRDBMSからの解放を AWSが手がけるデータストアの再発明
                                                            • 達人出版会

                                                              探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 徹底攻略 AWS認定 クラウドプラクティショナー教科書 第2版[CLF-C02]対応 トレノケート株式会社 高山裕司 超楕円関数への招待 楕円関数の一般化とその応用 松谷 茂樹 手を動かしてわかるクリーンアーキテクチャ ヘキサゴナルアーキテクチャによるクリーンなアプリケーション開発 Tom Hombergs(著), 須田智之(訳) 詳解 AWS CloudFormation 潮村 哲 その決定に根拠はありますか? 確率思

                                                                達人出版会
                                                              • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                                                                はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                                                                  次世代データ基盤:データレイクハウスを Google Cloud で実現する
                                                                • Delta Lake とは何か - connecting the dots

                                                                  はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                                                                    Delta Lake とは何か - connecting the dots
                                                                  • 10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                    このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。 実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。 しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事

                                                                      10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                    • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                                                                      こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                                                                        高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                                                                      • RFC7938 - 大規模データセンター内でのルーティングのためのBGPの利用方法 - show log @yuyarin

                                                                        はじめに この文書は RFC7938 - Use of BGP for Routing in Large-Scale Data Centers の日本語訳です。 翻訳者はデータセンターネットワークの専門家ですが翻訳の専門家ではありません。技術的な意味を維持した上でなるべく読みやすい日本語になるようにしているため、英文の直訳ではなく一部のニュアンスがかけている場合がありますのでご了承ください。オリジナルの目次、謝辞、参考文献等は省略しています。 免責 いつものやつ 目次 はじめに 免責 目次 概要 1. 導入 2. ネットワーク設計の要件 2.1 帯域とトラフィックのパターン 2.2 CAPEXの最小化 2.3 OPEXの最小化 2.4 トラフィックエンジニアリング 2.5 要件の要約 3. データセンタートポロジーの概要 3.1 従来のDCトポロジー 3.2 Closネットワークトポロジー

                                                                          RFC7938 - 大規模データセンター内でのルーティングのためのBGPの利用方法 - show log @yuyarin
                                                                        • AWS、自然言語でデータベースに問い合わせ、データ分析ができる「Amazon QuickSight Q」正式リリース

                                                                          Amazon Web Services(AWS)は、インメモリBIツールの「Amazon QuickSight」の新機能として、自然言語で問い合わせができる「Amazon QuickSight Q」を正式リリースしたと発表しました。 Amazon QuickSight Qのベースとなっている「Amazon QuickSight」は、さまざまなデータソースに接続することで、データの分析とビジュアル化を行うBIツールです。 Amazon RDSのデータベースやAmazon Aurora、Amazon Redshift、HadoopのAmazon EMR、Amazon S3内のフラットファイル、MySQL、Oracle、SQL Server、PostgreSQLをはじめとして、オンプレミスのデータソースやSalesforce.comなどの外部データソースを含む、さまざまなデータソースに対応します

                                                                            AWS、自然言語でデータベースに問い合わせ、データ分析ができる「Amazon QuickSight Q」正式リリース
                                                                          • LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入

                                                                            こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。 本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。 課題: このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。 コード記述(ステップ1

                                                                              LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
                                                                            • Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services

                                                                              AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin

                                                                                Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
                                                                              1