並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 2280件

新着順 人気順

hadoopの検索結果81 - 120 件 / 2280件

  • AWSエンジニアから見たGCP(データ分析編)

    こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ

      AWSエンジニアから見たGCP(データ分析編)
    • クラウドの会社に転職してからそろそろ1年経つ話 - nikuyoshiのブログ

      毎年恒例の1年の振り返り、どうも @nikuyoshi です。今年はAmazon Web Services Japan ( AWS ) に転職した話がメイントピックです。弱くてニューゲームしました。 去年までの記事は次のURLのとおりです。2018年は技術書典で初めて個人で本を出した話、2017年は子どもを授かってからITの力でいかに楽するかの話、2016年は脱臼手術と写真の話がメイントピックでした。 nikuyoshi.hatenablog.com nikuyoshi.hatenablog.com nikuyoshi.hatenablog.com AWSに転職しました 2019年1月1日付けで入社し、 ( 最初の出勤は1/4 ) ソリューションアーキテクト ( SA ) として現在活動しています。界隈の神様が同僚、上司だったりして、月並みな表現とはなりますが働いていて大変刺激を受ける職場

        クラウドの会社に転職してからそろそろ1年経つ話 - nikuyoshiのブログ
      • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

        2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

          LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
        • エンジニアなら気の向くまま「縦へ深化、横へ探索」してみよう 自由に楽しみながらキャリアを作り上げるコツ

          技育祭は「技術者を育てる」ことを目的としたエンジニアを目指す学生のための日本最大のオンラインカンファレンスです。「技育祭2023【春】」に登壇したのは、株式会社CARTA HOLDINGS・CTOの鈴木健太氏。エンジニアが圧倒的に成長するためのコツを話しました。1回目は「好奇心」について。 CARTA HOLDINGS社・CTOの鈴木健太氏 鈴木健太氏:それでは「新卒入者から1500人規模のCTOに、エンジニアが圧倒的に成長する3つのコツ」というテーマで、これからの未来をつくる学生エンジニアのみなさんに向けて、CARTAのCTOの鈴木健太こと、すずけんが話をしようと思っています。よろしくお願いします。 簡単に自己紹介をしていきます。僕は2011年の頃、学生の時にスタートアップのCTOをしていたのですが、2012年にVOYAGE GROUP、今のCARTA HOLDINGSに入社して、それか

            エンジニアなら気の向くまま「縦へ深化、横へ探索」してみよう 自由に楽しみながらキャリアを作り上げるコツ
          • 重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ

            こんにちは、昨年末に新しくノートPCを注文したら年明けに新モデルが発表されてしまったショックを未だ引きずっているエンジニアの回路(@qazx7412)です。 今回は昨年末に取り組んだAthenaを利用した集計バッチの高速化についての話をしようと思います。 あらすじ さて、私が普段関わっている配信システムには「売上集計」と呼ばれている夜間バッチがあります。 これがなにかといえば名前のとおり売上を集計する夜間バッチなのですが、配信システムにはユーザーが購入を行ったときに発行した購入キーとコンテンツIDおよびユーザーIDを紐付けて購入履歴として管理するテーブルがあり、ここから毎晩その日の購入の集計を行います。 実際のものとは異なりますがたとえばこんな感じです。 (purchase_records) key content_id user_id price unixtime - AAAAbbbb

              重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ 
            • 非同期と並列 / morrita - Message Passing

              karino2 が 並列プログラムから見たFuture というビデオを作って公開していたので、引っ越しの荷造りをしながら眺めた。 長いのでここにざっくりとした主張をまとめると: Future/Promise (およびその後釜の async/await) は非同期プログラミングで callback hell にならない発明という見方をされているが、 そもそもなぜ callback hell が必要だったかの時代背景が十分に理解されていない。 背景の一つはブラウザ JavaScript のプログラミングモデルにシングルスレッド・ノンブロッキング(イベントループ)という制限があったから。 これは(特にフロントエンド開発者の間では)よく理解されている。 もう一つの視点は SEDA みたいなマルチスレッド・ノンブロッキング環境の必要性で、 こっちはいまいち広く理解されていないように思える。 結果とし

                非同期と並列 / morrita - Message Passing
              • DeNAがデータプラットフォームで直面した課題と克服の取り組み

                はじめにこんにちは。この記事はDeNAの小口(Rikiya Oguchi)と長谷川(Ryoji Hasegawa)がお届けします。 小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。 現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、

                  DeNAがデータプラットフォームで直面した課題と克服の取り組み
                • 楽天グループが数ペタバイト級の会員分析DBを刷新、Google BigQueryを選んだわけ

                  楽天グループは2022年4月19日、ユーザーの属性情報や行動情報などを分析するデータベース(DB)である「楽天スーパーDB」の稼働環境に、米Google(グーグル)のクラウドサービス「BigQuery」を採用したと発表した。これまでオンプレミス環境のデータウエアハウス(DWH)で管理していた数ペタバイト級のデータを、クラウド上のDWHサービスであるBigQueryに移行する。 楽天スーパーDBとは、同社が世界中で展開する70以上のサービスを使うユーザーの情報を分析する巨大なDBだ。グループ共通IDである「楽天ID」のアカウント数は、日本国内で1億を超える。蓄積した情報は、サービスのパーソナライズ機能やレコメンデーション機能、行動ターゲティング広告機能などに使用している。 日経クロステックの取材に応じた楽天グループのロヒット・デワン執行役員Cloud Platform Supervisory

                    楽天グループが数ペタバイト級の会員分析DBを刷新、Google BigQueryを選んだわけ
                  • LINEの広告プラットフォームの分析業務を担当するチームを紹介します

                    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINE広告プラットフォームの分析業務を担当しているData Science室のAd Data Scienceチームを紹介します。 マネージャーの武川文則、仲村智に話を聞きました。 ※関連記事:LINE公式アカウントの分析業務を担当するチームを紹介します Ad Data Scienceチームのデータサイエンティストの皆さん まず、自己紹介をお願いします。 武川:武川です。Data Science室でLINE広告関連の分析を担当するAd Dat

                      LINEの広告プラットフォームの分析業務を担当するチームを紹介します
                    • 今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件 - Qiita

                      今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件機械学習DeepLearningAIIoT分散処理 ありがとう総務省! http://www.soumu.go.jp/ict_skill/ http://www.soumu.go.jp/ict_skill/pdf/ict_skill_c1_set.pdf で一括PDFダウンロード(463ページ)するのも手。 今日まで知らなかったが日本のお役所のIT事業で民間がまともに使えるシステム、資料を初めて見た気がする。 今更恥ずかしくて聞けないNoSQL、分散処理(hadoop, spark, ...)、マシンラーニングやディープラーニングの手法の根幹、 Rのお話まで登場。これは使える! 最近時のテクノロジーの基本的事項の網羅性が高い!

                        今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件 - Qiita
                      • Distributed Systems Course

                        This is an introductory course in Distributed Systems. Distributed systems is the study of how to build a computer system where the state of the program is divided over more than one machine (or "node"). This course is in active development. At the moment, it consists of a series of short videos. The intention is to create a complete set of video lectures and then add additional content (such as m

                        • 機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ

                          こんにちは。前回書いた突撃!隣のキーボード M3 2019という記事が、HHKBの公式Twitterアカウントにツイートされ、舞い上がっているエムスリーエンジニアリングGの河合 (@vaaaaanquish) です。 今回はエムスリー AIチームが開発、運用している機械学習プロジェクト向けのPythonライブラリである「gokart」の説明と、その周辺ライブラリとなる「cookiecutter-gokart」「thunderbolt」「redshells」について紹介したいと思います。よろしくお願いします。 はじめに Pipeline化のメリット・デメリット Pipeline化のメリット Pipeline化のデメリット gokart 共通化のための出力ファイル形式の制約と拡張 強力かつ簡易な再現性のためのデータ保持 クラウドサービスやSlack通知のサポート gokartのメリット、デメリ

                            機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ
                          • 「技術の価値は常に栄枯盛衰」 変化し続ける時代に求められるエンジニアになるためには

                            プログラミングは学ぶ必要がなくなるのか? 島澤甲氏:生成AIは本当に変化をもたらしているかなと思います。今日聞かれているみなさんの中にも、「ぶっちゃけ俺らって、どうなっちゃうのかな?」と、「けっこうコーディングをやってきたけどなぁ」と思っている人が多いんじゃないかなと思います。技育祭も、生成AIの未来についてのセッションがすごく多いので、これはやはりすごく注目されているテーマだし、大事なテーマだと思うんですよね。 なので、このセッションではあえてまったく違う切り口で、この生成AIというテーマを切ってみようかなと思います。ちょっとみなさんに1つ。これは先月かな? まぁまぁネットでもバズったというか話題になりましたけれども、NVIDIAのジェンスン・フアンさんが「もうプログラミングは不可欠ではない」というようなことを提唱しましたね。知っている人もけっこう多いかな? これについて、みんなどう思い

                              「技術の価値は常に栄枯盛衰」 変化し続ける時代に求められるエンジニアになるためには
                            • AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ

                              こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。 経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。 このままでは障害時の対応が手探りで安定運用に支障がある、また (

                                AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ
                              • Rustによる並列処理でDynamoDBへのデータ投入を20倍高速化してみた

                                はじめに 言語として高速だと謳われているRust。そのRustを使用してDynamoDBへのデータ登録処理を直列処理と複数の並列アルゴリズム処理で速度比較してみました。 DynamoDB DynamoDBは公式で以下のように謳われています。 Amazon DynamoDB の応答時間は 1 桁ミリ秒で、最も要求の厳しいアプリケーションでも一貫してこのパフォーマンスを発揮できます。例を挙げると、2022 年の Amazon プライムデーに Amazon DynamoDB は、1 桁ミリ秒のパフォーマンスで、数兆回の API コールに対して 1 秒あたり 1 億 520 万件のリクエストを確実に処理しました。 上記だけみると爆速のようにも思われますが、読み込みと書き込み双方に以下の制限があります。 BatchWriteItemのデータ投入は1回で25リクエストまで、Queryのデータ取得は1回

                                  Rustによる並列処理でDynamoDBへのデータ投入を20倍高速化してみた
                                • チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary

                                  前提と想定読者 本記事の私見以外の情報に関しては、一般に公開されている資料のリンク集のようになっています。 取り組んでいる内容は、私が現在勤務している会社に関連していますが、その詳細には触れません。 以下に類する方は参考になるかもしれません。 データエンジニアやBIエンジニアのように、データ基盤を構築しようとしている方 データアナリスト、データサイエンティスト、マーケッターなど、データ基盤を利用する方々で、なぜそのシステムが選ばれているのか考えられるようになりたい方 データエンジニアリングチームをマネジメントしており、チームメンバーのスキル向上のための教材を探している方 背景 WEB業界で新卒からデータエンジニアとしてキャリアをスタートし、現在はデータストラテジスト/BIエンジニアとして活動中のやすです。 現在、私は5-10名規模のチームをマネジメントしており、チームメンバーのほとんどは2

                                    チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary
                                  • ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に

                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーでデータエンジニア兼マネージャーをしている安藤です。 社内で利用しているAIプラットフォームの構築、提供を担当しています。 ヤフーには100を超えるサービスがあり、各サービスのデータ*1が蓄積されています。ヤフーではこれらのデータをマルチビッグデータと呼んでいます。マルチビッグデータを利用し、ユーザの利便性やサービスの質向上のため、AI、機械学習の導入が増えています。 今回は、社内で急速に利用が進んでいる内製のAIプラットフォームを紹介します。 *1 この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 AIプラットフォーム開発の目的 AIプラッ

                                      ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に
                                    • Webシステム開発で関わる技術のまとめ(2022年に知った物) - Qiita

                                      はじめに Webシステムの開発に携わりたくて転職して9か月,知らない事ばかりで日々勉強しております。 自分の勉強用メモとして知っておくべき技術をまとめようと思いました。 (こちらの記事にインスパイアされたものです) 技術用語について,なるべく2~3行で概要を説明できる事を目指しています。 情報が多過ぎるので,主流な技術は見出しを赤字にしています。(主観強め) また,今後需要が増えそうな技術は青字にしています。(かなり主観強め) とはいえ,新しい技術が登場すれば,数年でトレンドが変わってしまう事も多々あると思います。 ほとんどはあくまでも初心者がネットで情報をかき集めた程度のものです。 誤りがあればご指摘,ご意見など頂きたいです。 ※2023/2/6追記 不正確・不十分だと思った記載はひっそりと随時修正しています。 また,「そういえばこんなんあったな」という項目も追記しています。 あと,自分

                                        Webシステム開発で関わる技術のまとめ(2022年に知った物) - Qiita
                                      • LINE公式アカウントの分析業務を担当するチームを紹介します

                                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINE公式アカウントの分析業務を担当しているData Science室のOA Data Scienceチームを紹介します。 マネージャーの西手嘉昭、永峰宏規に話を聞きました。 ※関連記事:LINEの広告プラットフォームの分析業務を担当するチームを紹介します OA Data Scienceチームのデータサイエンティストの皆さん まず、自己紹介をお願いします。 西手:2017年4月に、OA Data Scienceチームにデータサイエンティスト

                                          LINE公式アカウントの分析業務を担当するチームを紹介します
                                        • Preferred Networks におけるHadoop - Preferred Networks Research & Development

                                          Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。 写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

                                            Preferred Networks におけるHadoop - Preferred Networks Research & Development
                                          • 複数のビットフィールドを持つ数値の並列演算

                                            並列化といえばHadoopだSparkだMPIだといったキーワードが世の中を賑わせているが、古典的な話としてゲームなどのグラフィクス処理界隈ではMMX命令などのSIMDを使う事なくデータ並列性を引き出すことによって高速化していた。 このテクの一部を扱った傑作記事が気づいたら検索で辿れなくなっていてWebArchive入りしてしまっていたので一つの機会として解説記事を書くことにした。 古株のエンジニアからすれば見慣れたテクニックではあるが知らない人から見るとパズルのような面白みがあり応用の幅もある面白いテクニックである。 複数のビットフィールドとは スーパーファミコンのように表示可能色が32,768色に制限されている環境というのは、内部的には1色を15bit(2^15=32,768)を使って表現している事が多い。当然この色数で自然界のあらゆる物を自然に描写するのは難しいが、ゲーム用途などでは

                                              複数のビットフィールドを持つ数値の並列演算
                                            • PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ

                                              「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに

                                                PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
                                              • dotData に入社して半年が経ちました|Takumi Sakamoto

                                                ここまでのところ、想像以上に dotData の仕事を楽しんで過ごせていることに加え、良い市場に・良いタイミングで・良いプロダクトを送り出せている追い風もあってか、色々なことが想像より早くいい方向に進んでるというのが簡単な現状報告ではあります。 そして、先週、ジャフコおよびゴールドマン・サックスから 2,300 万ドルのシリーズ A 資金調達を実施したというプレスリリースも出たので、この数ヶ月を簡単に振り返ってみようかなと思います。いわゆる在籍エントリです。まだまだ会社の知名度もないので、少しでも取り組んでる内容などが伝わるといいなと思って書いています。 dotData についてのおさらいdotData は、データサイエンスを自動化するソフトウェアを開発・販売する会社です。元々は、NEC の研究プロジェクトとしてはじまり、2018 年に戦略的カーブアウトをする形で米国で設立され、カリフォル

                                                  dotData に入社して半年が経ちました|Takumi Sakamoto
                                                • Diving Deep on S3 Consistency

                                                  Diving Deep on S3 ConsistencyApril 20, 2021 • 1938 words I recently posted about Amazon S3 and how it’s evolved over the last 15 years since we launched the service in 2006 as “storage for the internet.” We built S3 because we knew customers wanted to store backups, videos, and images for applications like e-commerce web sites. Our top design priorities at the time were security, elasticity, relia

                                                    Diving Deep on S3 Consistency
                                                  • 数千万ユーザーのビッグデータに機械学習モデルを適用するには(広告配信ソリューション実現の工夫紹介)

                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告にてデータアナリストをしている國吉です。 ヤフーでは、「Yahoo!広告」という広告出稿サービスを提供しており、それに付随して、広告を出稿するクライアントを支援するためのソリューションを提供しています。本記事では、私が開発に携わっている「Yahoo! JAPAN 予測ファネル」(以下、予測ファネル)という広告配信ソリューションについてご紹介します。予測ファネルを開発するにあたっては、ビッグデータを用いて機械学習モデルの作成と推論をするため以下の課題がありました。 学習時のメモリリソースの確保、推論時間の短縮が必要 ソリューションのリリース後には数多くのモデルが作成されモデルの管理が煩雑になる 本記事では

                                                      数千万ユーザーのビッグデータに機械学習モデルを適用するには(広告配信ソリューション実現の工夫紹介)
                                                    • Amazon S3 アップデート – 強力な書き込み後の読み取り整合性 | Amazon Web Services

                                                      Amazon Web Services ブログ Amazon S3 アップデート – 強力な書き込み後の読み取り整合性 2006 年に S3 をローンチした当時、私はその事実上無制限の容量 (「あらゆる数のブロックを簡単に保存…」)、99.99% の可用性を実現するように設計されており、データが複数の場所に透過的に保存される耐久性に優れたストレージを提供するという事実について説明しました。このローンチ以来、AWS のお客様は、バックアップと復元、データアーカイブ、エンタープライズアプリケーション、ウェブサイト、ビッグデータ、そして最終集計で 10,000 個を超えたデータレイクといった、驚くほど多様な方法で S3 を使用しておられます。 S3、およびその他の大規模な分散システムの興味深い (時には分かりにくいこともある) 側面のひとつに、一般に結果整合性として知られているものがあります。要

                                                      • 分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり

                                                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe(以下、IU)と呼ばれており、LINEで扱うすべてのデ

                                                          分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
                                                        • PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab

                                                          初めまして。2019年6月にAstamuseにjoinした rinoguchi です。 ついに昨日、日本でも緊急事態宣言が出ましたね。小学校の休校も1ヶ月程度延長されましたし、会社もリモートワークにほぼ移行してますし、ここできっちりウイルスの拡散を防ぎたいところです。 ちなみに、妻がドイツに単身赴任中なのですが、ドイツでは感染者は多くて外出自粛モードになっているものの、現地の人たちはせっかくだからと日曜大工したり、庭を改造したりとそれなりに楽しんでいるみたいです。私たちも制限された環境の中ですが、せっかくなので楽しみたいですね! 屋根瓦. なんとなく並列処理を連想しませんか? はじめに それはそうと、私は当社で、特許データなどの名寄せ(同一人物に対してユニークなIDをふる作業)を担当しております。 特許の名寄せには、人物名・組織名・出願日・共同出願人など様々な特徴を利用するのですが、中国人

                                                            PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab
                                                          • AWSとRed Hatが「Red Hat OpenShift Service on AWS」発表。AWS上のフルマネージドサービスとして。なぜAWSとRed Hatは手を組んだか?

                                                            AWSとRed Hatが「Red Hat OpenShift Service on AWS」発表。AWS上のフルマネージドサービスとして。なぜAWSとRed Hatは手を組んだか? 「Red Hat OpenShift Service on AWS」は、DockerコンテナとKubernetesを中心としたRed Hatのクラウドネイティブ基盤ソフトウェアの「OpenShift」を、AWS上でフルマネージドサービスとして提供するもの。両者が共同でサポートするとしています。 ユーザーはAWS上でOpenShiftを利用することに加え、オンプレミスやほかのクラウド上でOpenShiftを利用することによるハイブリッドクラウドやマルチクラウドの構築も容易になります。 AWSとRed Hatはなぜ手を組んだか? 現在、DockerコンテナとKubernetesを組み合わせたクラウドネイティブ基盤ソ

                                                              AWSとRed Hatが「Red Hat OpenShift Service on AWS」発表。AWS上のフルマネージドサービスとして。なぜAWSとRed Hatは手を組んだか?
                                                            • LINE広告における8,400万人の中から最適なユーザーに広告を配信するためのリーチ数推定

                                                              LINE Developer MeetupはLINEが定期的に開催する技術者向けミートアップです。LINEの8400万人の月間アクティブユーザーを対象に配信されるLINE広告のリーチ数推定について、開発チームの加賀谷氏がデモ映像をまじえて紹介しました。 関連資料はこちら。 8,400万人の中の誰に広告を配信するか 加賀谷北斗氏(以下、加賀谷): LINE株式会社 開発4センター/B2B Platform開発室の加賀谷と申します。「LINE広告における8400万人を対象としたリーチ数の推定」というタイトルで発表していきたいと思います。 LINE広告とはその名の通り、LINEが提供するサービス上で広告を配信できる唯一のプラットフォームになります。みなさんの中にも、きっとLINEのアプリ内で広告を見たことがある方が多いんじゃないかなと思います。 LINEの国内MAUは、2020年6月時点で8,4

                                                                LINE広告における8,400万人の中から最適なユーザーに広告を配信するためのリーチ数推定 
                                                              • エンジニアには戻らない ―Treasure Data CEOとして太田一樹が挑む"目線を上げる経営" | gihyo.jp

                                                                2021年11月、米Treasure Dataは2億3400万ドル、日本円にして約270億円という巨額の資金調達を実施しました。出資を主導したのはソフトバンクで、日本人創業のスタートアップにこれほどの金額が投資されるのはかなりのレアケースといえます。 この大型投資を実現させた立役者が、2021年6月にTreasure DataのCEOに就任した太田一樹氏です。2011年12月にTreasure Data前CEOの芳川裕誠氏、Fluentdクリエーターの古橋貞之氏とともに、ビッグデータ企業のTreasure Dataを創業、太田氏はCTO(最高技術責任者)としてTreasure Dataの技術的方向性をリードしてきました。それから約10年が経過し、自社とIT業界の急激な変化に見舞われながらも、新たにCEOとして現在はCDPのトップベンダとなったTreasure Dataを率いていく決断をした

                                                                  エンジニアには戻らない ―Treasure Data CEOとして太田一樹が挑む"目線を上げる経営" | gihyo.jp
                                                                • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                                                                  はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                                                    AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                                                                  • FPGAに機械学習モデルを実装する – その1:ランダムフォレストによるクラス分類 - GMOインターネットグループ グループ研究開発本部

                                                                    こんにちは,次世代システム研究室のS.T.です。普段はHadoopネタを書いていますが,今回はテーマをがらっと変えて,FPGAネタです。 「FPGAに機械学習の推論部分を実装し高速に処理を行う」という技術は耳にしたことがありましたが,漠然としたイメージがあるだけで実際にどのように実装していくのかということは知りませんでした。調べてみると,高位合成を用いた手法(1)や,学術研究として開発されたアクセラレータとしてのアーキテクチャ(2)は存在するようですが,シンプルなサンプルコードの形で存在するものはないようです。 もちろん「ソフトウェアエンジニアやデータサイエンティストが作成したモデルを高位合成でFPGAに落とし込みアクセラレータとして使用する」というユースケースを考えれば納得がいきますし,応用できる範囲もHDLで直接実装するより広くなると思います。 しかし,「低コスト小規模なローエンドFP

                                                                      FPGAに機械学習モデルを実装する – その1:ランダムフォレストによるクラス分類 - GMOインターネットグループ グループ研究開発本部
                                                                    • サイバーエージェントはHBaseからTiDBへ移行、大規模データ処理基盤における検証結果を明かす

                                                                      性能と運用面での変化はどれくらい? 移行における要点整理 記事公開日:2024年8月27日 2024年7月3日に開催された「TiDB User Day 2024」では、オープンソースのNewSQLデータベース「TiDB」が、実際にどのように使われているか、ユーザーによる事例などを通して紹介された。サイバーエージェント グループIT推進本部 データプロダクトユニットの渡邉敬之氏からは、「大規模データ処理基盤におけるHBaseからTiDBへの移行事例」と題して、HBaseの課題と移行先となったTiDBの選定理由が明かされた。さらにHBaseからTiDBへの移行方法、移行後の性能と運用面での変化なども紹介してくれた。 老朽化したHBaseのデータ処理基盤をTiDBに移行 渡邉氏が所属するグループIT推進本部のデータプロダクトユニットは、「データの力で事業成長を加速させる」をミッションに掲げている

                                                                        サイバーエージェントはHBaseからTiDBへ移行、大規模データ処理基盤における検証結果を明かす
                                                                      • AIシステムが成熟する今「MLOps」が必要とされる理由とは? MLOpsを推進するために大切なこと

                                                                        近年、機械学習(ML)やディープラーニング(DL)といったAI関連技術をプロダクトへ応用し、新たな価値を生みだそうという動きが加速しています。その中で、従来の「DevOps」の考え方を、機械学習向けに発展させた「MLOps」という新しい概念が生まれ、注目を浴びています。MLOpsが注目される背景には、どのような課題があるのか。そして、実際に現場でMLOpsに携わる人々は、何を目指し、どんな取り組みを行っているのか。ヤフーとLaunchableで、それぞれMLOpsをリードしている2人のエンジニアに語っていただきました。 機械学習システムの普及を契機に関心が高まる「MLOps」 黒松:ヤフーの黒松です。私は大学時代に、ビッグデータを研究テーマにしており、OSSとして当時注目されていたHadoopなどを扱っていました。卒業後は富士通研究所に入り、基盤研究の一環として、機械学習のための基盤を作り

                                                                          AIシステムが成熟する今「MLOps」が必要とされる理由とは? MLOpsを推進するために大切なこと
                                                                        • トレジャーデータはなぜシリコンバレーで創業したのか

                                                                          米シリコンバレーの地でトレジャーデータを起業して10年。2018年に英Arm(アーム)に買収されましたが再び独立。現在、私はトレジャーデータの取締役会長を務めています。 「どうしてシリコンバレーで創業したのか?」。しばしば、こう尋ねられます。基本的には米国を拠点として活動しているため、日本のメディアでお話しする機会はあまり多くありませんでした。この連載では、あえて日本国外からの視点をもって、日本の読者の皆さまへ、何かしらの気付きになるようなことをつづっていければと思っています。 先の問いにお答えする前に、簡単に「私の履歴書」をご紹介させてください。 作家志望なのにオープンソースソフトウエアの世界へ 私のキャリアは、大学在学中、オープンソースのOS(基本ソフト)である「Linux」の商用パッケージを展開していた米Red Hat(レッドハット)の日本拠点でアルバイトをしたことから始まります。い

                                                                            トレジャーデータはなぜシリコンバレーで創業したのか
                                                                          • 効率的なダッシュボードの作成 - MicroAd Developers Blog

                                                                            京都研究所・TechLabの田中です。 マイクロアドでは、主にエンジニア以外のメンバーが広告配信実績などの各種データにアクセスする際にRedashを利用しています。 Redashから接続しているデータソースには、以前このブログでも紹介した分析用Hadoopクラスタ*1に加えて、MySQLのレプリやBigQueryなどがあります。 これらの異なるデータソースに対してRedashからは同じインターフェースでアクセスでき、手軽にデータの抽出や可視化・分析などが可能です。 また、クエリで抽出したデータを利用して、Redash上にダッシュボードを作成することもできます。 本稿では、そんなRedashの活用方法の1つとして、 スケジューリング機能とキャッシュ機能を利用した簡易的なデータパイプラインを使ってダッシュボードを作成する例をご紹介します。 なお、この記事で扱うRedashの説明はバージョンv1

                                                                              効率的なダッシュボードの作成 - MicroAd Developers Blog
                                                                            • LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像

                                                                              LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像 Feature as a Service at Data Labs #1/2 2019年11月20、21日、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。20日は「Engineering」をテーマに技術的な内容のセッション、21日は「Production」をテーマに実践的な内容のセッションを多数取り揃え、LINEのエンジニアリングにおける知見を各プロダクトのキーマンがシェアします。「Feature as a Service at Data Labs」に登壇したのはLINE Machine LearningチームのChaerim Yeo氏。データ専門研究開発組織「LINE Data Labs」での機械学習の特徴量

                                                                                LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像
                                                                              • 実際に登録して分かったおすすめ転職エージェント3選!業界別おすすめの転職エージェントも紹介

                                                                                転職を考えた時に、より良い転職ができるように転職エージェントを利用したいと考えていませんか? ・実際にどの転職エージェントがおすすめなのか? ・今の転職事情はどうなっているのか? など、転職するにあたって様々な悩みや疑問が出てきます。 この記事では転職エージェントとして、3500名以上の経営者・11000名以上の個人のキャリアカウンセリングを行っている高野秀敏様にインタビューを行い、“転職”について詳しく解説していただいてます。 また、キャリアAで調査したおすすめの転職エージェントも年代・業種別にもご紹介していきます。 この記事を読んで上手に転職するコツを理解することで、あなたの転職活動の飛躍的な向上を目指してください! 転職エージェントの高野秀敏様にインタビュー 高野秀敏様 プロフィール 株式会社キープレイヤーズ 代表取締役 高野秀敏 キープレイヤーズではユーザーのニーズに合わせた転職支

                                                                                  実際に登録して分かったおすすめ転職エージェント3選!業界別おすすめの転職エージェントも紹介
                                                                                • Keeping clients of OpenSearch and Elasticsearch compatible with open source | Amazon Web Services

                                                                                  AWS Open Source Blog Keeping clients of OpenSearch and Elasticsearch compatible with open source The OpenSearch project is a long-term investment in a secure, high-quality, Apache-2.0 licensed search and analytics suite with a rich roadmap of innovative functionality. OpenSearch aims to provide wire compatibility with open source distributions of Elasticsearch 7.10.2, the software from which it wa

                                                                                    Keeping clients of OpenSearch and Elasticsearch compatible with open source | Amazon Web Services