並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 713件

新着順 人気順

hadoopの検索結果81 - 120 件 / 713件

  • 非同期と並列 / morrita - Message Passing

    karino2 が 並列プログラムから見たFuture というビデオを作って公開していたので、引っ越しの荷造りをしながら眺めた。 長いのでここにざっくりとした主張をまとめると: Future/Promise (およびその後釜の async/await) は非同期プログラミングで callback hell にならない発明という見方をされているが、 そもそもなぜ callback hell が必要だったかの時代背景が十分に理解されていない。 背景の一つはブラウザ JavaScript のプログラミングモデルにシングルスレッド・ノンブロッキング(イベントループ)という制限があったから。 これは(特にフロントエンド開発者の間では)よく理解されている。 もう一つの視点は SEDA みたいなマルチスレッド・ノンブロッキング環境の必要性で、 こっちはいまいち広く理解されていないように思える。 結果とし

      非同期と並列 / morrita - Message Passing
    • LINEの広告プラットフォームの分析業務を担当するチームを紹介します

      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINE広告プラットフォームの分析業務を担当しているData Science室のAd Data Scienceチームを紹介します。 マネージャーの武川文則、仲村智に話を聞きました。 ※関連記事:LINE公式アカウントの分析業務を担当するチームを紹介します Ad Data Scienceチームのデータサイエンティストの皆さん まず、自己紹介をお願いします。 武川:武川です。Data Science室でLINE広告関連の分析を担当するAd Dat

        LINEの広告プラットフォームの分析業務を担当するチームを紹介します
      • DeNAがデータプラットフォームで直面した課題と克服の取り組み

        はじめにこんにちは。この記事はDeNAの小口(Rikiya Oguchi)と長谷川(Ryoji Hasegawa)がお届けします。 小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。 現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、

          DeNAがデータプラットフォームで直面した課題と克服の取り組み
        • 楽天グループが数ペタバイト級の会員分析DBを刷新、Google BigQueryを選んだわけ

          楽天グループは2022年4月19日、ユーザーの属性情報や行動情報などを分析するデータベース(DB)である「楽天スーパーDB」の稼働環境に、米Google(グーグル)のクラウドサービス「BigQuery」を採用したと発表した。これまでオンプレミス環境のデータウエアハウス(DWH)で管理していた数ペタバイト級のデータを、クラウド上のDWHサービスであるBigQueryに移行する。 楽天スーパーDBとは、同社が世界中で展開する70以上のサービスを使うユーザーの情報を分析する巨大なDBだ。グループ共通IDである「楽天ID」のアカウント数は、日本国内で1億を超える。蓄積した情報は、サービスのパーソナライズ機能やレコメンデーション機能、行動ターゲティング広告機能などに使用している。 日経クロステックの取材に応じた楽天グループのロヒット・デワン執行役員Cloud Platform Supervisory

            楽天グループが数ペタバイト級の会員分析DBを刷新、Google BigQueryを選んだわけ
          • 今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件 - Qiita

            ありがとう総務省! http://www.soumu.go.jp/ict_skill/ http://www.soumu.go.jp/ict_skill/pdf/ict_skill_c1_set.pdf で一括PDFダウンロード(463ページ)するのも手。 今日まで知らなかったが日本のお役所のIT事業で民間がまともに使えるシステム、資料を初めて見た気がする。 今更恥ずかしくて聞けないNoSQL、分散処理(hadoop, spark, ...)、マシンラーニングやディープラーニングの手法の根幹、 Rのお話まで登場。これは使える! 最近時のテクノロジーの基本的事項の網羅性が高い!

              今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件 - Qiita
            • 機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ

              こんにちは。前回書いた突撃!隣のキーボード M3 2019という記事が、HHKBの公式Twitterアカウントにツイートされ、舞い上がっているエムスリーエンジニアリングGの河合 (@vaaaaanquish) です。 今回はエムスリー AIチームが開発、運用している機械学習プロジェクト向けのPythonライブラリである「gokart」の説明と、その周辺ライブラリとなる「cookiecutter-gokart」「thunderbolt」「redshells」について紹介したいと思います。よろしくお願いします。 はじめに Pipeline化のメリット・デメリット Pipeline化のメリット Pipeline化のデメリット gokart 共通化のための出力ファイル形式の制約と拡張 強力かつ簡易な再現性のためのデータ保持 クラウドサービスやSlack通知のサポート gokartのメリット、デメリ

                機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ
              • 「技術の価値は常に栄枯盛衰」 変化し続ける時代に求められるエンジニアになるためには

                プログラミングは学ぶ必要がなくなるのか? 島澤甲氏:生成AIは本当に変化をもたらしているかなと思います。今日聞かれているみなさんの中にも、「ぶっちゃけ俺らって、どうなっちゃうのかな?」と、「けっこうコーディングをやってきたけどなぁ」と思っている人が多いんじゃないかなと思います。技育祭も、生成AIの未来についてのセッションがすごく多いので、これはやはりすごく注目されているテーマだし、大事なテーマだと思うんですよね。 なので、このセッションではあえてまったく違う切り口で、この生成AIというテーマを切ってみようかなと思います。ちょっとみなさんに1つ。これは先月かな? まぁまぁネットでもバズったというか話題になりましたけれども、NVIDIAのジェンスン・フアンさんが「もうプログラミングは不可欠ではない」というようなことを提唱しましたね。知っている人もけっこう多いかな? これについて、みんなどう思い

                  「技術の価値は常に栄枯盛衰」 変化し続ける時代に求められるエンジニアになるためには
                • AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ

                  こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。 経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。 このままでは障害時の対応が手探りで安定運用に支障がある、また (

                    AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ
                  • Rustによる並列処理でDynamoDBへのデータ投入を20倍高速化してみた

                    はじめに 言語として高速だと謳われているRust。そのRustを使用してDynamoDBへのデータ登録処理を直列処理と複数の並列アルゴリズム処理で速度比較してみました。 DynamoDB DynamoDBは公式で以下のように謳われています。 Amazon DynamoDB の応答時間は 1 桁ミリ秒で、最も要求の厳しいアプリケーションでも一貫してこのパフォーマンスを発揮できます。例を挙げると、2022 年の Amazon プライムデーに Amazon DynamoDB は、1 桁ミリ秒のパフォーマンスで、数兆回の API コールに対して 1 秒あたり 1 億 520 万件のリクエストを確実に処理しました。 上記だけみると爆速のようにも思われますが、読み込みと書き込み双方に以下の制限があります。 BatchWriteItemのデータ投入は1回で25リクエストまで、Queryのデータ取得は1回

                      Rustによる並列処理でDynamoDBへのデータ投入を20倍高速化してみた
                    • Webシステム開発で関わる技術のまとめ(2022年に知った物) - Qiita

                      はじめに Webシステムの開発に携わりたくて転職して9か月,知らない事ばかりで日々勉強しております。 自分の勉強用メモとして知っておくべき技術をまとめようと思いました。 (こちらの記事にインスパイアされたものです) 技術用語について,なるべく2~3行で概要を説明できる事を目指しています。 情報が多過ぎるので,主流な技術は見出しを赤字にしています。(主観強め) また,今後需要が増えそうな技術は青字にしています。(かなり主観強め) とはいえ,新しい技術が登場すれば,数年でトレンドが変わってしまう事も多々あると思います。 ほとんどはあくまでも初心者がネットで情報をかき集めた程度のものです。 誤りがあればご指摘,ご意見など頂きたいです。 ※2023/2/6追記 不正確・不十分だと思った記載はひっそりと随時修正しています。 また,「そういえばこんなんあったな」という項目も追記しています。 あと,自分

                        Webシステム開発で関わる技術のまとめ(2022年に知った物) - Qiita
                      • チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary

                        前提と想定読者 本記事の私見以外の情報に関しては、一般に公開されている資料のリンク集のようになっています。 取り組んでいる内容は、私が現在勤務している会社に関連していますが、その詳細には触れません。 以下に類する方は参考になるかもしれません。 データエンジニアやBIエンジニアのように、データ基盤を構築しようとしている方 データアナリスト、データサイエンティスト、マーケッターなど、データ基盤を利用する方々で、なぜそのシステムが選ばれているのか考えられるようになりたい方 データエンジニアリングチームをマネジメントしており、チームメンバーのスキル向上のための教材を探している方 背景 WEB業界で新卒からデータエンジニアとしてキャリアをスタートし、現在はデータストラテジスト/BIエンジニアとして活動中のやすです。 現在、私は5-10名規模のチームをマネジメントしており、チームメンバーのほとんどは2

                          チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary
                        • ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に

                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーでデータエンジニア兼マネージャーをしている安藤です。 社内で利用しているAIプラットフォームの構築、提供を担当しています。 ヤフーには100を超えるサービスがあり、各サービスのデータ*1が蓄積されています。ヤフーではこれらのデータをマルチビッグデータと呼んでいます。マルチビッグデータを利用し、ユーザの利便性やサービスの質向上のため、AI、機械学習の導入が増えています。 今回は、社内で急速に利用が進んでいる内製のAIプラットフォームを紹介します。 *1 この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 AIプラットフォーム開発の目的 AIプラッ

                            ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に
                          • LINE公式アカウントの分析業務を担当するチームを紹介します

                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINE公式アカウントの分析業務を担当しているData Science室のOA Data Scienceチームを紹介します。 マネージャーの西手嘉昭、永峰宏規に話を聞きました。 ※関連記事:LINEの広告プラットフォームの分析業務を担当するチームを紹介します OA Data Scienceチームのデータサイエンティストの皆さん まず、自己紹介をお願いします。 西手:2017年4月に、OA Data Scienceチームにデータサイエンティスト

                              LINE公式アカウントの分析業務を担当するチームを紹介します
                            • Distributed Systems Course

                              This is an introductory course in Distributed Systems. Distributed systems is the study of how to build a computer system where the state of the program is divided over more than one machine (or "node"). This course is in active development. At the moment, it consists of a series of short videos. The intention is to create a complete set of video lectures and then add additional content (such as m

                              • Preferred Networks におけるHadoop - Preferred Networks Research & Development

                                Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。 写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

                                  Preferred Networks におけるHadoop - Preferred Networks Research & Development
                                • 複数のビットフィールドを持つ数値の並列演算

                                  並列化といえばHadoopだSparkだMPIだといったキーワードが世の中を賑わせているが、古典的な話としてゲームなどのグラフィクス処理界隈ではMMX命令などのSIMDを使う事なくデータ並列性を引き出すことによって高速化していた。 このテクの一部を扱った傑作記事が気づいたら検索で辿れなくなっていてWebArchive入りしてしまっていたので一つの機会として解説記事を書くことにした。 古株のエンジニアからすれば見慣れたテクニックではあるが知らない人から見るとパズルのような面白みがあり応用の幅もある面白いテクニックである。 複数のビットフィールドとは スーパーファミコンのように表示可能色が32,768色に制限されている環境というのは、内部的には1色を15bit(2^15=32,768)を使って表現している事が多い。当然この色数で自然界のあらゆる物を自然に描写するのは難しいが、ゲーム用途などでは

                                    複数のビットフィールドを持つ数値の並列演算
                                  • PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ

                                    「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに

                                      PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
                                    • dotData に入社して半年が経ちました|Takumi Sakamoto

                                      ここまでのところ、想像以上に dotData の仕事を楽しんで過ごせていることに加え、良い市場に・良いタイミングで・良いプロダクトを送り出せている追い風もあってか、色々なことが想像より早くいい方向に進んでるというのが簡単な現状報告ではあります。 そして、先週、ジャフコおよびゴールドマン・サックスから 2,300 万ドルのシリーズ A 資金調達を実施したというプレスリリースも出たので、この数ヶ月を簡単に振り返ってみようかなと思います。いわゆる在籍エントリです。まだまだ会社の知名度もないので、少しでも取り組んでる内容などが伝わるといいなと思って書いています。 dotData についてのおさらいdotData は、データサイエンスを自動化するソフトウェアを開発・販売する会社です。元々は、NEC の研究プロジェクトとしてはじまり、2018 年に戦略的カーブアウトをする形で米国で設立され、カリフォル

                                        dotData に入社して半年が経ちました|Takumi Sakamoto
                                      • Diving Deep on S3 Consistency

                                        Diving Deep on S3 ConsistencyApril 20, 2021 • 1938 words I recently posted about Amazon S3 and how it’s evolved over the last 15 years since we launched the service in 2006 as “storage for the internet.” We built S3 because we knew customers wanted to store backups, videos, and images for applications like e-commerce web sites. Our top design priorities at the time were security, elasticity, relia

                                          Diving Deep on S3 Consistency
                                        • 数千万ユーザーのビッグデータに機械学習モデルを適用するには(広告配信ソリューション実現の工夫紹介)

                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告にてデータアナリストをしている國吉です。 ヤフーでは、「Yahoo!広告」という広告出稿サービスを提供しており、それに付随して、広告を出稿するクライアントを支援するためのソリューションを提供しています。本記事では、私が開発に携わっている「Yahoo! JAPAN 予測ファネル」(以下、予測ファネル)という広告配信ソリューションについてご紹介します。予測ファネルを開発するにあたっては、ビッグデータを用いて機械学習モデルの作成と推論をするため以下の課題がありました。 学習時のメモリリソースの確保、推論時間の短縮が必要 ソリューションのリリース後には数多くのモデルが作成されモデルの管理が煩雑になる 本記事では

                                            数千万ユーザーのビッグデータに機械学習モデルを適用するには(広告配信ソリューション実現の工夫紹介)
                                          • 分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり

                                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe(以下、IU)と呼ばれており、LINEで扱うすべてのデ

                                              分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
                                            • Amazon S3 アップデート – 強力な書き込み後の読み取り整合性 | Amazon Web Services

                                              Amazon Web Services ブログ Amazon S3 アップデート – 強力な書き込み後の読み取り整合性 2006 年に S3 をローンチした当時、私はその事実上無制限の容量 (「あらゆる数のブロックを簡単に保存…」)、99.99% の可用性を実現するように設計されており、データが複数の場所に透過的に保存される耐久性に優れたストレージを提供するという事実について説明しました。このローンチ以来、AWS のお客様は、バックアップと復元、データアーカイブ、エンタープライズアプリケーション、ウェブサイト、ビッグデータ、そして最終集計で 10,000 個を超えたデータレイクといった、驚くほど多様な方法で S3 を使用しておられます。 S3、およびその他の大規模な分散システムの興味深い (時には分かりにくいこともある) 側面のひとつに、一般に結果整合性として知られているものがあります。要

                                              • AWSとRed Hatが「Red Hat OpenShift Service on AWS」発表。AWS上のフルマネージドサービスとして。なぜAWSとRed Hatは手を組んだか?

                                                AWSとRed Hatが「Red Hat OpenShift Service on AWS」発表。AWS上のフルマネージドサービスとして。なぜAWSとRed Hatは手を組んだか? 「Red Hat OpenShift Service on AWS」は、DockerコンテナとKubernetesを中心としたRed Hatのクラウドネイティブ基盤ソフトウェアの「OpenShift」を、AWS上でフルマネージドサービスとして提供するもの。両者が共同でサポートするとしています。 ユーザーはAWS上でOpenShiftを利用することに加え、オンプレミスやほかのクラウド上でOpenShiftを利用することによるハイブリッドクラウドやマルチクラウドの構築も容易になります。 AWSとRed Hatはなぜ手を組んだか? 現在、DockerコンテナとKubernetesを組み合わせたクラウドネイティブ基盤ソ

                                                  AWSとRed Hatが「Red Hat OpenShift Service on AWS」発表。AWS上のフルマネージドサービスとして。なぜAWSとRed Hatは手を組んだか?
                                                • エンジニアには戻らない ―Treasure Data CEOとして太田一樹が挑む"目線を上げる経営" | gihyo.jp

                                                  2021年11月、米Treasure Dataは2億3400万ドル、日本円にして約270億円という巨額の資金調達を実施しました。出資を主導したのはソフトバンクで、日本人創業のスタートアップにこれほどの金額が投資されるのはかなりのレアケースといえます。 この大型投資を実現させた立役者が、2021年6月にTreasure DataのCEOに就任した太田一樹氏です。2011年12月にTreasure Data前CEOの芳川裕誠氏、Fluentdクリエーターの古橋貞之氏とともに、ビッグデータ企業のTreasure Dataを創業、太田氏はCTO(最高技術責任者)としてTreasure Dataの技術的方向性をリードしてきました。それから約10年が経過し、自社とIT業界の急激な変化に見舞われながらも、新たにCEOとして現在はCDPのトップベンダとなったTreasure Dataを率いていく決断をした

                                                    エンジニアには戻らない ―Treasure Data CEOとして太田一樹が挑む"目線を上げる経営" | gihyo.jp
                                                  • FPGAに機械学習モデルを実装する – その1:ランダムフォレストによるクラス分類 - GMOインターネットグループ グループ研究開発本部

                                                    こんにちは,次世代システム研究室のS.T.です。普段はHadoopネタを書いていますが,今回はテーマをがらっと変えて,FPGAネタです。 「FPGAに機械学習の推論部分を実装し高速に処理を行う」という技術は耳にしたことがありましたが,漠然としたイメージがあるだけで実際にどのように実装していくのかということは知りませんでした。調べてみると,高位合成を用いた手法(1)や,学術研究として開発されたアクセラレータとしてのアーキテクチャ(2)は存在するようですが,シンプルなサンプルコードの形で存在するものはないようです。 もちろん「ソフトウェアエンジニアやデータサイエンティストが作成したモデルを高位合成でFPGAに落とし込みアクセラレータとして使用する」というユースケースを考えれば納得がいきますし,応用できる範囲もHDLで直接実装するより広くなると思います。 しかし,「低コスト小規模なローエンドFP

                                                      FPGAに機械学習モデルを実装する – その1:ランダムフォレストによるクラス分類 - GMOインターネットグループ グループ研究開発本部
                                                    • PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab

                                                      初めまして。2019年6月にAstamuseにjoinした rinoguchi です。 ついに昨日、日本でも緊急事態宣言が出ましたね。小学校の休校も1ヶ月程度延長されましたし、会社もリモートワークにほぼ移行してますし、ここできっちりウイルスの拡散を防ぎたいところです。 ちなみに、妻がドイツに単身赴任中なのですが、ドイツでは感染者は多くて外出自粛モードになっているものの、現地の人たちはせっかくだからと日曜大工したり、庭を改造したりとそれなりに楽しんでいるみたいです。私たちも制限された環境の中ですが、せっかくなので楽しみたいですね! 屋根瓦. なんとなく並列処理を連想しませんか? はじめに それはそうと、私は当社で、特許データなどの名寄せ(同一人物に対してユニークなIDをふる作業)を担当しております。 特許の名寄せには、人物名・組織名・出願日・共同出願人など様々な特徴を利用するのですが、中国人

                                                        PythonからDataprocを操作してシームレスに並列処理を実現する - astamuse Lab
                                                      • LINE広告における8,400万人の中から最適なユーザーに広告を配信するためのリーチ数推定

                                                        LINE Developer MeetupはLINEが定期的に開催する技術者向けミートアップです。LINEの8400万人の月間アクティブユーザーを対象に配信されるLINE広告のリーチ数推定について、開発チームの加賀谷氏がデモ映像をまじえて紹介しました。 関連資料はこちら。 8,400万人の中の誰に広告を配信するか 加賀谷北斗氏(以下、加賀谷): LINE株式会社 開発4センター/B2B Platform開発室の加賀谷と申します。「LINE広告における8400万人を対象としたリーチ数の推定」というタイトルで発表していきたいと思います。 LINE広告とはその名の通り、LINEが提供するサービス上で広告を配信できる唯一のプラットフォームになります。みなさんの中にも、きっとLINEのアプリ内で広告を見たことがある方が多いんじゃないかなと思います。 LINEの国内MAUは、2020年6月時点で8,4

                                                          LINE広告における8,400万人の中から最適なユーザーに広告を配信するためのリーチ数推定 
                                                        • Hadoop is Dead. Long live Hadoop の所感

                                                          数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

                                                            Hadoop is Dead. Long live Hadoop の所感
                                                          • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                                                            はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                                              AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                                                            • AIシステムが成熟する今「MLOps」が必要とされる理由とは? MLOpsを推進するために大切なこと

                                                              近年、機械学習(ML)やディープラーニング(DL)といったAI関連技術をプロダクトへ応用し、新たな価値を生みだそうという動きが加速しています。その中で、従来の「DevOps」の考え方を、機械学習向けに発展させた「MLOps」という新しい概念が生まれ、注目を浴びています。MLOpsが注目される背景には、どのような課題があるのか。そして、実際に現場でMLOpsに携わる人々は、何を目指し、どんな取り組みを行っているのか。ヤフーとLaunchableで、それぞれMLOpsをリードしている2人のエンジニアに語っていただきました。 機械学習システムの普及を契機に関心が高まる「MLOps」 黒松:ヤフーの黒松です。私は大学時代に、ビッグデータを研究テーマにしており、OSSとして当時注目されていたHadoopなどを扱っていました。卒業後は富士通研究所に入り、基盤研究の一環として、機械学習のための基盤を作り

                                                                AIシステムが成熟する今「MLOps」が必要とされる理由とは? MLOpsを推進するために大切なこと
                                                              • トレジャーデータはなぜシリコンバレーで創業したのか

                                                                米シリコンバレーの地でトレジャーデータを起業して10年。2018年に英Arm(アーム)に買収されましたが再び独立。現在、私はトレジャーデータの取締役会長を務めています。 「どうしてシリコンバレーで創業したのか?」。しばしば、こう尋ねられます。基本的には米国を拠点として活動しているため、日本のメディアでお話しする機会はあまり多くありませんでした。この連載では、あえて日本国外からの視点をもって、日本の読者の皆さまへ、何かしらの気付きになるようなことをつづっていければと思っています。 先の問いにお答えする前に、簡単に「私の履歴書」をご紹介させてください。 作家志望なのにオープンソースソフトウエアの世界へ 私のキャリアは、大学在学中、オープンソースのOS(基本ソフト)である「Linux」の商用パッケージを展開していた米Red Hat(レッドハット)の日本拠点でアルバイトをしたことから始まります。い

                                                                  トレジャーデータはなぜシリコンバレーで創業したのか
                                                                • 効率的なダッシュボードの作成 - MicroAd Developers Blog

                                                                  京都研究所・TechLabの田中です。 マイクロアドでは、主にエンジニア以外のメンバーが広告配信実績などの各種データにアクセスする際にRedashを利用しています。 Redashから接続しているデータソースには、以前このブログでも紹介した分析用Hadoopクラスタ*1に加えて、MySQLのレプリやBigQueryなどがあります。 これらの異なるデータソースに対してRedashからは同じインターフェースでアクセスでき、手軽にデータの抽出や可視化・分析などが可能です。 また、クエリで抽出したデータを利用して、Redash上にダッシュボードを作成することもできます。 本稿では、そんなRedashの活用方法の1つとして、 スケジューリング機能とキャッシュ機能を利用した簡易的なデータパイプラインを使ってダッシュボードを作成する例をご紹介します。 なお、この記事で扱うRedashの説明はバージョンv1

                                                                    効率的なダッシュボードの作成 - MicroAd Developers Blog
                                                                  • Keeping clients of OpenSearch and Elasticsearch compatible with open source | Amazon Web Services

                                                                    AWS Open Source Blog Keeping clients of OpenSearch and Elasticsearch compatible with open source The OpenSearch project is a long-term investment in a secure, high-quality, Apache-2.0 licensed search and analytics suite with a rich roadmap of innovative functionality. OpenSearch aims to provide wire compatibility with open source distributions of Elasticsearch 7.10.2, the software from which it wa

                                                                      Keeping clients of OpenSearch and Elasticsearch compatible with open source | Amazon Web Services
                                                                    • LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像

                                                                      LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像 Feature as a Service at Data Labs #1/2 2019年11月20、21日、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。20日は「Engineering」をテーマに技術的な内容のセッション、21日は「Production」をテーマに実践的な内容のセッションを多数取り揃え、LINEのエンジニアリングにおける知見を各プロダクトのキーマンがシェアします。「Feature as a Service at Data Labs」に登壇したのはLINE Machine LearningチームのChaerim Yeo氏。データ専門研究開発組織「LINE Data Labs」での機械学習の特徴量

                                                                        LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像
                                                                      • AWS AthenaでALBのログを過去分も検索する - クラウドワークス エンジニアブログ

                                                                        こんにちは。SREチームの田中 (@kangaechu)です。リモートワークで座ってばかりの生活に危機感を感じ、昨年11月頃からランニングを始めました。最初は1キロ走っただけでヒイヒイ言っていたのですが、最近は10キロくらい走れるようになりました。運動は嫌いな方だったのですが、走るのが楽しいと思えるようになったのが一番の収穫かなと思っています。 今回はALB(Application Load Balancer)のログ検索について紹介します。 3行で説明するよ AWSの公式ドキュメントの通りAthenaの設定をするとALBの過去ログが検索できない 正規表現をいい感じにすることで過去ログも検索できるようになった Athenaのテーブル作成、Terraformでできるよ crowdworks.jpのシステムログ検索: Athena システムのイベントを適宜記録し、利用状況の把握や障害時の調査、シ

                                                                          AWS AthenaでALBのログを過去分も検索する - クラウドワークス エンジニアブログ
                                                                        • Next.jsとVercelの出口はどこにあるのか

                                                                          # Next.jsとVercelの出口はどこにあるのか 趣味でも仕事でもガッツリNext.jsを使っているという方による『Next.js 4年目の知見:SSRはもう古い、VercelにAPIサーバを置くな』 という記事を読んで、技術的には色々なことが腹落ちした感があるものの、職業柄というか今働いているところとビジネス的にも近いというかっていう感じで、Vercelが今後どうなっていくのか?っていうのが気になってしまいました。 # VercelのEnterpriseプラン VercelのPricingページにいくと、2020年11月現在、ProとEnterpriseという形で分かれていて、Qiitaの記事によると『最低でも年間数万ドルと、個人開発者やベンチャー企業が手軽に支払える額ではありません。』とのことでした。 確かに、そんなにお安いものではないかもしれないのですが、例えば年間500万円と

                                                                            Next.jsとVercelの出口はどこにあるのか
                                                                          • BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた

                                                                            はじめに皆様、こんにちは。Google Cloud Japan Customer Engineer Advent Calendar 2020 の 8 日目は 今年公開された BigQuery のリサーチペーパーを読んでみて個人的に興味があった点をまとめてみようと思います。2020 年で 10 周年を迎えた BigQuery の進化の過程が理解できるので皆様もお時間あればご一読を! TL;DRこのホワイトペーパーは、Dremel (BigQuery のクエリエンジン) が採用している主要なアーキテクチャや考え方(これらのいくつかはクラウドネイティブなデータウェアハウスではトレンドとなりつつあります)がこの10 年間でどのような進化を経て現在の BigQuery になったのかを、Seattle Report on Database Research というレポート内で述べられている主要な 5

                                                                              BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた
                                                                            • NVIDIA×滋賀大学、1000ページ超の機械学習教育用資料の日本語版を公開

                                                                              NVIDIAは9月8日、デジタルスキル育成プログラム「DLI(Deep Learning Institute)」より、「DLI データサイエンス教育キット」の日本語版の提供を開始したことを発表した。このキットは日本のデータサイエンス教育の普及を目的としており、滋賀大学と共同で翻訳を進めたとのこと。教育機関に所属する教員は無償でダウンロード可能。 DLI データサイエンス教育キットの英語版は、ジョージア工科大学およびプレイリー ビュー A&M 大学の研究チームがNVIDIAと共同開発した。キット内容には、講義用のスライドや演習課題、DLI オンライン トレーニングへのアクセス権、クラウドの GPU インスタンスのクレジットなどを含む。 この教材ではデータサイエンスのさまざまな領域の基礎と応用の学習が可能だとしており、データ収集、前処理、NVIDIA RAPIDSによるアクセラレーテッド デー

                                                                                NVIDIA×滋賀大学、1000ページ超の機械学習教育用資料の日本語版を公開
                                                                              • HBaseとKafkaによるデータパイプライン構築。LINE Messaging Platformにおける活用法

                                                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview」では、登壇者たちに発表内容をさらに深堀り、発表では触れられなかった関連の内容や裏話についてインタビューします。今回の対象セッションは「LINE Messaging Platform におけるHBaseとKafkaのデータパイプラインと活用例」です。 LINEでは、Messaging Platformのストレージミドルウェアの1つとしてApache HBase(以下、HBase)を使用しています。HBaseのレプリケーショ

                                                                                  HBaseとKafkaによるデータパイプライン構築。LINE Messaging Platformにおける活用法
                                                                                • Google Cloud を使用した、運用効率を高めコスト削減を実現する 11 のベスト プラクティス | Google Cloud 公式ブログ

                                                                                  Google Cloud を使用した、運用効率を高めコスト削減を実現する 11 のベスト プラクティス ※この投稿は米国時間 2020 年 7 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。 事業の今後の方向性を考えるとき、多くの企業でプロジェクトの取捨選択やリソースの割り当て方など、厳しい決断を余儀なくされています。新型コロナウイルス感染症(COVID-19)に対応するうちに、自社の IT 環境の利点が明確になった反面、限界に気づいてしまったという企業も少なくありません。こうした企業の多くは、今後の方向性を検討するうえで、限られたリソースを使って自社のビジネスが直面する新しい現実で求められるニーズにいかに対応していくかを考えなくてはいけません。 これが、特にレガシー インフラストラクチャに大きく依存する企業の IT 部門が、まさに今、直面している課題です。

                                                                                    Google Cloud を使用した、運用効率を高めコスト削減を実現する 11 のベスト プラクティス | Google Cloud 公式ブログ