タグ

ブックマーク / techblog.yahoo.co.jp (12)

  • ヤフートップページの裏側:記事推薦システムの試行錯誤と今後の挑戦

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo! JAPANアプリのトップページの上部には、編集者によってピックアップされた「トピックス」と呼ばれるトップニュースが6並んでいます。編集者が選定した質の高い記事を提供していますが、必ずしも各ユーザーの興味に適した記事が表示されているとは限りません。そのため、スクロールすると、記事推薦システムによって各ユーザーの好みを考慮した記事が自動で表示される仕組みになっています。 ニュース記事の推薦で特に重要なのは「即時性」です。ニュース記事では、情報が更新されると古い記事は役に立ちません。そのため、入稿された記事がいち早く推薦対象になることが重要になります。 たとえば、事前にユーザーごとの推薦記事一覧(レコメンドリスト)を作成

    ヤフートップページの裏側:記事推薦システムの試行錯誤と今後の挑戦
    nminoru
    nminoru 2023/02/28
  • 不揮発性メモリに最適化したMySQLの高可用性構成

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog みなさん、こんにちは! ヤフーでデータベースエンジニアをしている松浦です。 以前、不揮発性メモリに最適化したMySQLのストレージエンジン開発についてのブログ記事を執筆いたしました。 今回のブログ記事は、その続報です。不揮発性メモリ上のデータベースにおける、高可用性構成やその監視・運用に関わる研究開発成果をご紹介します。 前回記事の振り返り さて、題に入る前に、まずは、前回のブログ記事の簡単な振り返りをさせてください。 前回のブログ記事では、DRAMのようにバイト単位でアクセスが可能だが、DRAMとは異なり、サーバの電源遮断後もデータが残り続け、また、NVMe SSDよりも高速な記憶デバイスである「不揮発性メモリ」の紹介をしまし

    不揮発性メモリに最適化したMySQLの高可用性構成
    nminoru
    nminoru 2022/03/12
  • Scalaで使うMessage Queue 〜 Yahoo! JAPANアプリのお知らせ送信でのApache Pulsarの活用

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo! JAPANエンジニアの福盛です。Yahoo! JAPANアプリの通知系バックエンドシステムを主に担当しています。 今回は、Apache Pulsarを使ったMessage Queue(以下、MQ)システムが実際のアプリケーションバックエンドでどのように活用されているかの例をご紹介したいと思います。 Apache PulsarについてはYahoo! JAPAN Tech Blogの記事「メッセージングPF「Apache Pulsar」の使い方(入門編)」でも紹介されています。こちらもぜひご参照ください。 通知システムでのApache Pulsarの活用 Yahoo! JAPANアプリ通知システムの全体像 Yahoo!

    Scalaで使うMessage Queue 〜 Yahoo! JAPANアプリのお知らせ送信でのApache Pulsarの活用
  • Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯の鯵坂(@ajis_ka)です。記事では、Apache Hadoopで次にリリースされるマイナーバージョンである3.3.0で追加される新機能について紹介します。記事では、特にHadoop CommonとHDFS(Hadoop Distributed FileSystem)の新機能を重点的に紹介しつつ、それらの機能に対するヤフーの貢献についても触れていきます。 Hadoop 3.3.0 概要 Hadoop 3.3.0はおそらく2019年の年末までにリリースされる予定で、この記事を執筆している10月23日時点ですでに1500件以上の修正が入っています(Hadoop 3.2.0は1089件)。つまり、

    Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介
  • 不揮発性メモリでのデータベース処理最適化 〜 ヤフーにおけるデータベース技術の研究開発

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは! ヤフーでデータベースエンジニアをしている松浦です。 インターネットサービスを作る上で、そのデータの保持・管理を担うデータベースは重要なソフトウエアコンポーネントですが、今回のTech Blogでは、ヤフーにおけるデータベース技術の研究開発についてのお話をします。 ヤフー社内では、さまざまなデータベースを運用していますが、そのデータベースを最新のハードウエアに対応させる研究開発を行っています。 具体的には、不揮発性メモリを有効に活用するMySQLのストレージエンジン「Leo」の開発に取り組んでいます。 日は、Leoについて簡単にご紹介をします。 不揮発性メモリとは? まず、前段として、Leoのお話をする前に、不揮発性

    不揮発性メモリでのデータベース処理最適化 〜 ヤフーにおけるデータベース技術の研究開発
  • 圧縮効率のよいカラムナフォーマット 〜 Yosegi や ORC のエンコード方式調査

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 初めまして、2019年8月にヤフーのデータプラットフォームチームのインターンシップに参加した山添です。今回はインターンで検証を行ったカラムナフォーマットにおけるエンコーディング方式について紹介します。ブログでは、特に数値型のエンコーディング方式について、データ圧縮率への効用を確認します。 カラムナフォーマットとは 昨今のデータ社会では、ログデータや購買データ、位置情報データなどさまざまなデータがものすごいスピードで生み出されています。企業ではそのような大規模なデータを蓄えておく必要があります。 私たち学生の間で最も親しみのあるファイルフォーマットは、JSON や CSV などのテキストフォーマットだと思います。これらのフォーマッ

    圧縮効率のよいカラムナフォーマット 〜 Yosegi や ORC のエンコード方式調査
  • データ可視化はどんなツールや手法がいい? Bonfire Data Analyst #2 イベントレポート

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo!ショッピングエンジニアの木村です。 8月29日(木)に弊社のオープンコラボレーションスペース LODGE で開催された Bonfire Data Analyst #2 の様子を振り返ります。 Bonfire Data Analyst はデータ分析を専門的に行っている人だけでなく、分析基盤を支えるエンジニアやデータを見ながらビジネスを成長させるビジネス層からの関心が高く、今回も会場いっぱいの参加者に来ていただきました。 今回のテーマはデータの可視化です! 創業2年目スタートアップ エンジニア組織 可視化のカンファレンス「EuroVis」 の3つのテーマで講演が行われました。 「ベンチャーから始めるデータの可視化」 吉田

    データ可視化はどんなツールや手法がいい? Bonfire Data Analyst #2 イベントレポート
    nminoru
    nminoru 2019/09/19
  • Apache IgniteとApache Sparkの統合による大規模データ処理における機能拡張や処理能力の向上

    Apache Igniteは、Apache Sparkと同様にインメモリ技術を活用した高耐障害性分散データ処理プラットフォームです。 しかし、Apache Sparkは非トランザクション(バッチ)的な分析を処理の対象をしている一方、Apache Igniteはリアルタイム処理に優れ、非トランザクションとACIDトランザクション的な処理を両方サポートします。 この2つのプラットフォームを組み合わせて使うことには大きなメリットがあり、2つの統合のための機能がApache Igniteには早期開発段階から導入されました。 稿では、Apache Ignite + Apache Sparkの統合はどういう風に実現されたか、既にSparkを使ってデータ処理を行うシステムへIgnite導入のメリットについて説明します。 はじめに Apache Ignite(以下、Ignite)は、メモリを中心に据えた

    Apache IgniteとApache Sparkの統合による大規模データ処理における機能拡張や処理能力の向上
  • The open big data serving engine:VESPAの紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。メディアカンパニープラットフォーム開発部サーチテクノロジー部の朴と申します。 2017年9月にOath(Verizon社で、Yahoo, AOL等50以上のテクノロジーとメディアを運営する子会社)からVESPAがOSSとして公開されました。VESPAは検索エンジンを代表とした大規模なデータをハイトラフィック状況下で高速に配信できるビッグデータサービングエンジンです。実はYahoo! JAPANでもメディア、コマース、広告を中心とした多くの検索システムでVESPAを長年採用しており、この度Apache License 2.0のOSSとして公開されました。 Yahoo! JAPANでの利用事例 VESPAを利用

    The open big data serving engine:VESPAの紹介
    nminoru
    nminoru 2018/08/23
  • ヤフーの分散オブジェクトストレージ Dragon について

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、データ&サイエンスソリューション統括部所属の後藤泰陽(@ono_matope)です。少し時間があいてしまいましたが、9月19日にお茶の水女子大学で開催された WebDB Forum 2017 において、分散オブジェクトストレージ “Dragon” について講演しました。良い機会なので、エントリでもDragonについてご紹介させていただきたいと思います。 発表資料 WebDB Forumでの発表資料については以下をご覧ください(講演時の内容と一部異なります)。 日語版 Dragonとは? Dragonは、ヤフー・ジャパンで開発された分散オブジェクトストレージシステムです。Amazon S3互換のWeb APIを実装

    ヤフーの分散オブジェクトストレージ Dragon について
  • 分散システム処理モデルに関する動向について(MapReduceからBorgまで)

    詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。 純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま

    分散システム処理モデルに関する動向について(MapReduceからBorgまで)
    nminoru
    nminoru 2015/06/10
  • FlashCacheでI/Oのボトルネックを解消させよう

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに 皆様こんにちは。ストレージアーキテクトの矢澤祐司です。 Yahoo! JAPANにて利用されているマルチペタバイトなストレージ達と仲良く過ごしている私なのですが、今回はFlashCacheを用いたI/Oの最適化について検証した結果の一部を皆様にご紹介させていただきます。 FlashCacheとは SSD製品が安価に調達できるようになった昨今であっても大容量なストレージを構築する際はHDDに頼らざるを得ず、さすがにフルSSDで大容量なストレージを構築してしまうとコスト過多で現実的ではないと判断される方が大半かと思います。確かにSSDを利用することによってI/O性能が課題だったシステムを改善された事例はたくさんあるものの、大

    FlashCacheでI/Oのボトルネックを解消させよう
  • 1