hikaku_sanのブックマーク (478)

  • メルカリにおける機械学習による検索のリランキングへの道のり | メルカリエンジニアリング

    記事は2023年1月1日に公開された記事の翻訳版です。 メルカリのマーケットプレイスにおける商品検索は、お客さまが欲しい物を発見する最も基的な方法です。この中核となる機能は、テキストマッチングによる情報検索システムによって実現されています。 しかし最近、私たちは自問自答しました。お客さまの検索体験を向上させる、合理的な機械学習ベースのアプローチはあるのだろうか?という疑問が生まれました。メルカリアプリ上のお客さまの行動を、彼らにとってより関連性の高い検索結果についてのヒントとして捉えることはできないでしょうか?学習データにラベルを付け、単体のユーザークリックという行為をもとにした分析の限界を念頭に置きながら、モデルが学習するための、より情報量の多いコンテキストを構築できないでしょうか?ビジネスKPIとの関係を把握するために、どのようにデータラベリングを利用できるでしょうか? それは、

    メルカリにおける機械学習による検索のリランキングへの道のり | メルカリエンジニアリング
  • MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード

    MLOpsを体系的にまとめた論文「Machine Learning Operations (MLOps): Overview, Definition, and Architecture」を読んだので、要点をまとめました。 元論文:https://arxiv.org/abs/2205.02302 TL;DR 「MLOpsって何?」に答えた論文 MLOpsに関わる文献調査・ツール調査・専門家インタビューを行った MLOpsに必要な原理・要素・ロール・アーキテクチャをまとめた MLOpsの言葉の意味を定義した MLOpsの課題をまとめた 文要点 0 Abstract MLOpsは今だに漠然とした言葉であり、研究者と専門家間でMLOpsの定義が曖昧となっている。 論文では文献調査・ツール調査・専門家へのインタビューを行い、MLOpsを調査した。 調査から以下の結果を体系的にまとめた MLOps

    MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード
  • 【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ

    こんにちは。dcm_chidaです。 ドコモ開発者ブログ初投稿です。よろしくお願いします。 はじめに みなさん「NeurIPS」と言う国際会議名を聞いたことがあるでしょうか? 機械学習データ分析の分野では毎年たくさんの国際会議が開催されていますが、NeurIPSはその中でも歴史あるトップカンファレンスの一つです。世界中の研究機関や企業から最先端の論文が投稿されます。 NTTドコモR&DではKDDやNeurIPSといった国際会議の論文読み会を不定期に開催しております。「今年もNeurIPSの論文読み会やるかー」と思って、会議そのもの概要や最新の研究動向などを調べてみたので、ブログ記事にまとめようと思います。 論文そのものの解説記事ではないのでご注意ください。 1分で分かるNeurIPS2022の概要まとめ 会議名称 The Conference and Workshop on Neural

    【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ
  • 脱・人力アノテーション!自己教師あり学習による事前学習手法と自動運転への応用

    こんにちは、TURING株式会社(チューリング)でインターンをしている、東大大学院修士一年の舘野です。 TURINGは完全自動運転EVを開発しているベンチャー企業です。 完全自動運転を実現するには、車の周りの環境をセンシングし認識するシステムが不可欠です。センシングのためのセンサーは様々考えられますが、TURINGでは主にカメラを用いています。 自動運転AIにはカメラデータから信号機・標識・周囲の車、などの情報を読み取る必要がありますが、そのためにはそれぞれの目的に対応した学習が必要です。 一番単純な方法は、学習させる各動画フレームに対して人間が信号機・標識・周囲の車などの正解情報を付与し、AIモデルが動画を見て正解情報を予測できるようにすることです。下図は、画像から車を検出するモデルの例です。モデルの中身は画像の特徴量を抽出する部分と、分類を行う部分を分けて表現していますが、学習時は元デ

    脱・人力アノテーション!自己教師あり学習による事前学習手法と自動運転への応用
  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

    株式会社レアゾン・ホールディングス(社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日音声認識モデルおよび世界最大19,000時間の日語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日音声認識モデルおよび世界最大19,000時間の日語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

    超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
  • Query Understanding

    Search engines are so core to our digital experience that we take them for granted. Most of us cannot remember the web without Google to…

    Query Understanding
  • ZOZOTOWN検索の精度改善の取り組み紹介 - ZOZO TECH BLOG

    こんにちは。検索基盤部の山﨑です。検索基盤部では、検索基盤の速度改善やシステム改善だけではなく検索の精度改善にも力を入れて取り組んでいます。 検索システム改善についての過去の取り組み事例は、こちらのリンクをご参照ください。 techblog.zozo.com また、ZOZOTOWNの検索ではElasticsearchを活用しています。Elasticsearchに関する取り組み事例はこちらのリンクをご参照ください。 techblog.zozo.com 記事では、ZOZOTOWNで近年実施した検索の精度改善の取り組み事例を紹介します。 目次 目次 はじめに ZOZOTOWN検索の処理フロー ZOZOTOWN検索改善の方針について 商品のリランキングロジックについて 商品のリランキングロジックの概要 特徴量ロギングの導入について 今後のZOZOTOWN検索の展望 おわりに はじめに ZOZOT

    ZOZOTOWN検索の精度改善の取り組み紹介 - ZOZO TECH BLOG
  • 私が妄想している最強のデータ基盤2023

    新年になったので今年のやりたいことをまとめようと思いたち筆をとっています。単にやりたいこと書いてもただのポエムになってしまうので、私が今時点で妄想している最強のデータ基盤を描いて、その中でまだ触ったことのない技術を今年触っていこうという意気込みを最後に書こうと思います(意気込みだけにならないように頑張りたいです!) まだ触ったことないものもあるので妄想しているレベルです。 アーキテクチャ図 まず最初に結論から書いていきます。 なぜこのアーキテクチャが最強と思うのか データ基盤として機能を分けると以下の6つの領域に分かれると思っています(もう少し細かく分けることもできたりします。例えばDMBOKとかではホイール図で11の領域に分けたりしています) データ基盤の領域 主に関連するDMBOKの知識領域 主担当

    私が妄想している最強のデータ基盤2023
  • 並行・並列プログラミングと同期・排他制御とイミュータブル性の話〜その1「背景: クロック周波数の停滞とコア数の増加」 - Qiita

    大学の授業で講義資料を作ったので,Qiitaにも展開しておきます. 背景: クロック周波数の停滞とコア数の増加 コンピュータはクロック周波数に同期して計算をします.おおむね1秒間にクロック周波数の数で示されるだけの数の機械語命令を実行できると考えると良いです.たとえばクロック周波数が1GHzであれば,1GHz=1,000MHz=1,000,000(百万)kHz=1,000,000,000(10億)Hzですので,1秒間に1,000,000,000(10億)個の機械語命令を実行できるというような感じです.もちろんこれは概算です. いわゆるヘネパタ(J. L. Hennessy & D. A. Patterson: Computer Architecture: A Quantitative Approach, 6th edition. Morgan Kaufmann, 2017; 邦訳 中條・

    並行・並列プログラミングと同期・排他制御とイミュータブル性の話〜その1「背景: クロック周波数の停滞とコア数の増加」 - Qiita
  • TimescaleDB 雑感

    TimescaleDB を自社サービスに採用して 1 年以上過ぎたので振り返ってみます。 前提 著者は SQL に関して TimescaleDB を採用を決めたタイミングから勉強した初心者です Managed Service for TimescaleDB を採用しています まとめ TimescaleDB の利用で不満は今のところない sqlc との組み合わせは最高 開発会社が提供するマネージドサービスは最高 なぜ TimescaleDB を採用したのか 統計情報のため込みと集計 自社製品であるミドルウェアパッケージソフトウェアのクラウド版を提供するにあたり、何よりも重視したのは統計情報の提供です。それもサーバーの統計情報ではなく接続単位での接続情報を顧客に提供することです。 自社製品はリアルタイムに音声や映像を配信する製品ということもあり、一定間隔での統計情報の収集が重要になります。ネッ

    TimescaleDB 雑感
  • Engineers Shouldn’t Write ETL: A Guide to Building a High Functioning Data Science Department | Stitch Fix Technology – Multithreaded

    Engineers Shouldn’t Write ETL: A Guide to Building a High Functioning Data Science Department | Stitch Fix Technology – Multithreaded
  • Databases in 2022: A Year in Review // Blog // Andy Pavlo - Carnegie Mellon University

    Another year has gone by, and I’m still alive. As such, it is an excellent time to reflect on what happened in the world of databases last year. It was quiet in the streets as the benchmark wars between DBMS vendors have quieted down. I had fun writing last year’s retrospective, so I am excited to share with you the things that stand out from 2022 and my thoughts on them. Big Database Funding Has

  • ただのソフトウェアエンジニアが検索エンジニアになるまで - エムスリーテックブログ

    こちらはエムスリー Advent Calendar 2022 Advent Calendar 2022の延長戦31日目の記事です。 エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 検索エンジニアってどこで採用できるの? という話を至る所でよく聞きます。僕自身も、自ら検索エンジニアと名乗るエンジニアにほとんど出会ったことがありません。やはり、世の中の検索にまだ魅了されていないエンジニアを情報検索の世界に引き込むしかないので、今回は僕が情報検索にハマった経緯を紹介することで一人でも多くのエンジニアを情報検索の世界に引き込めればと思います。 情報検索との出会い 情報検索の探索 発展 まとめ 情報検索との出会い 僕が最初に情報検索に出会ったのは前職の白ヤギコーポレーションでした。そこではElasticse

    ただのソフトウェアエンジニアが検索エンジニアになるまで - エムスリーテックブログ
  • 検索体験を向上する Query Understanding とは | Recruit Tech Blog

    検索体験を向上する Query Understanding とは 記事は Recruit Engineers Advent Calendar 2019 – Adventar 25日目(最終日!)の記事です. はじめまして.リクルートテクノロジーズの河野 晋策です. 私は,Qassチームというリクルート横断の検索改善を行うチームにて検索改善を行っています. Qassチームは,検索基盤の運用や検索改善を行っているチームです. 詳しくは以下の記事をご覧ください. 「いい検索」を考える 検索組織の機械学習実行基盤 リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch+Hadoopベースの大規模検索基盤大解剖 Argoによる機械学習実行基盤の構築・運用からみえてきたこと (CNDT2019, OSDT2019) 記事の想定読者:検索初学者の方

    検索体験を向上する Query Understanding とは | Recruit Tech Blog
  • FAT32ファイルシステム読解

    1. はじめに FAT32 ファイルシステムを実装する必要があった (趣味) ため、記事では FAT ファイルシステム (メインはFAT32) の仕様を出来るだけ分かり易くまとめました。 なぜ FAT32 なのか? 全てのOS (Windows, Linux, MacOS) や Raspberry Pi4 のブート用ファイルシステムでもサポートされおり、非常に使い勝手が良い 少なくともファイルのリード操作だけに限定した場合に実装がとても簡単で、Raspberry Pi4 のデバイスで SD カード上のファイルにリードアクセスする場合に便利 ただし、FAT は暗号系の機能がサポートされていなかったりするので、実際の組み込み機器の Linux 系で利用するファイルシステムだと Ext2/Ext3/Ext4 など他のファイルシステムの利用が多いとは思います。 2. FATファイルシステム概要

    FAT32ファイルシステム読解
  • 情報検索・検索技術 Advent Calendar 2022 - Adventar

    検索に関わることならなんでもOKです! 検索エンジンのアルゴリズムや実装 検索システムの構築・運用・評価 形態素解析・分かち書きなどの自然言語処理 (NLP) 技術 検索に関する UI/UX 地理検索、画像検索、情報推薦など Lucene, Elasticsearch, Solr など検索エンジンOSS 今年も作成してみました! 2021年のアドベントカレンダーはこちら

    情報検索・検索技術 Advent Calendar 2022 - Adventar
  • ヒープについてわかりやすく解説してみた – Yasufumi Taniguchi – Medium

    的なデータ構造であるヒープについて、概要、計算量と実装、そして最もシンプルな応用であるヒープソートを紹介します。MITが講義や資料を公開しているMIT OpenCourseWareのアルゴリズムとデータ構造の講義 が非常にわかりやすかったので、その内容に沿ってまとめました。この記事ではHeaps and Heap Sortの内容を以下の順序で解説します。 ヒープの概要ヒープの表現ヒープの構築ヒープの計算量ヒープの実装ヒープソート1. ヒープの概要ヒープ (heap) は優先度付きキュー (priority queue) の実装の1つです。優先度付きキューは集合 (set) を扱うデータ型で、集合に含まれる要素が何らかの優先度 (priority) 順に取り出されるという特徴を持っています。学会のポスター発表を回るときや、旅行先での観光地巡りでは、優先度に基づいて要素を取り出すことが重要

    ヒープについてわかりやすく解説してみた – Yasufumi Taniguchi – Medium
  • ラズパイでNFCを使う——Raspberry Pi Pico Wで動くRFID/NFCリーダー「ReadPi」|fabcross

    Raspberry Pi Pico Wで動くRFID/NFCリーダー「ReadPi」がKickstarterに登場し、人気を集めている。目標金額の調達に成功し、2種類のUHF帯RFIDリーダーのアドオンをアンロックしている。 ReadPiは、Raspberry Pi Pico Wを搭載することでタグの読み書きが可能になるRFID/NFCリーダー。周波数125KHz帯のRFIDタグに対応し、読み取り専用の「ReadPi」と、周波数13.56MHz帯のNFCタグに対応し、読み取りと書き込みが可能な「ReadPi NFC」を用意する。 ReadPiとReadPi NFCは、1.3インチのLCDディスプレイ、ジョイスティック、ブザー、バッテリー入力、SDカードスロット、Micro USB、拡張GPIOピン、UARTを備える。動作電圧は4.5~5.5Vで、消費電力は50mA。通信距離はReadPiが

    ラズパイでNFCを使う——Raspberry Pi Pico Wで動くRFID/NFCリーダー「ReadPi」|fabcross
  • キャッシュアルゴリズムの比較 - falsandtruのメモ帳

    アプリケーションなどOSより上に作られる高水準のプログラムではハードウェアの速度と容量を考慮しない数学的キャッシュアルゴリズムが使われ主にこれを稿の対象とする。キー探索用マップと明示的キャッシュサイズ(対となる値が保持されているキーのサイズ)は計算量に含まれない。 LRU 最も単純かつ高性能な基礎的キャッシュアルゴリズム。そのため性能比較のベースラインとして常に使用される。逆に言えば実用最低水準の性能である。スキャン耐性皆無でスキャン一発でキャッシュとヒット率がリセットされゼロからやり直しになるため非常に脆く不確実な性能となりベンチマークにおける性能が表面上さほど悪くなく見えても実際の性能はこのような外乱により大きく低下しやすい。このためLRUより高度な主要アルゴリズムはすべて大なり小なりスキャン耐性を備えている。ちなみにプログラミング言語最大のパッケージマネージャであるJavaScri

    キャッシュアルゴリズムの比較 - falsandtruのメモ帳
  • 言語処理APIのインターフェースを共通化、その背景とメリット

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフーで自然言語処理の研究開発をしている颯々野です。ヤフーでは、Yahoo!デベロッパーネットワークでテキスト解析Web APIを公開・提供しています。まず社内向けAPI、次いでこの公開APIと段階的に新インターフェースに移行し、2022年12月からは全てJSON-RPC 2.0に基づくものになりました。 2年前に言語処理APIのインターフェーズ共通化プロジェクト「Azuki」を進めていることを紹介しました。今回は、このプロジェクトがどうなったのかと、共通化によって得られたメリットなどをご紹介します。 インターフェース共通化を推進するプロジェクト「Azuki」 まず簡単にどんなものだったか振り返っておきます。詳細は前回

    言語処理APIのインターフェースを共通化、その背景とメリット