エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 技術書典11のサポーターをしているエムスリー ですが、今回有志で新刊を携えて参戦します。近年ホットなRustや機械学習、k8s、検索、ハイパーカジュアルゲームといったワードで、今回も多様な分野・技術について弊社スタッフが執筆いたしました。 新刊のエムスリー テックブック#3 表紙 購入はこちらから techbookfest.org 今回もギークな内容盛りだくさんでお送りします。今回の記事では皆さんに新刊を手に取ってもらえるように、各章がどんな内容になっているのかを紹介します。 技術書典とは 第1章 検索タスク抽出問題とその解き方 第2章: Krustlet on Raspberry Pi 入門 第3章: ハイパーカジュアルゲーム開発超入門 第4章: R
AI・機械学習チームで2021年新卒の氏家です。 この記事はエムスリーAdvent Calendar 2021の23日目の記事です。 最近チームでスタンディング&ステッパーが流行っているのでその流れに乗ろうと試みましたが、スタンディングの時点で挫折してしまいました。 さて、今回のテーマは自然言語処理です! AI・機械学習チームでは普段から自然言語処理をはじめとした機械学習を用いてプロダクトの開発・運用を行っています。 しかし、業務にあまり関係ない技術で遊びたい気持ちがあるのもまた事実。 そこで今回は、キーフレーズ抽出と呼ばれる技術に着目して、弊社に関連するデータに適用して遊んでみたいと思います。 キーフレーズ抽出とは 使用した手法 いざキーフレーズを抽出 テックブログ AskDoctors キーフレーズを使った応用 まとめ We are hiring! キーフレーズ抽出とは キーフレーズ抽
これは エムスリー Advent Calendar 2020 の15日目の記事です。 前日は id:Hi_king による、臨床AIはなにができ、何が難しいか: 臨床AI研究開発の3類型 でした。 エムスリーエンジニアリンググループ AI・機械学習チームの笹川です。 趣味はバスケと、筋トレで、このところはNBAのプレシーズンが始まってワクワクしているところです。 今回は、弊社のデータ基盤であるBigQueryへのデータ連携の監視のための便利ツールである tblmonit を開発したので、紹介したいと思います。 github.com 寒くなってきて、ブランケットにくるまって鼻だけ出してる犬氏(かわいい) エムスリーのBigQueryの概要 テーブルの更新時間の監視 テーブルメタデータ監視ツール tblmonit おまけ まとめ We are hiring! エムスリーのBigQueryの概要
こんにちは、エムスリーエンジニアリンググループ/AI・機械学習チームの大垣 (@Hi_king) です。 これは エムスリー Advent Calendar 2020 の14日目の記事です。 前日は id:juntaki による、Goのchannelとスケジューリングでした。 私達AI・機械学習チームの挑戦している課題としては、MLによるサービス体験の向上、MLを中心とする新規サービスなど諸々あるのですが、 今日は、なかでも、臨床現場で利用するためのAI開発について書いてみようと思います。 上記のスライドはこのテーマで45分ほど社内勉強会を行うために作ったもので、 このなかから、エッセンスをかいつまんでブログ記事にしてみました。 記事中で紹介しきれなかったそれぞれの研究などはスライドをあらためて眺めていただけると幸いです。 私自身は、もともとコンピュータビジョン分野が専門で、医療分野に本格
エムスリーエンジニアリンググループ AI・機械学習チームの浮田です。 先日の画像の認識・理解シンポジウム (通称MIRU) にエムスリーのAI・機械学習チームから4名参加してきました。 MIRUとは Can Vision Transformers Learn without Natural Images? 推しポイント Part-based Analysis to Understand Font Impression 推しポイント 自己教師あり学習による映像とステレオ音の意味的および空間的対応関係の獲得 推しポイント iMADAO: 画像事例に応じだデータ拡張戦略の設計手法 推しポイント まとめ We are hiring! MIRUとは コンピュータビジョン (CV) の領域で国内最大級の会議で、正式名称はMeeting on Image Recognition and Understa
エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。最近、ユーザーの検索体験の向上のために、以下の検索評価に関する本を読んでいました。 情報アクセス評価方法論 作者:酒井 哲也発売日: 2015/05/19メディア: 単行本 そこで今回は検索評価指標の1つであるsDCG (session-based Discounted Cumulative Gain)を使ってエムスリーの検索ログから体験の悪かった検索を抽出してみたのでその方法を紹介します。 現状の検索監視 現状の検索監視の問題 nDCG sDCG 線形横断 最下位クリックにおける検索結果の破棄 クリック=適合文書 nsDCGを実際の検索ログに使ってみる sDCGを使って感じたこと まとめ We're hiring !!! Reference 現
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。情報検索系の話が好物です。 今回はネット上に公開されている医療用語辞書を検索特化させるために統計的複合語分割を試したお話です。 医療用語辞書を検索で使う際の問題 辞書の複合語分割問題 辞書による複合語分割の指定 分割単位をどのように決めるか問題 対数尤度比を使った複合語分割 対数尤度比とは 医療用語辞書を対数尤度比で複合語分割しない単語を抽出 クエリログも含めたLLR まとめ We're hiring !!! 医療用語辞書を検索で使う際の問題 辞書の複合語分割問題 現在公開されている医療用語辞書には様々なものがあります。例えばComeJisyoは形態素解析での用途を想定した医療用語辞書です。しかし、これをそのまま検索用の辞書として利用すると、辞書に登録さ
クエリに対する関連キーワード機能 エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近の仕事で医師に質問ができるサービスで「Elasticsearchを使ってなるべく低コストで関連キーワード機能を実装する」という案件に携わっていました。本記事では関連キーワード機能を低コストで実装するための技術調査の結果と、実際に採用した方法をご紹介します。 今回紹介する方法は機械学習などは使わず、なるべく低コストである程度の品質を目指すものです。この記事を読むことで検索アプリケーションにサクッと関連キーワード機能を実装できるようになるでしょう。 Overview 検索における関連キーワード機能とは 実装の前提条件 実装パターンの紹介 (1) ログで出現した単語を数えあげる (2) ログに対
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー
こんにちは。エンジニアリンググループ AI・機械学習チームの大垣です。 これは エムスリー Advent Calendar 2019 の10日目の記事です。 前日は id:sora_sakaki による、量子ゲームを開発した話でした。 さて、この記事ではデータエンジニアの皆さんが戦われているであろうログデータの活用の話をします。 もちろんエムスリーでもレコメンドやコンテンツの出し分けなどログデータを活用したシステムが開発されています。 ここでは、そのログに加えて、アンケートを用いることで、解釈しやすいユーザーの嗜好分類を行う話をします。 なおこの内容は本日の Machine Learning Night というイベントで簡単に紹介し、スライドも公開する予定です。ご興味のある方はそちらも是非ご覧ください。 webサービスでの行動ログとアンケートの結果を紐づけて予測モデルを作る。アンケート非回
はじめまして。エムスリーエンジニアリングG AI・機械学習チーム所属の田中といいます。本ブログ初投稿です。今回は自分が関わっている、Gaussと呼ばれる、記事へのタグ付けシステムに利用する機械学習モデルにおいて一定の精度改善ができたので、ご紹介させてもらおうかと思います。写真はここ最近食べた中で一番美味しかった焼肉ランチの写真です。麻布十番の商店街にある、おくむらというお店で食べました。 本文とは一切の関係がない牛タンと牛ハラミと牛カルビの画像 Gauss概要 機械学習におけるタグ付けの難しさ モデル概要 キーワードマッチングによる擬似タグ付け 特徴変換 特徴抽出とコンテンツ抽出 半教師あり学習(Label Spreading) 結果 課題 We are hiring! Gauss概要 Gaussの概要について説明します。本ブログでもインターンの方が過去に改善の紹介をしてくださっているため
この記事はエムスリーAdvent Calendar 2020 20日目の記事です。 エンジニアリンググループ AI・機械学習チームの李です。弊社では記事に対して疾患薬剤などのタグを付与するシステムGaussと、記事についたタグとユーザーのPV情報を利用してユーザーに興味のあるタグを紐づけるシステムMaxwellが存在します。Maxwellで使う特徴量を増やしたいというモチベーションがあるのですが、1つ考えられるのは記事についたタグに対して感情分析の結果を追加で利用することです。そこで、感情分析タスクをBERTで解く論文「Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence」 (Sun et al., 2019) を弊社のサービスで提供される医療記事に適用してみました。 各
こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基
エムスリーの決算発表資料からここがすごいと思った箇所をかなり簡単ですがピックアップします。 まず前提として、 時価総額2.5兆円は東証一部時価総額トップ50位(5/15終値ベースで47位)で、これは当然日本のネット系トップ。YJ(ヤフージャパン:Zホールディングス、2兆円)や楽天より上です。 この規模になると個人の売買で株価が動くレベルではないので機関投資家がプロとして売買して形成されている株価であり、その機関投資家向けのメッセージ、エクイティストーリーがこの資料。ということで、同じく上場会社のIR管掌として日々IR戦略を考え投資家対応している角度から、注目しています。 その目線で読んでいきますが、 連結業績 売上高 130,973百万円 前年比+16% 営業利益 34,337百万円 前年比 +11%コロナ禍で余計に目立つ好業績ですが、とはいえこの成長速度だけなら時価総額2.5兆円、PER
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く