ブックマーク / www.m3tech.blog (5)

  • Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ

    この記事はエムスリー Advent Calendar 2022の30日目の記事です。 前日は id:kijuky による チームメンバーのGoogleカレンダーの休暇予定一覧をスプレッドシート+GASで作った でした。 AI機械学習チームの北川(@kitagry)です。 今回はMySQLへのインサートを20倍以上高速化した話について書きます。 仕事をちゃんとしてるか見張る TL; DR はじめに 今回のテーブル バイナリログを無効化する 追試 LOAD DATA INFILE 追試 テーブルの正規化 インデックスを一時的に剥がす まとめ We are hiring!! TL; DR バイナリログをオフにする LOAD DATA INFILEを使う インデックスを一時的に消す はじめに AI機械学習チームではサイトトップからアプリに至るまで多くの推薦システムがあります。 そこでは推薦ロ

    Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ
  • 記事へのタグ付けシステム"Gauss"の精度改善取り組み - エムスリーテックブログ

    はじめまして。エムスリーエンジニアリングG AI機械学習チーム所属の田中といいます。ブログ初投稿です。今回は自分が関わっている、Gaussと呼ばれる、記事へのタグ付けシステムに利用する機械学習モデルにおいて一定の精度改善ができたので、ご紹介させてもらおうかと思います。写真はここ最近べた中で一番美味しかった焼肉ランチの写真です。麻布十番の商店街にある、おくむらというお店でべました。 文とは一切の関係がない牛タンと牛ハラミと牛カルビの画像 Gauss概要 機械学習におけるタグ付けの難しさ モデル概要 キーワードマッチングによる擬似タグ付け 特徴変換 特徴抽出とコンテンツ抽出 半教師あり学習(Label Spreading) 結果 課題 We are hiring! Gauss概要 Gaussの概要について説明します。ブログでもインターンの方が過去に改善の紹介をしてくださっているため

    記事へのタグ付けシステム"Gauss"の精度改善取り組み - エムスリーテックブログ
  • SpringBootのdockerイメージを必要最小限に絞りたい(2019年9月版) - エムスリーテックブログ

    こんにちは、エムスリーエンジニアリンググループの福林 (@fukubaya) です。 先日の中村の記事で宣言してしまったので、 今回は「医師版Stack Overflow」(仮名) のSpringBootのdockerイメージを 必要最小限にまで小さくする際に試したことをまとめました。 なお、ちょっと検索すると先人の記事が色々出てきますが、 当時はまだなかったdockerイメージや、JDKの機能の違いにより、今ではちょっと古い部分もあります。 今回の記事も、半年もしないうちに古くなると思うので、2019年9月時点での方法だと思って読んでいただけると幸いです。 メットライフドームは埼玉県所沢市にあるドーム球場。文には特に関係ありません。 小さいdockerイメージのメリット イメージのサイズを小さくしたいと書きましたが、 そもそも、そのメリットをネットで調べてみてもあまり明確な答えは見つか

    SpringBootのdockerイメージを必要最小限に絞りたい(2019年9月版) - エムスリーテックブログ
  • APIのコードを自動生成させたいだけならgRPCでなくてもよくない? - エムスリーテックブログ

    こんにちは、エンジニアリンググループの福林 (@fukubaya) です。 先月から、今年の秋くらいにリリース予定の新サービスの設計、開発を始めました。 せっかく新しく始めるサービスなので、まだ経験したことがない言語やフレームワーク、技術を使わないと楽しくありません。 そこで、バックエンドにGoにして、フロントのAPIまで含めてgRPCの .proto ファイルで定義を一元化し、APIコードは protoc で生成させる計画を立てていたのですが、 フロントでgRPCとなると、 gRPC-web か grpc-gateway になるが、リリースまでに使える期間では認証も含めると検証が間に合わなさそう Goだけでなく、terraform(インフラ設計もやります) も Vue.jsも今回が初めて、というメンバーもおり、さらにRESTではなくgRPCも、となると未経験技術が多すぎてキャッチアップが

    APIのコードを自動生成させたいだけならgRPCでなくてもよくない? - エムスリーテックブログ
    shogo_okamoto
    shogo_okamoto 2019/08/15
    わかりやすい
  • 医療用語に注目した文書の類似度計算(SCDV+XGBoost) - エムスリーテックブログ

    はじめに エンジニアリングGの西場(@m_nishiba)です。 エムスリー Advent Calendar 2018に参加しています。 文書間の類似度計算をしたい。 エムスリーでは20以上のサービスを展開しています。各サービスごとにコンテンツのフォーマットが大きく異なるのですが、横断して類似するコンテンツを表示したいというニーズがあります。 例えば、下記の3つの文書があるとします。 例1 糖尿病患者に実践してほしい ○○○○○ ・演者:〇〇先生(大阪府立大学 地域保健学域) 【ライブ放送】 18:00〜18:40(17:30サイトオープン) ※ライブのみの1回限りの講演会です。 例2 喘息患者に実践してほしい ○○○○○ ・演者:〇〇先生(名古屋大学 地域保健学域) 【ライブ放送】 18:00〜18:40(17:30サイトオープン) ※ライブのみの1回限りの講演会です。 例3 糖尿病は、

    医療用語に注目した文書の類似度計算(SCDV+XGBoost) - エムスリーテックブログ
  • 1