タグ

ブックマーク / buildersbox.corp-sansan.com (15)

  • ベイジアン操作変数法でA/Bテストをしよう - Sansan Tech Blog

    こんにちは。4月に24新卒として入社しました、技術部 研究開発部の金髙です。大学院では政治学の研究をしていました。 記事では、筆者が2024年2月から約1カ月間の内定者インターン時代に取り組んだ内容の一部である「ベイジアン操作変数法を用いたA/Bテスト」について紹介します。 背景 なぜA/Bテストで操作変数法なのか? Encouragement design One-sided Noncompliance なぜA/Bテストでベイズなのか? ベイジアン操作変数法 データ生成過程 事後分布 LATEの事後分布推定 シミュレーションしてみる おわりに References 背景 筆者が現在所属している研究開発部のチームでは、データドリブンな意思決定やデータ活用促進を目標に掲げています。その一環として、A/Bテストを積極的に行っており、筆者は中でも「Sansanモバイルアプリ内訴求」に関するA

    ベイジアン操作変数法でA/Bテストをしよう - Sansan Tech Blog
  • 自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog

    はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スクラッチでコンテナイメージを作成する方法 まとめ 学習ジョブの実行 学習結果の確認 終わりに はじめに こんにちは、研究開発部の石井です。 エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。 名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精

    自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
    misshiki
    misshiki 2023/03/06
    “SageMaker Training の導入によって必要なときに必要なだけのリソースを確保しながら学習を実行できる環境を整えることができ”
  • BERTopic で文書のクラスタリングを試す - Sansan Tech Blog

    こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次 目次 BERTopic とは 文書の埋め込み 文書のクラスタリング トピック表現 手法の概要まとめ BERTopic を試してみる インストール モデルのロード クラスタリングの実行 結果の確認 トピックごとの単語の重要度 トピックごとの文書を眺めてみる 次元削減手法・クラスタリング手法の変更 使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。 トピックモデルは、文書集合から「トピック」は何が含まれ

    BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
    misshiki
    misshiki 2023/02/21
    “BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと”
  • 【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog

    研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配信システムがどのように実現されているか、またその中で研究開発部のどのような技術が利用されているかについて紹介したいと思います。 ニュースの種類 現在、SansanやEightでは以下のようなニュースを配信しています。 人事異動情報 社内の共通人脈の通知 企業の最新ニュース 同業他社の最新動向 ニュースフィード 企業の最新ニュース ニュース配信のための自然言語処理技術 質の高いビジネスニュースを配信するために、以下のような研究開発部の自然言語処理技術が利用されています。 固有表現抽出 ジャンル判定 プ

    【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog
    misshiki
    misshiki 2022/12/23
    “固有表現抽出 ジャンル判定 プレスリリース判定 重複記事判定 記事言語判定”
  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
  • 【Techの道も一歩から】第41回「SageMakerでStep Functionsを使った学習パイプラインを構築するために概念を理解する」 - Sansan Tech Blog

    こんにちは。 DSOC R&D グループの高橋寛治です。 最近は、MLOpsへの興味が大きく、ツールの実利用や勉強会での発表を行っています。 機械学習プロジェクトにおいて、久々の実行や引き継いだコードの実行の際に、順序や実行環境を思い出したり準備したりしながら確認するのはすごく大変です。 コンテナ化された上でパイプラインがあると、実行順序も実行環境も覚えたり記録したりする必要がなくなります。 コンテナとパイプラインを組み合わせて利用するAmazon SageMakerを利用し、学習パイプラインを構築してみました。 その概要とAmazon SageMakerを利用したパイプラインを構築する上で押さえておくべきだと思う概念を簡単に紹介します。 SageMakerによるパイプライン構築の概要 AWS Step Functions Data Science SDK for Amazon SageM

    【Techの道も一歩から】第41回「SageMakerでStep Functionsを使った学習パイプラインを構築するために概念を理解する」 - Sansan Tech Blog
    misshiki
    misshiki 2021/09/06
    “コンテナとパイプラインを組み合わせて利用するAmazon SageMakerを利用し、学習パイプラインを構築してみました。 その概要とSageMakerを利用したパイプラインを構築する上で押さえておくべきだと思う概念を簡単に紹介”
  • 書評:『施策デザインのための機械学習入門』 - Sansan Tech Blog

    こんにちは. DSOC 研究開発部の黒木裕鷹です. なんと,思いつきで始めたランニングが続いており,最初の1ヶ月は65kmほど走っていたようです! やはり,ばっちり形から入りかっこいいシューズとウェアを用意したのが効いたようです. フルマラソン目指して頑張りたいと思います🏃 さて,先日株式会社ホクソエムの高柳さんより,監修されたをご恵贈いただきました! ありがとうございます!!! いつもはネットワークの分析手法にまつわる連載をしていましたが,せっかくですので,今回は書籍のレビュー・紹介をしたいと思います. gihyo.jp 紹介・どんなか 1章:機械学習実践のためのフレームワーク 2章:機械学習実践のための基礎技術 3章:Explicit Feedback を用いた推薦システムの構築の実践 4章:Implicit Feedback を用いたランキングシステム構築の実践 5章:因果効果

    書評:『施策デザインのための機械学習入門』 - Sansan Tech Blog
    misshiki
    misshiki 2021/08/25
    “ビジネスの現場に身を置く,一通りの分析業務に覚えのあるデータサイエンティスト・機械学習エンジニアが読むと非常に効果的”
  • 【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」 - Sansan Tech Blog

    こんにちは. DSOC 研究開発部の黒木裕鷹です. 夏の訪れを感じつつある最近ですが,ランニングをはじめました. 形から入ろうと思い,かっちょいいシューズとウェアを揃えたのですが,なんとか1週間は続いており気分が良いです. まだまだ2, 30分走るだけでバテバテになってしまいますが,いずれは健康大魔神になろうと思っています. さて,この連載では,自分の勉強・復習も兼ねて,ネットワークデータにまつわる(統計)解析を気の向くままに紹介しています. 前回の記事では,グラフラプラシアン・グラフフーリエ変換について簡単におさらいしました. あまり理論やモデルの紹介ばかりが続いても面白くないので,今回の記事ではビジネス応用の事例紹介をしたいと思います. 具体的には,Uber における GNN の適用事例を2つほど取り上げることにしました. 私たちの生活にもすっかり浸透した Uber や UberEat

    【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」 - Sansan Tech Blog
    misshiki
    misshiki 2021/07/19
    “Uber における GNN の適用事例を2つほど取り上げ”
  • 歴史をたどってディープラーニングを学ぶ 第十六回 これまでのまとめと、なぜ私はディープラーニングをつくれなかったか - Sansan Tech Blog

    こんにちは、ニューラルネット老人こと糟谷勇児です。 Sansanに入社して5年が過ぎました。そういえば前職にいたときに隣の部署のマネージャーとこんな会話をしたことがありました。 「なんで学生時代(2004年当時)にニューラルネットの研究をしていたのに、私はディープラーニングをつくれなかったんですかね」 マネージャーの方は「当時はコンピューターの性能も低くて今みたいな計算ができないのは仕方ないんじゃないかな」 と返してくれましたが、どうにも腑に落ちませんでした。 当時だってスーパーコンピューターは性能が良かったですし、最先端のデスクトップPCと今の私のノートPCは互角とまでは言わないものの、10分の1、100分の1という性能ではないはずです。 当時もスペック上はアイデアがあればできたはずなのです。 負け惜しみにすぎないのですが、これまでのブログをまとめつつ2004年当時を振り返ります。 ディ

    歴史をたどってディープラーニングを学ぶ 第十六回 これまでのまとめと、なぜ私はディープラーニングをつくれなかったか - Sansan Tech Blog
    misshiki
    misshiki 2021/04/26
    “なぜ私はディープラーニングをつくれなかったか、2004年当時を振り返り”
  • 【Techの道も一歩から】第38回「Streamlit で固有表現抽出の結果を表示する」 - Sansan Tech Blog

    こんにちは。 DSOC R&D グループの高橋寛治です。 最近、部内で Streamlit による可視化を見かけるようになってきました。 Streamlit は、インタラクティブなデータの可視化に特化した Web アプリケーションを少ないコードで素早く提供することができる Python ライブラリです。 私自身は Web アプリケーションとしてデモ化する際に手慣れた Flask で書くことが多いです。 慣れているとはいえ時間を要するため、同じ結果を爆速で実現できるなら使わないわけにはいきません。 作業効率改善のために、固有表現抽出を題材にして使ってみることにしました。 今回 Streamlit で実現したいこと テキストエリアに入力されたテキストを解析し、解析結果を表に表示します。 入力エリアを準備する まずは、Streamlit をインストールし、ファイルを準備します。 $ pip in

    【Techの道も一歩から】第38回「Streamlit で固有表現抽出の結果を表示する」 - Sansan Tech Blog
    misshiki
    misshiki 2021/04/19
    “今回 Streamlit で実現したいこと テキストエリアに入力されたテキストを解析し、解析結果を表に表示します。”
  • 【Zoom or Die】第3回 torchvisionのI/O・前処理が新しくなった話 - Sansan Tech Blog

    こんにちは,DSOC研究開発部 Automation Groupの内田です. 普段オフィスではスタンディングデスクと曲面ディスプレイという環境で作業をしているのですが,秋は設備投資の季節ということで,一念発起して自宅にも曲面ディスプレイを導入しました.ディスプレイの広さは心の余裕ということで,QOLが爆上がりしています.皆さんも導入を検討してみてはいかがでしょうか? www.amazon.co.jp 宣伝はさておき,今回は PyTorch のエコシステムである torchvision が少し進化した話をしたいと思います. torchvision 近年の深層学習の隆盛は,簡単に深層モデルを実装できるフレームワークや周辺のエコシステムが整備されたことに起因していると言っても過言ではないでしょう.その中で,TensorFlowとPyTorchは深層学習フレームワークの二大巨塔と目されています.P

    【Zoom or Die】第3回 torchvisionのI/O・前処理が新しくなった話 - Sansan Tech Blog
    misshiki
    misshiki 2020/11/05
    “torchvision 0.8 で追加された画像の入出力および前処理機能についてまとめ,パフォーマンスの比較実験を行いました”とのこと。
  • 歴史をたどってディープラーニングを学ぶ第六回 M対Nのコンボリューションでカラー画像を扱う - Sansan Tech Blog

    こんにちは、ニューラルネット老人こと糟谷勇児です。 今回は色について考えていきます。 色を扱うのは難しい 画像認識といえば色の活用が重要そうですが、実際は一筋縄ではいきません。 私が新入社員だったころのことです。 中国人の先輩が画像検索エンジンを作っていました。その際、色は使用せず、輝度の変化のみを使用していました。 私は「色は使わないんですか」と尋ねたところ、「Color is artificial」という答えが返ってきました。 なるほど、色の見え方は人間とそれ以外の動物では全然違うといわれています。 もちろん人間同士でも、人種や性別、色覚特性などによって色の見え方はかなり変わってきます。 色というものは人間の感性に大きく依存するもので、独立した物理現象としてみるのは難しいのかもしれません。 前職の別の案件で、顔検出を行う際に肌色領域に絞ることで高速化できないのかという検討が行われたこと

    歴史をたどってディープラーニングを学ぶ第六回 M対Nのコンボリューションでカラー画像を扱う - Sansan Tech Blog
    misshiki
    misshiki 2020/05/14
    “色空間のどれを使うかというあたりで技術者の個性も出る感じだったのですが、ディープラーニングではRGBをそのまま使うのが主流と聞きちょっと驚きました。 今回はそのあたりも含めてみていきましょう。”
  • Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ研究員の 奥田 です。最近はYouTubeでコーギーの動画ばかり見ているのですが、あのパンみたいなお尻が最高です。 今回は大規模グラフに対するグラフ埋め込み(Graph Embedding)を計算するPytorch-BigGraphについて紹介いたします。また、記事の後半ではWikipediaの実データを対象に、約200万ノード1億エッジという大規模グラフに対するグラフ埋め込みの計算や類似記事検索の結果などをご報告できればと思います。 概要 グラフ埋め込み グラフ埋め込みとは、ノードとエッジから構成されたグラフ構造から、ノードの埋め込み表現を得るための手法やその表現自体のことを指します。直感的には、自然言語処理における単語埋め込み(Word Embedding)のグラフ版だと考えると理解しやすいかもしれません。 単語埋め込みにおいては、ある単語の意味は

    Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog
  • Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

    はじめまして,Sansan DSOC R&Dグループ インターンの小林といいます。 2月下旬から3月末までの間,主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが,他の研究員の方やインターンの先輩とのディスカッションなど,とにかく刺激的な日々でした。 稿はNLPブログということで,近年のNLPでスタンダードとなっている,単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて 文書ベクトルによるニュース文書属性判定を試す タスク:スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点 精度検証実験 実験実行と結果 実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行 実験② 複数の文書に対する独

    Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog
  • 「第一回SIL勉強会 自然言語処理編」を開催しました - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ研究員の奥田です。一番好きな京都のお土産は阿闍梨です。 先日「第一回SIL勉強会 自然言語処理編」という勉強会を京都で主催しましたので、その様子をご紹介致します。 SIL勉強会とは Sansanでは数年前から京都にオフィスを構えており、画像処理の研究員2名がフルリモートで働いております。昨年この京都オフィスを改装したことをきっかけに、京都での技術者を繋げてコミュニティを活性化していきたいという理念のもと、定期的に勉強会を開催していくことになりました。 勉強会のタイトルに付いているSILとは「Sansan Innovation Lab」の略で、京都の町家を改装して作られた弊社Sansanのオフィスのことです。会場としてそのオフィスの一角を使ったのですが、勉強会の会場が畳というのはなかなか珍しいのではないでしょうか? ちなみにオフィスの表はこんな感じです。

    「第一回SIL勉強会 自然言語処理編」を開催しました - Sansan Tech Blog
  • 1