タグ

ブックマーク / buildersbox.corp-sansan.com (10)

  • 2023年 研究開発部 新卒技術研修 ~ テストコード編 ~ - Sansan Tech Blog

    こんにちは、研究開発部 Data Analysisグループの笛木です。 4/26(水)〜 4/28(金)で研究開発部内の技術研修を行いました。 こちらのブログの続きでテストコードについての研修資料を一部公開します。研修では新卒2年目の私が1年間で部内のコードなどから学んだ情報を共有しました。至らない部分もあるかもしれませんが、ご参考になれば幸いです。 こちらの研修で使用したGitHubのコードリンクは以下です。適宜、ご参照ください。 github.com 目次 目次 はじめに この研修の目的 研修スコープ外 テストコードについて テストコードの便利な点 テストコードの悪い例 テストコードに関するFAQ pytestによるテストコードの書き方 ファイル名 ディレクトリ 基編 Parametrize Fixture 異常系 Mock indirect conftest 知っておくと活用する場

    2023年 研究開発部 新卒技術研修 ~ テストコード編 ~ - Sansan Tech Blog
  • 自宅ルータの脆弱性検知システムの開発 - Sansan Tech Blog

    Sansan 技術部 情報セキュリティ部 CSIRT グループの川口です。 2023年4月からセキュリティエンジニアで新卒として、Sansan に入社しました。 現在は ログ基盤(SIEM)のログの取り込み部分の機能修正、問い合わせ対応、インシデント対応などの業務に取り組んでいます。 今回は内定者インターンシップで開発した、自宅ルータの脆弱性検知システムについて紹介します。 目次は以下の通りとなります。 開発に至った経緯 作成したシステム 技術的な話 EDR ポートスキャン チケットシステムへの起票 SOAR まとめと今後の課題 開発に至った経緯 新型コロナウイルスの流行に伴い、リモートワークという言葉をよく耳にするようになったと思います。 弊社でも緊急事態宣言下においては、原則リモートワークとなり、現在はオンライン・オフラインを併用した働き方をしています。 ここで問題となってくるのが自

    自宅ルータの脆弱性検知システムの開発 - Sansan Tech Blog
  • BERTopic で文書のクラスタリングを試す - Sansan Tech Blog

    こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次 目次 BERTopic とは 文書の埋め込み 文書のクラスタリング トピック表現 手法の概要まとめ BERTopic を試してみる インストール モデルのロード クラスタリングの実行 結果の確認 トピックごとの単語の重要度 トピックごとの文書を眺めてみる 次元削減手法・クラスタリング手法の変更 使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。 トピックモデルは、文書集合から「トピック」は何が含まれ

    BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
  • 【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」 - Sansan Tech Blog

    こんにちは. DSOC 研究開発部の黒木裕鷹です. 夏の訪れを感じつつある最近ですが,ランニングをはじめました. 形から入ろうと思い,かっちょいいシューズとウェアを揃えたのですが,なんとか1週間は続いており気分が良いです. まだまだ2, 30分走るだけでバテバテになってしまいますが,いずれは健康大魔神になろうと思っています. さて,この連載では,自分の勉強・復習も兼ねて,ネットワークデータにまつわる(統計)解析を気の向くままに紹介しています. 前回の記事では,グラフラプラシアン・グラフフーリエ変換について簡単におさらいしました. あまり理論やモデルの紹介ばかりが続いても面白くないので,今回の記事ではビジネス応用の事例紹介をしたいと思います. 具体的には,Uber における GNN の適用事例を2つほど取り上げることにしました. 私たちの生活にもすっかり浸透した Uber や UberEat

    【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」 - Sansan Tech Blog
  • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

    こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AI人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日語でのデータセットを作成してみました。これをきっかけに、日語での名寄せというタスクの研究が進み分野が活性化することを

    Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
  • ホワイトボードにかこまれて開発する - Sansan Tech Blog

    こんにちは、気づいたらSansanに入社してから1年が経っていました。 関西支店勤務で、プロダクト開発部のチーム MAIDO でエンジニアをしています、奥野です。 Sansan のオフィスやラボはオフィスデザインがどこも特徴的です。 草木があったり、オープンなスペース、京町家…といった多種多様なデザインが楽しめます。普段とは違うオフィスに行くと高揚感を感じますが、デザインの違いからくるものが大きいかもしれません。 さて、我らの関西支店にもそういった特徴があるのでしょうか? 関西支店は今年7月にリニューアルしており、スタイリッシュな要素が増えました。全面ガラス張りのオープン感が印象的です。 オフィスフロアの入り口からの光景です 今回は、私が推したい関西支店の特徴として、ホワイトボードにまつわるお話をさせていただきたいと思います。 ホワイトボードのある風景 共有スペースを遠景で写すと、ホワイト

    ホワイトボードにかこまれて開発する - Sansan Tech Blog
  • Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ研究員の 奥田 です。最近はYouTubeでコーギーの動画ばかり見ているのですが、あのパンみたいなお尻が最高です。 今回は大規模グラフに対するグラフ埋め込み(Graph Embedding)を計算するPytorch-BigGraphについて紹介いたします。また、記事の後半ではWikipediaの実データを対象に、約200万ノード1億エッジという大規模グラフに対するグラフ埋め込みの計算や類似記事検索の結果などをご報告できればと思います。 概要 グラフ埋め込み グラフ埋め込みとは、ノードとエッジから構成されたグラフ構造から、ノードの埋め込み表現を得るための手法やその表現自体のことを指します。直感的には、自然言語処理における単語埋め込み(Word Embedding)のグラフ版だと考えると理解しやすいかもしれません。 単語埋め込みにおいては、ある単語の意味は

    Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog
  • Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

    はじめまして,Sansan DSOC R&Dグループ インターンの小林といいます。 2月下旬から3月末までの間,主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが,他の研究員の方やインターンの先輩とのディスカッションなど,とにかく刺激的な日々でした。 稿はNLPブログということで,近年のNLPでスタンダードとなっている,単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて 文書ベクトルによるニュース文書属性判定を試す タスク:スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点 精度検証実験 実験実行と結果 実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行 実験② 複数の文書に対する独

    Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog
  • 「ビッグデータ時代における新しい社会科学のカタチ」: 行動経済学会第 12 回大会サテライト・ワークショップ - Sansan Tech Blog

    こんにちは、DSOC 研究員の西田です! 一気に寒くなってきて困りますね。最近は、ジャケットの上からニットを着ると意外と暖かいことに気づき、ニューラルネットのように多層レイヤードを楽しんでいます。ジャケットの上からニットを着ていても、「着る順番間違っていますよ」とはくれぐれも言わないで、そっとしておいてください。ルックにもある正式な着方なのです。 さて、今回は行動経済学会第 12 回大会の前日に行われた「行動経済学会第 12 回大会サテライト・ワークショップ」に登壇してきましたので、そちらの様子を皆さんにお届けします! ワークショップのテーマは、「“行動経済学は実務に活用できる”とはどういうことか?」でした。 ⿊川 博⽂さん(同志社大学・日学術振興会特別研究員 PD) と私から、まずは企業とアカデミアの共同研究について報告し、そのあとで「どうすれば、より共同研究がスムーズに進み、かつお互

    「ビッグデータ時代における新しい社会科学のカタチ」: 行動経済学会第 12 回大会サテライト・ワークショップ - Sansan Tech Blog
  • 1