ayaniimi213のブックマーク - はてなブックマーク

2023年研究開発部新卒技術研修 ~ テストコード編 ~ - Sansan Tech Blog

こんにちは、研究開発部 Data Analysisグループの笛木です。 4/26（水）〜 4/28（金）で研究開発部内の技術研修を行いました。こちらのブログの続きでテストコードについての研修資料を一部公開します。研修では新卒2年目の私が1年間で部内のコードなどから学んだ情報を共有しました。至らない部分もあるかもしれませんが、ご参考になれば幸いです。こちらの研修で使用したGitHubのコードリンクは以下です。適宜、ご参照ください。 github.com 目次目次はじめにこの研修の目的研修スコープ外テストコードについてテストコードの便利な点テストコードの悪い例テストコードに関するFAQ pytestによるテストコードの書き方ファイル名ディレクトリ基本編 Parametrize Fixture 異常系 Mock indirect conftest 知っておくと活用する場

ayaniimi213 2023/10/27

リンク

自宅ルータの脆弱性検知システムの開発 - Sansan Tech Blog

Sansan 技術本部情報セキュリティ部 CSIRT グループの川口です。 2023年4月からセキュリティエンジニアで新卒として、Sansan に入社しました。現在はログ基盤（SIEM）のログの取り込み部分の機能修正、問い合わせ対応、インシデント対応などの業務に取り組んでいます。今回は内定者インターンシップで開発した、自宅ルータの脆弱性検知システムについて紹介します。目次は以下の通りとなります。開発に至った経緯作成したシステム技術的な話 EDR ポートスキャンチケットシステムへの起票 SOAR まとめと今後の課題開発に至った経緯新型コロナウイルスの流行に伴い、リモートワークという言葉をよく耳にするようになったと思います。弊社でも緊急事態宣言下においては、原則リモートワークとなり、現在はオンライン・オフラインを併用した働き方をしています。ここで問題となってくるのが自

ayaniimi213 2023/09/29

リンク

BERTopic で文書のクラスタリングを試す - Sansan Tech Blog

こんにちは。研究開発部の青見 (@nersonu) です。そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次目次 BERTopic とは文書の埋め込み文書のクラスタリングトピック表現手法の概要まとめ BERTopic を試してみるインストールモデルのロードクラスタリングの実行結果の確認トピックごとの単語の重要度トピックごとの文書を眺めてみる次元削減手法・クラスタリング手法の変更使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。トピックモデルは、文書集合から「トピック」は何が含まれ

ayaniimi213 2023/02/21

リンク

BERTによる日本語固有表現抽出の精度改善〜BERT-CRFの紹介〜 - Sansan Tech Blog

こんにちは、DSOC R&Dグループインターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。また、今回の手法を含め、日本語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

ayaniimi213 2021/09/21

リンク

【ネットワークの統計解析】第8回事例紹介「Uber における GNN の活用」 - Sansan Tech Blog

こんにちは． DSOC 研究開発部の黒木裕鷹です．夏の訪れを感じつつある最近ですが，ランニングをはじめました．形から入ろうと思い，かっちょいいシューズとウェアを揃えたのですが，なんとか1週間は続いており気分が良いです．まだまだ2, 30分走るだけでバテバテになってしまいますが，いずれは健康大魔神になろうと思っています．さて，この連載では，自分の勉強・復習も兼ねて，ネットワークデータにまつわる（統計）解析を気の向くままに紹介しています．前回の記事では，グラフラプラシアン・グラフフーリエ変換について簡単におさらいしました．あまり理論やモデルの紹介ばかりが続いても面白くないので，今回の記事ではビジネス応用の事例紹介をしたいと思います．具体的には，Uber における GNN の適用事例を2つほど取り上げることにしました．私たちの生活にもすっかり浸透した Uber や UberEat

ayaniimi213 2021/07/20

リンク

Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

ayaniimi213 2020/03/10

リンク

ホワイトボードにかこまれて開発する - Sansan Tech Blog

こんにちは、気づいたらSansanに入社してから1年が経っていました。関西支店勤務で、プロダクト開発部のチーム MAIDO でエンジニアをしています、奥野です。 Sansan のオフィスやラボはオフィスデザインがどこも特徴的です。草木があったり、オープンなスペース、京町家…といった多種多様なデザインが楽しめます。普段とは違うオフィスに行くと高揚感を感じますが、デザインの違いからくるものが大きいかもしれません。さて、我らの関西支店にもそういった特徴があるのでしょうか？関西支店は今年7月にリニューアルしており、スタイリッシュな要素が増えました。全面ガラス張りのオープン感が印象的です。オフィスフロアの入り口からの光景です今回は、私が推したい関西支店の特徴として、ホワイトボードにまつわるお話をさせていただきたいと思います。ホワイトボードのある風景共有スペースを遠景で写すと、ホワイト

ayaniimi213 2019/11/22

リンク

Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog

こんにちは、DSOC R&Dグループ研究員の奥田です。最近はYouTubeでコーギーの動画ばかり見ているのですが、あの食パンみたいなお尻が最高です。今回は大規模グラフに対するグラフ埋め込み（Graph Embedding）を計算するPytorch-BigGraphについて紹介いたします。また、記事の後半ではWikipediaの実データを対象に、約200万ノード1億エッジという大規模グラフに対するグラフ埋め込みの計算や類似記事検索の結果などをご報告できればと思います。概要グラフ埋め込みグラフ埋め込みとは、ノードとエッジから構成されたグラフ構造から、ノードの埋め込み表現を得るための手法やその表現自体のことを指します。直感的には、自然言語処理における単語埋め込み（Word Embedding）のグラフ版だと考えると理解しやすいかもしれません。単語埋め込みにおいては、ある単語の意味は

ayaniimi213 2019/09/26

リンク

Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

はじめまして，Sansan DSOC R&Dグループインターンの小林といいます。 2月下旬から3月末までの間，主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが，他の研究員の方やインターンの先輩とのディスカッションなど，とにかく刺激的な日々でした。本稿はNLPブログということで，近年のNLPでスタンダードとなっている，単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて文書ベクトルによるニュース文書属性判定を試すタスク：スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点精度検証実験実験実行と結果実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行実験② 複数の文書に対する独

ayaniimi213 2019/04/10

リンク

「ビッグデータ時代における新しい社会科学のカタチ」: 行動経済学会第 12 回大会サテライト・ワークショップ - Sansan Tech Blog

こんにちは、DSOC 研究員の西田です！一気に寒くなってきて困りますね。最近は、ジャケットの上からニットを着ると意外と暖かいことに気づき、ニューラルネットのように多層レイヤードを楽しんでいます。ジャケットの上からニットを着ていても、「着る順番間違っていますよ」とはくれぐれも言わないで、そっとしておいてください。ルックにもある正式な着方なのです。さて、今回は行動経済学会第 12 回大会の前日に行われた「行動経済学会第 12 回大会サテライト・ワークショップ」に登壇してきましたので、そちらの様子を皆さんにお届けします！ワークショップのテーマは、「“行動経済学は実務に活用できる”とはどういうことか？」でした。⿊川博⽂さん（同志社大学・日本学術振興会特別研究員 PD）と私から、まずは企業とアカデミアの共同研究について報告し、そのあとで「どうすれば、より共同研究がスムーズに進み、かつお互

ayaniimi213 2018/12/27

リンク

はてなブックマーク

タグ

ブックマーク / buildersbox.corp-sansan.com (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス