タグ

ブックマーク / data.gunosy.io (19)

  • LLM 論文の探し方 - Gunosyデータ分析ブログ

    こんにちは。R&D の森田です。牛スネ肉のブロックをまるごと炭火で焼いたら美味しかったので、最近のオススメです。 この記事は Gunosy Advent Calendar 2023 の 2 日目の記事です。前回の記事は nagayama さんの Android DataStore の段階導入 でした。 今日は、進歩が速すぎる LLM (Large Language Model) 界の論文をどう追いかけていくかについて紹介します。 一口に LLM の論文といっても LLM に関係する領域は広がり続けていて、それぞれが 1 分野といっても差し支えのない量の論文が日々出続けています。例えば、11/28 にプレプリントサーバーの arXiv に投稿された "LLM" が含まれる論文は、48 件あります(11/30 調査)。研究者でも毎日数十件の論文に目を通すのは無理があると言えるでしょう。 いくつ

    LLM 論文の探し方 - Gunosyデータ分析ブログ
    yuiseki
    yuiseki 2023/12/21
  • その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ

    はじめに Gunosy Tech Lab - Media ML のsuchidaです。 最近はPythonの型アノテーションがないとあたふたする人生です。 こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。 前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを実施しましたでした。 さて皆さん、Pythonを利用する際に静的解析ツールを利用していますか?これは、コードを綺麗に保ち、保守運用を行いやすくするために非常に重要なツールです。 記事では、Pythonコードフォーマッターなどの静的解析ツールとその設定ファイルの管理方法について簡単に紹介します。 静的解析ツールの導入 チーム内では主に、アルゴリズムの開発・運用にPythonを利用しています。 また、コードを綺麗に保ち、保守運用を行いやすくするためにコードフォーマッターな

    その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ
  • ニュース記事の品質と広告効果の関係についてCIKM2021で発表を行いました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの飯塚です。11/1~11/5にオンラインで行われた、CIKM2021に発表参加しました。CIKMとはACM International Conference on Information and Knowledge Managementの略称で、機械学習やWebマイニング、情報検索/推薦といったトピックを扱う国際会議の1つです。今年のCIKMも、新型コロナウィルス感染症対策の観点からオンラインで開催されました。Gunosy社として、このCIKMに参加するのは初めてでした。記事では、今回投稿した論文の経緯や概要、ニュースに関する他研究者の発表の一部をご紹介します。 投稿論文 近年オンラインメディアでは、タイトルや画像などを誇張したクリックベイト記事、ユーザーをミスリードするような釣り記事の問題が指摘されています。また、推薦システム側の問題としては、パーソナライゼ

    ニュース記事の品質と広告効果の関係についてCIKM2021で発表を行いました - Gunosyデータ分析ブログ
  • グノシーのパーソナライズアルゴリズムを刷新した話 (モデル編) - Gunosyデータ分析ブログ

    こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 この記事では、弊社で配信しているニュースアプリであるグノシーのパーソナライズアルゴリズムを刷新した話について書きたいと思います。 アーキテクチャの部分まで含めて記事にしてしまうと非常にブログが長くなってしまうので、記事ではリアルタイム性の高い重要なニュース記事についてどのようにレコメンドするかについて注目して述べます。 アーキテクチャの部分についてはブログ後編のアーキテクチャ編にて書きたいと思います。 後編はこちら data.gunosy.io ニュースアプリのパーソナライズ グノシーにおける旧来のパーソナライズアルゴリズムとその課題 グノシーの新しいパーソナライズアルゴリズム オフライン実験とA/Bテスト おわりに ニュースアプリのパーソナライズ グノシーというニュースアプリで

    グノシーのパーソナライズアルゴリズムを刷新した話 (モデル編) - Gunosyデータ分析ブログ
  • 記事ベクトルの定量評価手法の紹介 - Gunosyデータ分析ブログ

    はじめに こんにちは、20卒 Gunosy Tech Lab 所属の上村です。 Gunosy Tech Labでは、グノシー・ニュースパス・ルクラなどで用いられる記事配信ロジックのアルゴリズム改善を行っています。 Gunosyではニュース記事をベクトルで表現し、様々なロジックに組み込むことで、ユーザ体験の向上を図っています。 活用事例に興味がある方はこちら data.gunosy.io 今回は、記事ベクトルを定量的に評価する手法を紹介していきます。 性能評価の手法として、単語ベクトル評価用データセットのような、 公開されたデータセットを用いて作成した文章ベクトルの評価を行うことはできますが、 独自のサービスのデータから生成したベクトルをそのサービスレベルで評価することは難しいです。 というのも、ドメイン(この場合はサービス)に特化した文章ベクトルはそれぞれ異なるはずであるため、 オープンな

    記事ベクトルの定量評価手法の紹介 - Gunosyデータ分析ブログ
  • Gunosy Ads の CTR予測のシステムの話 - Gunosyデータ分析ブログ

    こんにちは,Gunosy Tech Lab の tmotegi です. Gunosy が提供している広告商品の Gunosy Ads では, Gunosy が開発したアプリのユーザ一人一人に対して興味を持つであろう広告を推定してユーザに提示しています. 今回はユーザが興味を持つ広告(=CTR が高い広告)を学習する部分をリプレイスした話について紹介しようと思います. はじめに 従来のシステム 従来のシステムの課題 新システム 結果 今後の課題 おわりに はじめに 従来のシステムと変更するに至った経緯について紹介します. 従来のシステム 従来のシステムでは Spark(Scala) on EMR を用いて,広告に対するユーザの興味を学習していました. 赤枠内が従来のシステム 広告に対するユーザの興味を学習する処理を簡単にまとめると, ユーザ・広告・配信面の特徴量の整形(ベクトル化) 機械学習

    Gunosy Ads の CTR予測のシステムの話 - Gunosyデータ分析ブログ
  • ニュースパスのターゲティングプッシュシステム - Gunosyデータ分析ブログ

    こんにちは、Gunosy Tech Lab の山田です。 Gunosy で開発しているニュースアプリ、ニュースパスでは「多くの人が知っておくべき」と判断されるニュースが出た時、即座にそれをユーザにプッシュ通知でお知らせする速報プッシュ機能があります。 例えば誰もが知るような有名人の結婚や、多くの死傷者が出てしまったような事件などが起こったときに速報が送られます。 しかし「多くの人が知っておくべきとまではいかないが、この話題に興味がある人は知っておいたほうが良さそう」なニュースも多くあります。 例えばスポーツ業界内でのニュースや、株価の大幅変動といったニュースなどがこれに当たると考えています。 そのようなニュースを全ユーザに送っても興味がないユーザが殆どですし、そのようなユーザからするととても邪魔な通知になってしまいます。 実際、以前のオリンピックの際などは速報を送りすぎてしまったのが原因で

    ニュースパスのターゲティングプッシュシステム - Gunosyデータ分析ブログ
  • テンセントの広告技術が未来すぎる!AdKDD2019のテンセントAds招待講演まとめ - Gunosyデータ分析ブログ

    研究開発チームインターンの北田 (shunk031) です。アメリカのアラスカにて行われたKDD2019に参加・発表してきました。 www.kdd.org KDD2019の広告分野のワークショップであるAdKDD2019では、世界を牽引するアドテク企業が複数招待講演を行いました。 www.adkdd.org その中でも Tencent Ads: Interesting Problems and Unique Challengesにおいて、テンセントの広告チーム(テンセント Ads)の取り組みが未来過ぎたため、資料に取り上げられている技術を中心にまとめて報告させていただきます。 特に驚くべきは動画に対して広告対象の商品画像を自動で合成する VideoIn Ads は眼を見張るものがありました。ぜひこの記事を一読していただき、一緒に未来を感じてほしいです (そしてそれ以上のものを作っていきたい

    テンセントの広告技術が未来すぎる!AdKDD2019のテンセントAds招待講演まとめ - Gunosyデータ分析ブログ
  • 双曲空間ではじめるレコメンデーション - Gunosyデータ分析ブログ

    はじめに こんにちは、MediaAds ML Teamに所属している飯塚(@zr_4) です。 以前書いたブログ*1をベースに変更を加えた論文がRecSys 2019 *2 に通りました(ヤッター)。 埋め込みベースの推薦は、近年最も成功を収めた推薦手法の一つです。 埋め込みベースの推薦を行っている多くの大企業では、精度良くアイテムやユーザーを表現するため、数百次元のベクトルを使用しています。それによって、莫大な計算リソースを日々消費していることと思います。またリアルタイムにベクトルの演算を行うために検索システムを自作している企業も少なくないと思います*3。負荷の大きさから、特定のロジックの実装に踏み込めないケースも多々あるかと思います。 一方で近年、埋め込みの空間に双曲空間を用いることで、階層構造、木構造、Directed Acyclic Graph (DAG) が低次元のベクトルで表現

    双曲空間ではじめるレコメンデーション - Gunosyデータ分析ブログ
  • 近似近傍探索ライブラリgannによる関連記事推薦方法 - Gunosyデータ分析ブログ

    こんにちは、データ分析部の川口です。 日はGunosy社が提供しているニュースパスとLUCRAというニュースアプリケーションの関連記事推薦で用いられている、弊社メンバーが開発したGo言語の近似近傍探索用ライブラリgann github.com とその実装例/方法について述べます。 関連記事推薦と近似近傍探索について 以前、弊社の米田が投稿したニュースパスを支える関連記事推薦と近似近傍探索において、関連記事推薦と近似近傍探索ライブラリについて、説明しております。 ざくっと抜粋いたしますと、下記のようになります。 関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」 近似近傍探索gannは、ベクトル間の距離の近さを算出し、K-d treeを用いて指定のベクトルに近いベクトルを高速に算出できる、Go言語のライブラリ 概要 gannライブラリを用いた関連記事推薦の実装方法を説明い

    近似近傍探索ライブラリgannによる関連記事推薦方法 - Gunosyデータ分析ブログ
  • Web IntelligenceとIEEE Bigdataで発表してきました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの関です。 夢眠ねむ卒業公演素晴らしかったですね。WWDBestで膝から崩れ落ちました。近年におけるアイドルのあり方として一つの完成形をみた気がします。夢眠ねむさんとでんぱ組さんの今後のご活躍を引き続き応援しています。 今回のブログでは2018年12月3日〜6日に行われたWeb Intelligence(WI) 2018と2018年12月10日のIEEE Bigdata 2018のWorkshopに参加&発表してきましたのでその報告をさせていただきます。 当社として、そして個人としてもはじめての国際会議参加&発表でした。とても良い経験になりました。 Web Intelligence 2018 Web Intelligence(WI)はウェブに関する国際会議の一つです。 セマンティックウェブとかソーシャルメディアとか推薦システムとか、応用よりで学際的な研究に焦点が当

    Web IntelligenceとIEEE Bigdataで発表してきました - Gunosyデータ分析ブログ
  • DeepなFactorization Machinesの最新動向 (2018) - Gunosyデータ分析ブログ

    はじめに こんにちは。研究開発チームの関です。 最近毎週日曜日の恋するワンピースの更新を楽しみに生きています。好きなツッコミは「この船の航海士は誰?」です。 あと虹のコンキスタドールのベストアルバム「THE BEST OF RAINBOW」は皆さん買いましたか? 健康にいいので毎日聞きましょう。 この記事はGunosy Advent Calendar 2018の22日目の記事です。 昨日はcou_zさんの「【年末年始に読みたい】Gunosyエンジニアが2018年に購入した書籍まとめ」でした。 皆さんFactorization Machinesは好きですよね。 予測モデル構築においてはXGBoostと並んでとりあえずやっておくべき手法として知られています。 今回のエントリではKDD2018で発表されたxDeepFMを読み解きながら、 DeepなFactorization Machineの現状

    DeepなFactorization Machinesの最新動向 (2018) - Gunosyデータ分析ブログ
  • Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ

    Gunosy8月入社のshunk(@makuramoto1)です.前職は研究員とマネージャーの間みたいなことをやっておりました.現在は,Gunosyのデータ分析や,どのように記事を出したりするかといったロジックを開発する仕事を担当しています.Web業界に初めて参入して,現在の職種もキャリアチェンジみたいなことをしたので,いち早く仕事をこなせるように邁進しております. さて,記事はGunosy Advent Calender2018の5日目の記事です. 弊社では論文輪読会が週1で行われています.その際に,推薦モデルProd2Vecのハイパーパラメータ*1のチューニングに関する論文がありまして,面白そうだなと思い,以下の「Prod2Vecのパラメータチューニングに関する論文」を拝読いたしました. 拝読した論文達 Prod2Vecのパラメータチューニングに関する論文 Word2vec appl

    Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介] - Gunosyデータ分析ブログ
  • ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

    こんにちは。メディアロジック分析部の米田 (@mathetake) です。 今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。 特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。 関連記事推薦とは この記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。 より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

    ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ
  • プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ

    データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、また施策の効果検証といった主に2つの目的で使用しています。 簡潔にするため、ユーザーとログインの2つのテーブルを使った算出できる指標のみを対象としています。 また、これらの指標をどうやってプロダクト改善に役立てているのかということも少しではありますが、合わせて書いていきたいと思います。 DAU WAU(MAU) HAU 積み上げHAU 1ユーザーあたりのログイン回数 登録N日後継続率 登録日別N日後継続率 前提 今回のブログで紹介するSQLAmazon Redshift上で動くSQLなので、MySQLGoogle BigQuer

    プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ
    yuiseki
    yuiseki 2018/02/08
  • Gunosyデータ分析ブログ

    2024-05-27 GPT から Claude 3 への移行ガイド LLMs 自然言語処理 こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょ… 2024-04-05 NLP2024 参加報告 自然言語処理 LLMs 学会 論文 こんにちは、データサイエンス部の大竹、R&D チームの森田、久保、新規事業開発室の鈴木、岡田です。 今回の記事は 3/11 ~ 3/15 の 5 日間にわたって開催された言語処理学会第 30 回年次大会 (NLP2024) の参加レポートになります。 NLP2024 について 企業ブ… 2023-12-19 dbt seed で csv ファイルの

    Gunosyデータ分析ブログ
    yuiseki
    yuiseki 2017/12/19
  • Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017 - Gunosyデータ分析ブログ

    はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催されました、AWS Dev Day Tokyo 2017において、「Gunosy における AWS 上での自然言語処理・機械学習の活用事例」というタイトルで発表してきましたので、その内容について簡単ですが書きたいと思います。 はじめに 発表内容 記事分類 属性推定 + スコアリング 属性推定 スコアリング 効果測定 (ABテスト) おわりに 発表内容 私が発表した内容は下記のスライドにまとまっています。弊社が提供するサービスのニュースドメインのもの(グノシー、ニュースパス)における処理の流れを大

    Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017 - Gunosyデータ分析ブログ
    yuiseki
    yuiseki 2017/07/05
  • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

    こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

    【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
  • 1