タグ

ブックマーク / blog.hoxo-m.com (9)

  • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は日語の word2vec に着目し、日語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

    学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
    somemo
    somemo 2022/04/15
    “未知語だった単語、分かち書き 複数単語の和。 「議論した」=「議論」+「し」+「た」, ベクトル和 (get_divided_wv) https://github.com/shihono/evaluate_japanese_w2v/blob/ff2f240e7427e54d9a4a1514f41d1cc0b4b222b8/src/ja_tokenizer.py#L58-L75
  • 機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ

    はじめに 株式会社ホクソエム常務取締役のタカヤナギ=サンです、データサイエンスや意思決定のプロ・経営をしています。 掲題の件、現在、某社さんと”機械学習における評価指標とビジネスの関係、および宇宙の全て”というタイトルの書籍を書いているのですが、 記事のタイトルにあるような考え方については、論文・書籍などを数多く調査しても未だお目にかかることができず、これをいきなり書籍にしてAmazonレビューなどでフルボッコに叩かれて炎上して枕を涙で濡らすよりも、ある程度小出しにして様々な人々の意見を聞いた方が良いのではないかと思い独断で筆を取った次第です。 筋が良さそうなら論文にするのも良いと思っている。 「いや、そんなもん会社のBLOGに書くんじゃねーよ💢」という話があるかもしれないですが、ここは私の保有する会社なので何の問題もない、don't you? こういうビジネスを考えてみよう 「この人

    機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ
    somemo
    somemo 2021/07/02
  • 有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

    はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日カフェデビューをして, アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します。 有価証券報告書をダウンロードするところからご紹介するのでご安心を。 こんな方が見たら役に立つかも 企業分析をプログラミングでやりたいが何してい

    有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ
    somemo
    somemo 2020/10/07
  • 【翻訳】機械学習の技術的負債の重箱の隅をつつく (後編) - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は前回 【翻訳】機械学習技術的負債の重箱の隅をつつく (前編) の続きを紹介します。 blog.hoxo-m.com ※この記事は、Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳です。原著者の許可取得済みです。 後編では、コードのアンチパターンなど、エンジニアには身近な話題で、前編と比較して実践しやすいコンテンツも多いと思います。 Nitpicking Machine Learning Technical Debt (機械学習技術的負債の重箱の隅をつつく) Part5 MLコードにある共通のダメなパターン Part6 構成の負債 (退屈だけど修正は簡単) Part7 解決への夢を打ち砕く実世界 Part8 奇妙なメタセクション サニティーチェック (Sani

    【翻訳】機械学習の技術的負債の重箱の隅をつつく (後編) - 株式会社ホクソエムのブログ
    somemo
    somemo 2020/07/12
  • 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日語だと理解しにくい箇所もありますが、機械学習技術的負債をどう対処していくかについて、とても役に立つ記事だと思います。 Nitpicking Machine Learning Technical Debt (機械学習技術的負債の重箱の隅をつつく) イントロダクション Part1 技術的負債はあなたの予想以上に悪い Part2 機械学習の漠然とした性質 Part3 (通常の依存関係の頂上にある) データ依存関係 Part4 イライラさせるほど未定義なフィードバックループ 後編に続きます Nitpicking Ma

    【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ
    somemo
    somemo 2020/07/12
  • MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ

    (2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないなど、使い方の自由度も非常に高いところが魅力的です。 ただ、ザ・分析用のPythonライブラリという感じでとにかく色々なものが隠蔽されており、 サーバにつなぐクライアントさえもプログラマあまりは意識する必要がないという徹底っぷりです。 もちろんマニュアル通りに使う分には問題ないですが、 ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効くようになり、 様々なシチュエーションで最適な使い方をすることができるようになります。 というわけで、今回はMLflowの記録部分を担う、 Experiment, Run, Artif

    MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ
    somemo
    somemo 2020/07/12
  • 簡単な"さんすう"で見積もる施策効果の要因分解 - 株式会社ホクソエムのブログ

    日々、最先端で高度なテクノロジーに基づくビジネス改善”施策”を実施されている読者諸氏の皆さんこんばんわ、株式会社ホクソエム・常務取締役(博士(統計科学))の高柳です。 "XXXというKPI(売上とか)を向上させるために、XXXを構成するYYYという要因(PVとか広告単価とか1人あたりの売上とか)を向上させれそうな施策を試してみたんだけど、ZZZというまた別の売上を構成する要因(Impressionとか来店客数)も増えてたおかげで、結局、施策が売上全体にどのくらいのインパクトがあったのかよくわからないんだ〜助けて〜” ・・・という状況、あると思います。 この記事ではこういった複数の要因が混み入った状況でも ”各要因ごとに施策効果を分解して「PV要因で売上X円UP!」などと評価することができますよ、という話を紹介したい。 あまりやってる人見たことないからメジャーじゃないとは思うんだけど、「引い

    somemo
    somemo 2020/07/12
  • GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する - 株式会社ホクソエムのブログ

    ホクソエムの u_ribo です。漫画「ブリーチ」の石田雨竜に親近感を感じます。仕事はシュッと終わらせて趣味の時間を増やしたいですよね。 要約 GitHub Actionsに対してrenvを使ったキャッシュ機能を活用。依存するRパッケージのインストール時間を短縮する パッケージのインストールに要する時間を1/25に短縮 renvのキャッシュはOSによりパスが異なるため、GitHub Actionsを実行するOSに応じて変更が必要になる キャッシュ機能はpipでも使えるため、Pythonによる処理を適用するときも便利 GitHub Actionsでrenvのキャッシュを利用するサンプル pkgdownによるウェブサイトのビルド https://github.com/uribo/easyestat/actions リポジトリ中のRファイルを実行 https://github.com/uribo

    GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する - 株式会社ホクソエムのブログ
    somemo
    somemo 2020/07/12
  • Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ

    前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お手元にぜひ!)。 しかし今回は、Awesome例とは異なる、より新しいやり方で・簡単にRでのデータ分割を行う方法を紹介したいと思います。前処理大全でも取り上げられているcaretパッケージですが、その開発者のMax Kuhnが開発するパッケージの中に rsample を使う方法です。ここでは前処理大全で書かれている一般的なデータと時系列データの交差検証による分割をrsampleの使い方を紹介しながらやっていきます。加えて、rsampleの層化サンプリングについても最後に触れます。 1. レコードデータにおけるモデル検証用のデータ分割 zeal

    Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ
    somemo
    somemo 2019/06/08
  • 1