タグ

ブックマーク / blog.hoxo-m.com (10)

  • darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 呪術廻戦をみて喜久福がべたくなりました *1。 今回は形態素解析について深堀りしてみます。 日語の自然言語処理において、形態素解析は必ずといっていいほど通る道です。 形態素解析を必要としないSentencePieceのような深層学習向けのtokenizerも出現していますが、品詞単位で分割する形態素解析が重要であることは変わりありません。 そんなこんなで、『実践・自然言語処理シリーズ2 形態素解析の理論と実装』 (以降「形態素解析」と表記)を読んでいます。 リンク先の目次を見て分かるとおり、基礎の部分から実装まで説明されているです。 今回は4章で紹介されている darts-clone を使って、精度は粗いが高速で分かち書きができる最長一致法で、どれぐらい分かち書きが可能かを検証します。 事前知識・辞書引き darts-cloneを使ってみる 単語辞

    darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2024/06/12
    "日本語の自然言語処理において、形態素解析は必ずといっていいほど通る道 / 最長一致法: 最初の文字から共通接頭辞検索し、一番長く一致した単語を採用する、ルールベースの分かち書き" 2020
  • MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ

    (2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないなど、使い方の自由度も非常に高いところが魅力的です。 ただ、ザ・分析用のPythonライブラリという感じでとにかく色々なものが隠蔽されており、 サーバにつなぐクライアントさえもプログラマあまりは意識する必要がないという徹底っぷりです。 もちろんマニュアル通りに使う分には問題ないですが、 ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効くようになり、 様々なシチュエーションで最適な使い方をすることができるようになります。 というわけで、今回はMLflowの記録部分を担う、 Experiment, Run, Artif

    MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2024/05/02
    "MLflow: とにかく色々なものが隠蔽 + ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効く / データマートとかもMLflowで管理してみたのですが、案外できてしまった(しかも割と便利だった)" 2020
  • GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する - 株式会社ホクソエムのブログ

    ホクソエムの u_ribo です。漫画「ブリーチ」の石田雨竜に親近感を感じます。仕事はシュッと終わらせて趣味の時間を増やしたいですよね。 要約 GitHub Actionsに対してrenvを使ったキャッシュ機能を活用。依存するRパッケージのインストール時間を短縮する パッケージのインストールに要する時間を1/25に短縮 renvのキャッシュはOSによりパスが異なるため、GitHub Actionsを実行するOSに応じて変更が必要になる キャッシュ機能はpipでも使えるため、Pythonによる処理を適用するときも便利 GitHub Actionsでrenvのキャッシュを利用するサンプル pkgdownによるウェブサイトのビルド https://github.com/uribo/easyestat/actions リポジトリ中のRファイルを実行 https://github.com/uribo

    GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2022/12/29
    2020 / "renv: RStudioにより開発されているパッケージ管理のためのパッケージ + 依存関係を明らかにし再現可能な形で環境を構築 / 使われるRパッケージとそのバージョン、インストール元の情報等を renv.lock ファイルに記録"
  • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は日語の word2vec に着目し、日語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

    学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2022/10/23
    2020 / "word2vec そのものを評価する方法 / 2つの単語が意味的に似ているか: これを行うためのデータセットとして、英語の場合、WordSim353 が有名 / JWSAN + JapaneseWordSimilarityDataset + jSIM + jBATS"
  • 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日語だと理解しにくい箇所もありますが、機械学習技術的負債をどう対処していくかについて、とても役に立つ記事だと思います。 Nitpicking Machine Learning Technical Debt (機械学習技術的負債の重箱の隅をつつく) イントロダクション Part1 技術的負債はあなたの予想以上に悪い Part2 機械学習の漠然とした性質 Part3 (通常の依存関係の頂上にある) データ依存関係 Part4 イライラさせるほど未定義なフィードバックループ 後編に続きます Nitpicking Ma

    【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2022/06/22
    2020 / "宣言していない消費者: 機械学習モデルの域を超えて、その機械学習の出力を頼っている消費者がいるかもしれない + 出力に依存しているシステムがどの程度あるかを把握できる人が誰もいないこと"
  • Rと3Dプリンターで八ヶ岳のミニチュアを作る。 - 株式会社ホクソエムのブログ

    この記事について この記事はR Advent Calendar 2019の19日目の記事です。 はじめに ホクソエムサポーターの輿石です。最近3Dプリンターを買いました。遠い世界のガジェットのように思っていましたが、家庭用であれば3万円前後で買えてしまうんですね。 3Dプリンターの使い方としてCADで自分の作りたいものを設計していくのが一般的かと思いますが、Rで3Dのプロットを作成することで、データから立体物を作ることが可能です。 この記事では、3Dのプロットを作成できるrayshaderパッケージと、基盤地図情報の地形図データをRに読み込むことができるfgdrパッケージを使って、故郷八ヶ岳周辺のミニチュアを作ってみます。 データの取得 国土地理院の基盤地図情報サイトからデータをダウンロードします。 今回は数値標高モデルの10mメッシュのデータを使います。八ヶ岳周辺のメッシュコードは533

    Rと3Dプリンターで八ヶ岳のミニチュアを作る。 - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2021/11/21
    "rayshaderパッケージのsave_3dprint関数を使うことで、3Dプリンターでは一般的なstlというフォーマットでデータを出力することができます / 3Dプリンターがあると可視化の幅が広がります"
  • gganimateでバーチャートレースを作って競争心を煽る - 株式会社ホクソエムのブログ

    ホクソエムサポーターの輿石です。普段はデータ分析会社で分析業務や社内Rパッケージ開発をはじめ分析環境を整備する仕事をしています。 最近WEB系のメディアで「バーチャートレース(bar chart race )」と呼ばれるぬるぬる動く棒グラフを見ることが増えてきました。興味を惹くという点で優れた面白い可視化だと思います。Rではgganimateパッケージを使うことで簡単にggplot2のグラフをアニメーションにできたので、作成方法を細かい部分含めて紹介します。 なお、記事ではggplot2の詳細には触れていませんが、詳細は「Rグラフィックスクックブック」がオススメです。なんと記事が投稿された2019年11月21日は約6年ぶりの改版となる第2版の発売日なようです!6年前は少し面倒だったことも今ではより簡単にできるようになっていたりするので、すでにggplot2が使えるあなたも是非ッ。 Rグ

    gganimateでバーチャートレースを作って競争心を煽る - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2021/08/21
    gganimate / "バーチャートレースを作成する場合は、geom_bar()ではなく、geom_tile()を使うことがポイント / ggplot2が書ければアニメーションも作れてしまいますね。R凄い"
  • sqlparse 入門 - 字句解析編 - - 株式会社ホクソエムのブログ

    記事はPythonその2 Advent Calendar 2019に参加しています。 1. はじめに こんにちは。ホクソエムサポーターの藤岡です。 データアナリストらしいですが、分析そっちのけでPySparkと戯れてます。 メソッドチェインを積み上げていくスタイルで最初はちょっと使いづらいなと思ったのですが、 DataFrameが思いのほか使いやすくて、 気がつくとPySpark無しでは生きられない身体になってしまいました......。 さて、今回紹介するライブラリはsqlparseです。 sqlparseは、SQLエンジンを一切使わずにSQLを解析し、そこから種々の情報を得ることができる非常に頼もしいライブラリです。 例えば、SQLの山の中から欲しいテーブルのDDLを簡単に検索できるようにしたり、 さらにそこからカラムの情報を抜き出してきたり、業務で大変お世話になっております。 ただ、

    sqlparse 入門 - 字句解析編 - - 株式会社ホクソエムのブログ
  • EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPEmpirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択されたEMNLPの論文は682 (+システム/デモ論文45) です。 (年々増えています。) 今回は、EMNLP2019の論文から、いくつか気になったものを紹介します。 前回に引き続き、検証系の論文とデータ構築についての論文をメインに扱います。 以降、記載する図表は、明記しない限り、論文から引用しています。 1. ner and pos when nothing is capitalized 2. A Little Annotation does a

    EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ
  • データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ

    要約 drakeパッケージは、GNU makeのようにあらかじめ定義されたワークフローを自動的に実施する仕組みを、Rユーザに馴染みやすいデータフレーム形式で提供する ワークフローの構築と管理、実行はRの関数として提供され、依存関係を可視化する関数も用意される drakeパッケージを使うことで、データ分析でありがちな「再実行」の負担(再計算、コードの保守)を軽減することが可能となる 各オブジェクトは自動的にキャッシュされ、コードや依存関係に変更のない場合はキャッシュが利用される ワークフローの各処理の状況、依存関係を可視化する関数も用意され、ワークフロー管理が容易になる 要約 はじめに シーシュポスの岩 既存の解決策 drake: Rユーザのためのワークフロー処理パッケージ ワークフロー管理の基礎 ワークフローと依存関係の可視化 ワークフローの変更 参考URL はじめに データ分析の作業は、

    データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2018/09/09
    "その特徴は、ワークフローをデータフレームとして管理する点にあります。"
  • 1