タグ

ブックマーク / y-uti.hatenablog.jp (3)

  • 統計的機械翻訳システム Moses で遊ぶ - y_uti のブログ

    統計的機械翻訳システム Moses を使って、英語から日語への自動翻訳を試してみます。Moses は、機械翻訳の分野で広く利用されているシステムです。対訳コーパス*1からモデルを学習し、そのモデルを用いて入力文の翻訳結果を出力します。Moses のウェブサイトは以下にあります。 Moses - Main/HomePage Moses のインストール Moses のインストール手順は公式サイトの説明どおりです。Git リポジトリからソースコードを取得してビルドします。公式サイトでは bjam にオプション -j8 を指定していますが、これはビルドの並列度を指定するものなので、環境に合わせて変更します。私は並列度 1 でビルドしました。ビルド時間を計測したわけではありませんが、出力されたファイルのタイムスタンプから判断すると、30 分程度かかったようです。なお、最初に作成している smt デ

    統計的機械翻訳システム Moses で遊ぶ - y_uti のブログ
  • BoW 特徴量に対するロジスティック回帰分析の過学習 - y_uti のブログ

    ここ数回の記事で『言語処理 100 ノック』の第 8 章、ロジスティック回帰による極性分析の問題に取り組みましたが、正則化無しでも交差検定での正解率があまり変わらないという結果が得られました*1。今回は、このことについて詳細に調べてみます。 データの準備 前回までの記事では PHP で独自に実装したロジスティック回帰を用いましたが、今回は scikit-learn が提供している実装を利用します。パラメータを変えながら実験を繰り返すには、PHP での素朴な実装では計算時間がかかりすぎるためです。 まず全体の準備として、NumPy と pyplot を import します。また、グラフのラベルに日語を利用できるように FontProperties を作成しておきます。 import numpy as np import matplotlib.pyplot as plt from mat

    BoW 特徴量に対するロジスティック回帰分析の過学習 - y_uti のブログ
  • プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ

    勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基的なことがらについて説明しました。その資料を公開します。 プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。 プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。

    プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
  • 1