タグ

ブックマーク / www.mwsoft.jp (6)

  • scikit-learnでtf-idf | mwSoft

    scikit-learnでtf-idf 概要 tf-idfを出す用事があったので、scikit-learnで実行してみる。 例として宮沢賢治の作品から8作品ほどを青空文庫より取得し、それぞれの作品に対してtf-idf上位10件のワードを抽出する。 Pythonは3.5を利用。mecab-python3が入っていること。 @CretedDate 2016/08/04 @Versions python3.5, mecab0.996, scikit-learn0.17.1 MeCabで名詞だけ分かち書き 「オツベルと象」「風の又三郎」「銀河鉄道の夜」「グスコーブドリの伝記」「セロ弾きのゴーシュ」「注文の多い料理店」「よだかの星」「シグナルとシグナレス」の8作品を使う。 落としてきたファイルは事前に解凍してUTF-8に変換しておく。下記とかで。 $ find . -name '*.zip' -ex

    ottonove
    ottonove 2018/04/16
  • pandasにsqlでよくやる処理をやらせてみる | mwSoft

    概要 pythonによるデータ分析入門を参考に、MovieLens 1Mを使ってsqlで普段やってるようなこと(joinとかgroup byとかsortとか)をpandasにやらせてみる。 ファイルの読み込み 落としてきたファイルを解凍すると、movies.dat、rating.dat、users.datという3つのファイルが入っているので、read_csvで読み込む。 import pandas as pd movies = pd.read_csv( 'ml-1m/movies.dat', sep='::', header=None, names=['movie_id', 'title', 'genres'] ) ratings = pd.read_csv( 'ml-1m/ratings.dat', sep='::', header=None, names=['user_id', 'mo

    ottonove
    ottonove 2018/02/23
  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

    ottonove
    ottonove 2018/02/10
  • Python使いをJuliaに引き込むサンプル集 | mwSoft

    前書き Juliaという言語をご存知ですか? Pythonと同じ動的型付け言語ですが、実行時にコンパイルされることでC並の速度で動くこともあるとかないとか言われている話題のプログラミング言語です。比較される言語としてよくRやPythonが挙げられることからもわかる通り、統計や機械学習などの分野で力を発揮します。 2012年生まれとまだ若く、RやPythonが持つ多様なライブラリの力には及ばないところはありますが、CやPythonのコードを手軽に呼べる機能が用意されていたり、iPython NotebookやPyLabを呼ぶ為のインターフェースが用意されていたりと、既存の資産へのアクセス方法を用意することでその弱点をカバーしようとしています。 記事では、Juliaのサンプルコードを紹介しながら、PythonユーザがJuliaに移った際に得られるメリットを紹介していきます。 Pythonの実

    ottonove
    ottonove 2018/01/31
  • MeCabの辞書をカスタマイズする | mwSoft

    概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,

    ottonove
    ottonove 2018/01/18
  • DockerでPythonの実行環境を作ったメモ | mwSoft

    DockerPythonの実行環境を作ったメモ 概要 自分が書いた統計方面のコードをあちこちに持ち回して動かす必要が出てきたので、Dockerを利用する。 稿はUbuntu(開発機)でDockerをインストールして必要な環境を整え、CentOS(検証機)上で動かした際の手順とその他調べたことをメモしたもの。 インストール(Ubuntu) Ubuntuへのインストール。apt-getでそのまま入ることは入るけど、既にサポート切れのバージョンが入ってしまうらしい。なのでレポジトリを追加して入れる。 インストール方法はこちらを参照した。 $ sudo apt-get update $ sudo apt-get install apt-transport-https ca-certificates $ sudo apt-key adv --keyserver hkp://p80.pool.sk

    ottonove
    ottonove 2017/10/15
  • 1