タグ

ブックマーク / www.mwsoft.jp (8)

  • scikit-learnでtf-idf | mwSoft

    scikit-learnでtf-idf 概要 tf-idfを出す用事があったので、scikit-learnで実行してみる。 例として宮沢賢治の作品から8作品ほどを青空文庫より取得し、それぞれの作品に対してtf-idf上位10件のワードを抽出する。 Pythonは3.5を利用。mecab-python3が入っていること。 @CretedDate 2016/08/04 @Versions python3.5, mecab0.996, scikit-learn0.17.1 MeCabで名詞だけ分かち書き 「オツベルと象」「風の又三郎」「銀河鉄道の夜」「グスコーブドリの伝記」「セロ弾きのゴーシュ」「注文の多い料理店」「よだかの星」「シグナルとシグナレス」の8作品を使う。 落としてきたファイルは事前に解凍してUTF-8に変換しておく。下記とかで。 $ find . -name '*.zip' -ex

  • FlaskとElasticsearchとPandasを使った簡易なWebアプリ | mwSoft

    FlaskとElasticsearchとPandasを使った簡易なWebアプリ 概要 PythonとElasticsearchを連携させてPandasに入れて、Scipyにわせて分析結果を返すような簡易アプリケーションが必要になったので、フレームワークにFlask、ストレージにElasticsearchを利用して作ってみる。 資料は導入から簡易なアプリケーションを作成するまでの手順をメモしたもの。 Flaskの導入 Pythonは3系が入っている前提で話を進める。 FlaskはBottleあたりと比較される軽量なフレームワーク。Bottleは1枚っぺらのPythonファイルで実行できるポータビリティが売りだけど、対するFlaskはWerkzeugやJinja2などの既存ライブラリの組み合わせで成り立っている。 Jinja2はAnsibleとかでも使われているのでわりと馴染みがある。 F

    FlaskとElasticsearchとPandasを使った簡易なWebアプリ | mwSoft
  • DockerでPythonの実行環境を作ったメモ | mwSoft

    DockerPythonの実行環境を作ったメモ 概要 自分が書いた統計方面のコードをあちこちに持ち回して動かす必要が出てきたので、Dockerを利用する。 稿はUbuntu(開発機)でDockerをインストールして必要な環境を整え、CentOS(検証機)上で動かした際の手順とその他調べたことをメモしたもの。 インストール(Ubuntu) Ubuntuへのインストール。apt-getでそのまま入ることは入るけど、既にサポート切れのバージョンが入ってしまうらしい。なのでレポジトリを追加して入れる。 インストール方法はこちらを参照した。 $ sudo apt-get update $ sudo apt-get install apt-transport-https ca-certificates $ sudo apt-key adv --keyserver hkp://p80.pool.sk

  • Jupyterをサーバ上で起動する | mwSoft

    Jupyterをサーバ上で起動する 概要 Jupyterを真っ当にサーバ上で運用しようと思ったので、それ関連の情報を調べる。 OSはCentOS7を利用。せっかくなのでPythonのインストールから手順を残す。 Pythonのインストール CentOS7ならyumでそれほど面倒なく入れられる。 $ sudo yum install zlib-devel bzip2-devel openssl-devel sqlite-devel readline-devel gcc-gfortran atlas atlas-devel blas blas-devel lapack lapack-devel libpng-devel freetype-devel tk-devel CentOS7だとEPELでyumから入れられるらしい。 $ sudo yum install epel-release $ s

  • Python使いをJuliaに引き込むサンプル集 | mwSoft

    前書き Juliaという言語をご存知ですか? Pythonと同じ動的型付け言語ですが、実行時にコンパイルされることでC並の速度で動くこともあるとかないとか言われている話題のプログラミング言語です。比較される言語としてよくRやPythonが挙げられることからもわかる通り、統計や機械学習などの分野で力を発揮します。 2012年生まれとまだ若く、RやPythonが持つ多様なライブラリの力には及ばないところはありますが、CやPythonのコードを手軽に呼べる機能が用意されていたり、iPython NotebookやPyLabを呼ぶ為のインターフェースが用意されていたりと、既存の資産へのアクセス方法を用意することでその弱点をカバーしようとしています。 記事では、Juliaのサンプルコードを紹介しながら、PythonユーザがJuliaに移った際に得られるメリットを紹介していきます。 Pythonの実

  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • Java使いをScalaに引き込むサンプル集 | mwSoft

    前書き Scalaという言語をご存知ですか? Javaと同じくコンパイルされるとclassファイルになり、実行時はJVM上で動作する、オブジェクト指向+関数型のプログラミング言語です。 Scalaを開発したのはJavaのgenericsの設計を手がけたり、javacの開発をしていた経歴も持つMartin Odersky氏。 Scalaは後発の言語ということもあって、Javaを書いている時に感じる冗長さに対する様々な解が用意されています。 記事では、ScalaJavaのコードを比較しながら、JavaユーザがScalaに移った際に得られるメリットを提示していきます。 尚、序盤のサンプルコードはJavaユーザに伝わりやすいように、returnを明記したり、メソッドは必ず{ }で囲むなど、極力Javaっぽい記述をしています。 だいたいJavaと同じような書き方ができます ScalaJava

  • プログラミングサンプル集 | mwSoft

    メニュー 自然言語を扱う際に関わりそうな情報 Scalaの紹介やサンプルコード等 Javaやそのライブラリのサンプルコード等 全文検索エンジンのLucene/Solrに関するメモ 分散処理フレームワークのHadoopに関するメモ 分散機械学習ライブラリのMahoutに関するメモ Java/ScalaのWebフレームワーク、Playに関するメモ JavaScriptを利用した機能例 PythonのNumpy周辺ライブラリに関するメモ 主にthree.jsを使った3D描画に関するメモ 簡単な数式をJuliaのコードにして実行

  • 1