概要 急にリコメンドに興味を持ちまして、ニュースの類似記事検索アルゴリズムを試してみました。 アルゴリズムは、自然言語分野ではよく使われているTF-IDFとCosine類似度を用いました。 TF-IDFとは 文章をベクトル化するアルゴリズムの一つです。 TF : Term Frequency。単語の出現頻度。 IDF : Inverse Document Frequency。直訳すると「逆文書頻度」。 珍しい文字が入ると値が大きくなる為、単語の「希少性」を表しているとも言えます。 各文章の単語を抜き出し、全ての単語に対してTF(その文章が保持する単語数)とIDF(希少性)を掛け合わせたベクトルを作成します。このベクトルを用いることで、文章を用いた情報検索やクラスタリングが可能になります。 詳しくはこちらの記事などが分かりやすいです。 Cosine類似度とは 2つのベクトルがどれくらい同じ向
Scientific Computing Tools For Python — Numpy NumPy は Pythonプログラミング言語の拡張モジュールであり、大規模な多次元配列や行列のサポート、これらを操作するための大規模な高水準の数学関数ライブラリを提供する。(via Wikipedia) これまで知識があいまいだったNumPyについて、もう一度おさらいしたいと思います。NumPyはSciPyと併せて科学技術計算でよく利用されています。また、高速に行列演算ができるのでOpenCV(コンピュータビジョンライブラリ)でもNumPyを利用したPythonインタフェースが提供されるようになりました。 OpenCVのPythonバインディングについては去年のエントリーでも取り上げていますので参考までに。 * さくらVPSにOpenCVをインストールしてPythonから使う [2017/04/2
秋山です。 PythonはNumpyとかSympyとか、数値計算が得意なライブラリが充実しています。もちろん中学・高校の数学で習うレベルの計算もすぐにできちゃいます。 というわけで今回はPythonでプログラミングをして、中学・高校で習う数学の問題を解いてみました。 Pythonが使えるようになれば、中学・高校レベルの数学では困らずに済む。かもしれない。 ■中学2年生レベル ◆連立方程式 ◇問題 x + y = 3 x + 3y = 13 のとき、xとyを求めよ。 Numpyを使って、連立方程式を行列計算で解いてみました。 ■中学3年生レベル ◆2次方程式 ◇問題 x^2 - 10x + 24 = 0 のとき、xを求めよ。 昔の授業では (x - 4)(x - 6) = 0 x = 4 , 6 このような解法を習ったと思います。 この問題は、NumpyのPolynomialを使って式を作り
秋山です。 私は主にPythonを使って開発をしているので、以前Pythonの便利なライブラリやフレームワークを紹介する記事を書いたのですが(後でリンク貼りますね)、今回はその記事でも紹介したNumPy(なむぱいと読みます)という数値計算用ライブラリの使い方チュートリアルを書きたいと思います。 NumPyは機械学習やディープラーニングなどを学ぶ上でも前提知識とされることが多いため、これからその辺の分野の勉強をしてみたい人の参考になればと思います。 チュートリアルの実行環境は、ブラウザだけでPythonもNumPyも使えるオンラインのプログラミング実行環境「paiza.IO (パイザ・アイオー)」を使っていきます。 ■NumPyにおける配列 NumPyにおける配列は"ndarray"という形式になっていて、このndarrayはいろいろな機能を持っています。 まず、普通のリストをndarray
3.3. Scikit-image: 画像処理¶ 著者: Emmanuelle Gouillart scikit-image は画像処理に特化した Python 画像ライブラリで、 NumPy 配列を画像オブジェクトをネイティブに扱います。この章では scikit-image を多様な画像処理タスクにどう利用するかや NumPy や Scipy などの他の Python の科学技術モジュールとの連携についても扱います。 参考 基本的な画像操作、たとえば画像の切り抜きや単純なフィルタリングなど、多くの単純な操作は NumPy や SciPy でも実現できます Numpy と Scipy を利用した画像の操作と処理 を参照して下さい。 この章を読む前に前の章の内容について慣れておく必要があります、マスクやラベルといった基本操作は準備として必要です。
機械学習といえば「Python」です。なぜPythonなのかというと、数値演算や機械学習に関するライブラリがたくさん揃っているからだそう。行列がとても扱いやすいNumPy、グラフ描画が簡単にできるmatplotlib、機械学習のscikit-learnなどなど… 機械学習ではこの3つのライブラリを大いに活用します。 まずは今回はscikit-learnを使った機械学習ではかなり重要になってくる「NumPy」を学びます。 私はPythonもはじめてなのでまずはPythonの概要を把握しつつ、「100 numpy exercises」というNumPyを基礎から学べる問題集を写経して学習したいと思います。 環境構築 まずは環境構築です。詳しくは下記のリンクに飛んで確認いただきたいのですが、Macの場合は、Pythonのバージョン管理システムである「pyenv」と、分析環境を構築するのに便利な「A
はじめに 先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も考慮した実装になっている。 sinhrks.hatenablog.com 上にも書いたが、Daskは NumPy や pandas を置き換えるものではない。数値計算のためのバックエンドとして NumPy や pandas を利用するため、むしろこれらのパッケージが必須である。 Dask は NumPy や pandas の API を完全にはサポートしていないため、並列 / Out-Of-Core 処理が必要な場面では Dask を、他では NumPy / pandas を使うのがよいと思う。pandasとDas
Here is a short bash script that you may use to install NumPy on Maya’s internal Python binary. If you want to use NumPy functions in Maya, this would be useful. #!/usr/bin/env bash # Before installing separate Python packages for MayaPy, check whether MayaPy just can use # the system-wide packages in your `site-packages` directory. You can check it by # inserting the following command in the begi
Examples of Image Search Engines Image Descriptors Tutorials by Adrian Rosebrock on January 27, 2014 One Ring to rule them all, One ring to find them; One ring to bring them all and in the darkness bind them. The image search engine we are about to build is going to be so awesome, it could have destroyed The One Ring itself, without the help of the fires of Mt. Doom. Okay, I’ve obviously been watc
NumPyとは Pythonの数値計算ライブラリ。中身がCで書かれているため、適切に使えばすごく速い計算ができる。 統計処理の関数(および日本語リファレンス)はRのほうが充実してる気がする。 インストール Ubuntuの場合 $ sudo apt-get install python-numpy WindowsとかMacとかで使いたい場合はこのサイトが参考になる。 モジュール名がnumpyなので、Pythonコード内で import numpy とすれば使えるが、いちいち5文字も書くの面倒なので import numpy as np と省略するか、もっと割りきって from numpy import * とする。以下この最後のやり方でインポートしたつもりで書く。 データ型 NumPyで使うデータ型は以下のとおり。 bool inti int8 int16 int32 int64 unit8
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く