Pythonはなぜ書きやすく読みやすいと言われるのか?Python用のAI(人工知能)関連ライブラリーが豊富なのは、そもそもなぜなのか?Pythonプログラマーはどんな開発環境を使っているのか。Pythonを使う上で気になる3つの疑問に答える。 Q1 なぜ書きやすい? A 面倒な「型宣言」が不要 Pythonはプログラムのソースコードが書きやすく、他人の書いたソースコードでも読みやすいと言われる。その理由は大きく3つある。 第1はライブラリーの充実だ。機械学習など第三者が作った外部ライブラリーだけでなく、Python本体が同梱する標準ライブラリーの機能も豊富だ。これによりCSVファイルを操作したりWebサイトにアクセスしたりする処理が数行で書ける。 第2はPythonが変数の型が実行時に決まる動的型付けを採用するため、プログラムを書くときに型を意識しなくていいことだ。Javaなど他の言語な
Introducing xlwings Lite Run Python code directly in Excel without a local Python installation! xlwings (Open Source) This it the core Python package. It requires a local installation of both Excel and Python and works on Windows and macOS. Write Python scripts to automate Excel Write macros in Python and run them at the click of a button Write user-defined functions (UDFs) in Python (Windows-only
概要 急にリコメンドに興味を持ちまして、ニュースの類似記事検索アルゴリズムを試してみました。 アルゴリズムは、自然言語分野ではよく使われているTF-IDFとCosine類似度を用いました。 TF-IDFとは 文章をベクトル化するアルゴリズムの一つです。 TF : Term Frequency。単語の出現頻度。 IDF : Inverse Document Frequency。直訳すると「逆文書頻度」。 珍しい文字が入ると値が大きくなる為、単語の「希少性」を表しているとも言えます。 各文章の単語を抜き出し、全ての単語に対してTF(その文章が保持する単語数)とIDF(希少性)を掛け合わせたベクトルを作成します。このベクトルを用いることで、文章を用いた情報検索やクラスタリングが可能になります。 詳しくはこちらの記事などが分かりやすいです。 Cosine類似度とは 2つのベクトルがどれくらい同じ向
ECサイト向けのレコメンデーション・エンジンを構築すると仮定しましょう。 構築する方法としては、コンテンツベースか協調フィルタリングを使用する2つの進め方があります。それぞれのメリットとデメリットを見てみましょう。そして、コンテンツベースエンジンを 簡単に実装する方法 について探りましょう(Herokuにデプロイ可能です)。 コンテンツベースを使用するとどのようになるのか先に知りたい方は、ほぼ同じレコメンデーション・エンジンが Groveの商品(紹介)ページで使用 されていますので、見てみてください。 コンテンツベースのレコメンデーション・システムはどのように機能するのか 商品説明や商品名、価格などの実際のアイテムプロパティなどが使用されるため、コンテンツベースシステムで構築されていると周りには思われているのではないでしょうか。これまで一度もレコメンデーション・システムの使用を検討したこと
Machine Learning with Scikit Learn (Part I)(2015/8/10)のつづき。今回は、後編のPartIIの動画の内容を簡単にまとめたい。 4.1 Cross Validation ラベル付きデータが少ないときに有効な評価法であるK-fold cross-validationについての説明。訓練データをK個のサブセットに分割し、そのうち1つのサブセットをテストデータに残りK-1個のサブセットを訓練データにして評価する。これをテストデータを入れ替えながらK回評価し、その平均を求める。 この手順は下のように書ける。bool型のマスクを使ってテストデータと訓練データをわけている。 k = 5 n_samples = len(X) fold_size = n_samples // k scores = [] masks = [] for fold in ran
今年の7月に開催されたSciPy2015の講演動画がEnthoughtのチャンネルで公開されている。今年も面白い講演が多いのでいろいろチェックしている。 今年の目標(2015/1/11)にPythonの機械学習ライブラリであるscikit-learnを使いこなすというのが入っているので、まずはscikit-learnのチュートリアルを一通り見ることにした。 Part IとPart IIを合わせると6時間以上あり非常に充実している。IPython Notebook形式の資料やデータは下記のGitHubアカウントで提供されている。ノートブックをダウンロードし、実際に手を動かしながらチュートリアルを進めると理解がより進むかもしれない。 あとで振り返りやすいように内容を簡単にまとめておきたい。 1.1 Introduction to Machine Learning 機械学習システムの流れ。教師あ
scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く