2013/10/03 · The TF-IDF ranking is a measure of perplexity between these two distributions. If the distribution of query words in a document is unusual given ...
2013/10/03 · The TF-IDF ranking is a measure of perplexity between these two distributions. If the distribution of query words in a document is unusual given ...
この投稿は現実逃避アドベントカレンダー2013の4日目の記事です。 2日目の記事でBing APIを使ってフェッチしたhtmlを使うので、2日目を先に読んでおくと理解しやすいです。 本稿を3行でまとめる scikit-learnというPythonのライブラリを調べた 2日目で保存したhtml内の語のtf-idfを計算した 語とtfidfのマッピングを確認した 参考 scikit-learn公式、テキストの素性抽出ドキュメント scikit-learnを使ってTweet中の単語のtfidf計算 完成品 Fork me! 理論 tfidfの定義 tf-idfは tf * idf の値。あるドキュメント(文書)集合において、あるドキュメントの、ある単語につけられる。tf-idfが高い語は重要と考えることができる。情報検索において、語への重みづけに使える。 tf (Term Frequency)は
株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。
Introduction こんにちは、k_oomoriです。今回は非負値行列因子分解 (Non-negative Matrix Factorization, 略してNMF) を用いたデータの解析について触れてみたいと思います。 まず最初に用語の定義として、「非負値行列」とは全ての要素が非負値(0以上の実数)であるような行列を指すこととします。これを用いると、NMFとは「与えられた非負値行列を2つの非負値行列との積に(近似的に)分解するアルゴリズム」 と表現できます。これにより、なんとの中に潜んでいる特徴を抽出することができるというのです!これについては後ほど説明します。 ひとまずはの具体例を見てみましょう。いくつかのニュース記事の中に特定の単語がそれぞれ何回現れるかを数えるという状況を想像してください。例えば記事が3つ、対象とする単語が5つの場合、出現回数を次のように並べることができます。
D3.js は「ビジュアライズ用のライブラリー」だと紹介されがちなんだけども、意外にも D3.js にはグラフを描画する機能がない。 D3.js のトップページには次のように書いてある。 D3.js はデータからドキュメントを生成するためのライブラリーです。D3 は HTML, SVG, CSS を使ってデータに命を吹き込みます。Web 標準を重要視しているので、独占的なフレームワークに縛られません。強力なビジュアライズ用のコンポーネントと data-driven な DOM 操作手順を組み合わすことで、モダン ブラウザーの能力を最大限に活用できます。 D3.js is a JavaScript library for manipulating documents based on data. D3 helps you bring data to life using HTML, SVG
説明 D3.jsでJSON形式のファイルを読み込むには、d3.json()メソッドを使います。最初のパラメーターに読み込むJSON形式のファイルのパスを指定します。最後のパラメーターには読み込んだデータを処理するための関数を指定します。関数にはエラーとデータ全体が渡されます。JSON形式のファイルの場合、データに割り当てた名前(Key)が、JavaScriptのプロパティに対応します。サンプルの場合、Keyがlabelというプロパティ名で、データがvalueというプロパティ名でアクセスすることができます。 サンプル [サンプルを実行する] [サンプルをダウンロード] HTMLソース <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>D3.js サンプル</title> <link rel="stylesheet" hre
テックブログ、どれだけチェックしてる? 国内のリーディングカンパニー・スタートアップ、海外企業、そして個人ブログの計4分野における注目のテックブログを一覧でまとめました。 各社が手掛けるWEBサービスの開発思想や使われている最新技術の紹介はもちろん、技術トレンドやいますぐ業務で使えるかもしれないTips、イベント情報まで盛りだくさんの内容です。 成長志向のエンジニアなら、随時チェックすることで必ずシゲキ与えてくれるブログたち。この機会に気になるブログを改めてチェックしてみてはいかがでしょうか? 【国内WEB・IT企業】 クックパッド http://techlife.cookpad.com/ サイバーエージェント http://ameblo.jp/principia-ca/ ミクシィ http://alpha.mixi.co.jp/ ヤフー http://techblog.yahoo.co.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く