タグ

2011年7月3日のブックマーク (3件)

  • 文章から名詞を抽出して出現回数を数える - qnzm.log(クニジマログ)

    こちらのエントリを参考にさせていただいて、文章から名詞を抽出して出現回数を数えるスクリプトを作成しました。 YahooWebAPI"日形態素解析"を使って日語文をひらがなに変換、索引用語のソートに利用 | Object Design Blog http://www.my-notebook.net/python/yahooapi-keitaiso.html Yahoo開発者登録して、AppID取得 Yahooアカウント作成 アプリケーションIDの登録 サンプルのappidを、登録時に取得できたアプリケーションIDに置き換える。 BeautifulSoupインストール この解析にはBeautifulSoupが必要。 実行マシンであるWindowsマシンだとeasy_installによる適用がうまくいかなかったので、サイトからアーカイブ取得して展開、setup.pyを実行する形をとった。

    文章から名詞を抽出して出現回数を数える - qnzm.log(クニジマログ)
  • タグクラウドのアルゴリズム (それなりブログ)

    それなりブログ 20台後半からWebエンジニアに転生した人が書く、プログラム・無駄口とかのそれなりのブログ 管理人: kjirou  座右の銘: 「三度の飯より、四度の飯」 タグクラウドの大きさを決めているアルゴリズムはどうなってるのかなと、PHPのTagCloud.phpと、Rubyのtagcloud-rubyを読んみました。 両方ともCSSセレクタ生成等が処理の中に入ってしまっており、ライブラリとしてはやや微妙な感じ。(元のPerlの実装に合わせているからだと思いますが) なので、アルゴリズムだけ貰おうかと。 【最も基的なアルゴリズム】 最終的に、各タグの大きさは25段階の範囲で区分される。 ソース内ではこれを level と読んでおり、0-24の範囲で指定している。 level算出方法は以下の通り 1. 最もタグ付けされている回数が多いタグの回数を取得し、それの平方根を求

  • Pythonを勉強中 vol.10

    今日もDjango関係で、 Pythonを勉強っす。 今回ブログにタグクラウドを表示させたかったので、 作成。 基は、kjirouさんのブログを参考にしました。(パクリっす。) まずは、 ・最もタグ付けされている回数が多いタグの回数 ・最もタグ付けされている回数が少ないタグの回数 を取得する。 で後は格タグに文字の大きさのレベルを付ける。 これもパクリ。 この時に平方根を算出するが、 どれを使えば良いのかが解らなかったので調べてみる。 あるじゃん良いのがw math.sqrt こいつで平方根を簡単に算出出来る。 >>> import math >>> math.sqrt(1) 1.0 >>> math.sqrt(2) 1.4142135623730951 >>> math.sqrt(3) 1.7320508075688772 なるほど。 これは便利っすね。 後ceilもあった。 >>>