ブックマーク / plaza.rakuten.co.jp/kugutsushi (44)

  • Graphviz と日本語のフォント - 傀儡師の館.Python:楽天ブログ

    2007.11.12 Graphviz と日語のフォント テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python この数日 Python から Graphviz を使う( pydot を日語で出力)(3) とかちょこちょこと使っていてふと思った。Graphviz で日語表示をするときに Windows でも *nix でも、どちらでも使えるフォントで何がよいのだろうかと。ちなみに Solaris でも Graphviz + pydot は動いた。Graphviz は Blastwave.org の pkg-get を使えば簡単にインストールできた。 そういえば IPAが日フォントIPAフォント」を一般に配布 が先日あったなと 一般利用者向けIPAフォントのダウンロード を試してみる。アルファベットの文字間隔がちょっと広すぎるのでもう少し詰まっている方

    Graphviz と日本語のフォント - 傀儡師の館.Python:楽天ブログ
  • Python から Graphviz を使う( pydot を日本語で出力)(2) - 傀儡師の館.Python:楽天ブログ

    2007.11.11 Python から Graphviz を使う( pydot を日語で出力)(2) (1) テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python 先日、Python から Graphviz を使う( pydot を日語で出力) を書いたが、不都合があるのでダメ。 まず、先日のやり方だと、graph_from_edges でグラフをリストから作ったあとに、さらに、そこに別のノードを追加して別のフォント属性を指定するとかいったことがちゃんとできなくなってしまう。 そこで、直接、Graph オブジェクトの add_node メソッドには手を入れず、リストの先頭で追加することにした。こうしたやり方をすれば、pydot にまったく手を入れずにフォントの指定等ができる。というか、graph_from_edges に手を入れればよかったわけだけど、今

    Python から Graphviz を使う( pydot を日本語で出力)(2) - 傀儡師の館.Python:楽天ブログ
  • SQLite/Mecab の日本語全文検索をちゃんとやる方法 - 傀儡師の館.Python:楽天ブログ

    2007.11.10 SQLite/Mecab の日語全文検索をちゃんとやる方法 テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python ってみる (1)、SQLite の全文検索を Python から使ってみる (2)、SQLite の全文検索を Python から使ってみる (3) を以前書いたが、これに対して、SQLite Full Text Search with MeCab の方が、 実はfts2のころから簡単にユーザーが独自のtokenizerを作って組み込めるようになっていたのですよ・・・。MeCabで分かち書きをした文字列を無駄に持つくらいなら、そのままMeCabをtokenizerとして使えばいいですやん?というわけです。 はい、ごもっともです。 ちなみに、この方は、Tcl 使いのようで Tcl から使っているが Python からも使えるだ

    SQLite/Mecab の日本語全文検索をちゃんとやる方法 - 傀儡師の館.Python:楽天ブログ
  • Python から Graphviz を使う - networkx & PyGraphviz、pydot など - 傀儡師の館.Python:楽天ブログ

    2007.11.08 Python から Graphviz を使う - networkx & PyGraphviz、pydot など テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python AT&T が開発したグラフ描画ツール Graphviz を Python から使いたいと思って、いろいろ調べている最中。 とりあえず、pydot で日語が出せるのは確認できた(別のやり方は後に書く)、pyGraphviz というのもあるのを知る。ロスアラモス研究所 で開発されていて、グラフ操作のための networkx と、グラフ描画のための pyGraphviz という感じのようだ。つまり、AT&T (Graphviz) + ロスアラモス研究所 (networkx) = グレートって感じ。こうしてアメリカに洗脳されていく。。。。。 networkx は easy_inst

  • Python から Graphviz を使う( pydot を日本語で出力) - 傀儡師の館.Python:楽天ブログ

    2007.11.07 Python から Graphviz を使う( pydot を日語で出力) (5) テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python グラフ図を書きたくなったので、pydot がどの程度使えるか調べてみる。 こんな図とか、こんな図とか Python のプログラムから描けたらいいなと。この図は Graphviz - Graph Visualization Software で描かれたもので、この Python のラッパーとなるのが pydot。pydot のオリジナルの作者のサイト を見ると pydot - Python interface to Graphviz's Dot language(Google code) をメインにするよということなので、そちらを中心に見る。でもドキュメントは pydot (version 0.9.10

    Python から Graphviz を使う( pydot を日本語で出力) - 傀儡師の館.Python:楽天ブログ
  • goo と BIGLOBE の評判検索サイト - 傀儡師の館.Python:楽天ブログ

    2007.10.24 goo と BIGLOBE の評判検索サイト カテゴリ:検索 「goo 評判検索」がリニューアル、評判情報をグラフでわかりやすく表示 の  goo 評判検索 と、 BIGLOBE、評判分析サービス「みんなの評判」に紅葉スポットの評判情報を追加 の  BIGLOBE みんなの評判 を見る。 パッと見た目のわかりやすさは goo のが分かりやすい。けれども実際の評判のチェックには BIGLOBE の方が分かりやすい。BIGLOBE は表面のデザインを再検討した方がいいかも。直感的に goo の方は商品の評判でも対象を限ってしまうことによって、特定分野でまず鍛えて強くなるという戦略で、BIGLOBE の方が幅広くやっていこうという感じか。微妙に戦略に差があるような気がする。 BIGLOBE 評判検索 【紅葉版】 の方向はおもしろかもしれない。月別とか、対前年比が出るようにな

    kana0355
    kana0355 2007/10/25
  • TTM: TinyTextMining で簡単なテキストマイニング - 傀儡師の館.Python:楽天ブログ

    2007.10.24 TTM: TinyTextMining で簡単なテキストマイニング カテゴリ:ことばの処理 TTM: TinyTextMining を見る。テキストファイルをドラッグアンドドロップすると、CSV 形式で結果ファイルを作ってくれる。自由記述のアンケートの分析のために作られたのかな。KH-Coder と比べると気軽に使える。 形態素解析は MeCab を使っているので、あらかじめダウンロード、インストールしておく必要がある。結果として作られるファイルは、次のものでクロス集計まで出してくれるのでけっこう便利かもしれない。 語のタグ別出現度数(単語頻度) 語のタグ別出現度数(文書頻度) 語×タグのクロス集計(単語頻度) 語×タグのクロス集計(文書頻度) 語×語のクロス集計(文書頻度) テキスト×語のクロス集計(単語頻度) 使い方は簡単で TTM: 初心者のためのインストールガ

  • R を使い始める (Swivel への言及もあり) - 傀儡師の館.Python:楽天ブログ

    2007.10.02 R を使い始める (Swivel への言及もあり) カテゴリ:カブロボ しばらくオープンソースの統計解析システム R を地道に使ってみることにした。 Rは統計計算とグラフィックスのための言語・環境です。 RはGNUプロジェクトの一つであり、ベル研究所(かっては AT&T、今は Lucent Technology)で J.Chambersと同僚により開発されたS言語・環境に似ています。 RはSを別個に実装したものと考えられます。両者の仕様および実装には幾つかの重要な違いがありますが、S用に書かれたコードの多くは変更なしでRでも実行できます。 R とは (RjpWiki) TPCI - TIOBE Programming Community Index を見ると 50位で 0.072% で、プログラミング言語としてはメジャーとはとらえられないものの、統計処理とかの世界では

    R を使い始める (Swivel への言及もあり) - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/10/02
  • 統計情報のグラフ化とデータコミュニティ - 傀儡師の館.Python:楽天ブログ

    2007.09.13 統計情報のグラフ化とデータコミュニティ カテゴリ:検索 Webビジネス - アメリカの経済をわかりやすくグラフ化した情報を紹介する Blog「Visualizing Economics」(Japan.internet.com) で紹介されているサイト Visualizing Economics を見る。こういうの好きだ。 統計データらくらく検索 で以前に 京都府の統計データ検索システム を見た。都道府県の統計資料の視覚化 とか、Swivel は期待が持てるサービス では、Swivel を見た。Google と公的記録の検索 とかも書いたか。可能性を感じると、我ながらけっこうくどく登場するなぁ。 Tasty Data Goodies (The Official Weblog of Swivel) の How to blog a graph を見たら、TypePad の

    統計情報のグラフ化とデータコミュニティ - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/09/14
  • テキスト・マイニングツールの市場シェア - 傀儡師の館.Python:楽天ブログ

    2007.08.22 テキスト・マイニングツールの市場シェア カテゴリ:ことばの処理 国内BI市場は10%増 ブログ分析でテキスト・マイニングが急成長、ITR調査で判明。 2006年度のテキスト・マイニング市場は前年比約24%増の11億5000万円。 表に現れる金額は、意外に小さい。金額ベースのシェアは、次のようになっているらしい。上位4社で 81%。60% が野村総研ということで、まあ、大企業向けのコンサルに強いところから高額なところでできるという優位性もあるだろうな。カタログベースで見ても、よくできている感じに見えるけど、できがいいだけじゃないだろう。製品買ってはいおしまいの世界じゃないから。 野村総合研究所 60% 数理システム7.8% クオリカ 7.8% エス・ピー・エス・エス 5.4% だけれど、BI市場としてみたときにそうなるということで、テキストマイニング全般で見ると、もっと

    テキスト・マイニングツールの市場シェア - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/08/23
  • 「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみて - 傀儡師の館.Python:楽天ブログ

    2007.08.20 「Yahoo!形態素解析をMeCabで無理やり再現してみる」を試してみて カテゴリ:ことばの処理 Yahoo!形態素解析をMeCabで無理やり再現してみる を読む。 MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 学習させるときには、辞書と、正解データを用意しなきゃならない。これが面倒だから、なかなか自作の辞書を作る気にならない。Wikipedia のデータをダウンロードすれば、大量のテキスト文章は得られるけれども、正解出力を手作業で作るのは大変だし、元辞書も作らなきゃならないから、不可能に近い。 じゃわ、正解出力をちゃんと手作業で作るのではなくて、Yahoo! API の 日形態素解析Webサービス を使って得られた解析結果を擬似的

    「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみて - 傀儡師の館.Python:楽天ブログ
  • 博報堂とNECが連携してブログの商品評価 - 傀儡師の館.Python:楽天ブログ

    2007.08.19 博報堂とNECが連携してブログの商品評価 カテゴリ:ことばの処理 博報堂、ブログ分析で商品評価 を読む。博報堂がNECの技術を使って商品化したようだ。テッキーとマーケッターが組むというのはよい方向だろう。 ちなみに、買物におけるWebの影響度調査 結果速報 買物をする際にWebで情報収集する比率が高いのは、「パソコン」「デジカメ」「自動車」。買物時にWebで情報収集する率は、平均30.8%。 らしい。 結局のところ 企業のM&Aプロセスにおける戦略的なブランディング実施プログラム 「博報堂M&Aブランディング・プログラム」を開発、格的な運用開始 とか、購買を決定する瞬間の心境変化や行動の実態を把握する 「デタミナント調査」を開発、運用開始 とか、そうした文脈の中に組み込まれてブログ分析を使うのかな。 ブログを考えると、トーカティブ・マイノリティーなんて言葉が浮かんで

    kana0355
    kana0355 2007/08/23
  • クチコミクリック - 傀儡師の館.Python:楽天ブログ

    2007.08.22 クチコミクリック カテゴリ:検索 クチコミクリップ=個人ブログの情報を企業サイトに表示する販促秘策 を読む。 カレン が クチコミクリップ というサービスを始めたという記事。この記事、カレンのリンクが http でなくて、ttp とかなっていてリンク切れになっている。リンクチェックってはいってないのね、とよけいなところにこだわる。 アスクドットジェーピーと日経リサーチ、検索データのデータフィード を書いたときに、 だんだんと事業者間のこうした提携が増えるだろうな。全部自前よりも、得意なところに専念して、他社が得意なところはサービスを使うと。 と書いたが、このクチコミクリックでも、kizasi.jp のデータを使っているのね。マッシュアップの時代だからコラボはそれを効率化するためにも必然なのかもしれない。 加えて、人の目視が入る。フィルタリングソフトも、悪質なサイト、エ

    クチコミクリック - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/08/23
  • 情報大航海プロジェクトのその後 - 傀儡師の館.Python:楽天ブログ

    2007.08.03 情報大航海プロジェクトのその後 カテゴリ:検索 ブログウォッチャー、法人向け体験談ブログ抽出サービス「PETTATO SHOOTI」 を読む。 エイビーロードがこれを導入ということだが、分かりにくい。ブログウォッチャー の 【リリース】エイビーロードへの提供開始07/07/31 を見て、イースター島のページの下の方を見て、これかなというのが分かった。powered by SHOOTI というところがある。もうちっと分かりやすい形でリリース出した方がいいんじゃないのと思った。 だいたい、プレスリリース垂れ流しの記事が多いわけだし。あとエイビーロードのページって Goole Maps とかも使っているのね。いわゆる流行ものの技術もあれこれ使って仕上げたサイトになっている。テッキーとマーケッターの組み合わせというのはよい組み合わせだろう。 だけど、【リリース】「情報大航海プ

    情報大航海プロジェクトのその後 - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/08/03
  • カカクコム 表記のゆれも吸収した検索 - 傀儡師の館.Python:楽天ブログ

    2007.07.24 カカクコム 表記のゆれも吸収した検索 カテゴリ:検索 カカクコム、“表記ゆれ”に対応した商品検索サービス開始--日語解析技術生かし を読む。 例えば、「幅」と「W」など異なるサイズ表記の商品同士であっても、任意の表記によるサイズ入力でこれらを一括検索できる。 また、新語抽出技術を応用した辞書ファイルにより、新商品や新たな属性情報にもすばやく対応できるとしている。 何気に、「幅」と「W」を一括検索できたりするのは便利かもしれない。「横」も対応しているのかな。 「ショッピングサーチ」でまず インテリア小物 時計 「横」で検索して、その結果に最初に出てきた 縦置き横置き兼用の斬新な掛時計!!激安販売に店長大激怒!!でも売っちゃいます。北欧デザインの壁掛け時計 LEON CM102 置き時計 新品 のページを見る。「横200mm」が見つかる(サイズ 縦500mm×横200m

    kana0355
    kana0355 2007/07/24
  • Eコマース向け検索エンジンの WiSE EC が日本語類語辞書など機能強化したらしい | 傀儡師の館.Python - 楽天ブログ

    2007.07.20 Eコマース向け検索エンジンの WiSE EC が日語類語辞書など機能強化したらしい カテゴリ:検索 純国産のEコマース向け検索エンジン「WiSE EC」、日語類語辞書など機能強化 を読む。 日語類語システム辞書が追加された。この辞書では、同じ意味の語や揺れ語、言い換え語などが、見出し語として約6万7000語が含まれている。 こういう辞書って、個人で作るのはやっぱり面倒で辛い。こういうところは商用で資金投じてできる強みになるだろうな。でも、どんどん新しくしないといけないと思ってWiSE ECを見てみるが、辞書のアップデートサービスはないみたいね。 ジャストシステムは ジャストシステムとはてなATOK 2007」の「はてなダイアリーキーワード」を活用したサービスの提供で連携 ~第一弾として「はてなダイアリーキーワード辞書 for ATOK」を日より提供開始~

    kana0355
    kana0355 2007/07/20
  • 進化する株式検索のWeb技術 - 傀儡師の館.Python:楽天ブログ

    2007.07.19 進化する株式検索のWeb技術 カテゴリ:カブロボ 進化する株式検索のWeb技術 を読む。次のものが取り上げられている。 Yahoo! JAPAN ファイナンス 株のネタ帳 みんなの株式 BuzTunes kizasiチャンネル みんなの株式は知らなかったので、とりあえず 『みんなの株式』へようこそ! を見る。けっこうお金かかっているのね。 上記の記事では取り上げられていないもので、ちょっと違うけれど、個人投資家のアンケートで IR を評価する IR-Strategy なんてものもある。 ふと考えてみると 証券取引法 的には、こういうサイトでの売買の勧誘あるいは、株価の予測はどういう扱いになるのだろうか。微妙なところが実はあるんじゃないかと思う。証券取引監視委員会 はいかに考えているのだろうか。当然のことながら仕手や、怪しげ系の投資顧問会社などは、有効にこうしたサイトを

    kana0355
    kana0355 2007/07/20
  • クチコミプロモーション効果の測定 CA-Buzz Optimizer - 傀儡師の館.Python:楽天ブログ

    2007.07.19 クチコミプロモーション効果の測定 CA-Buzz Optimizer カテゴリ:検索 クチコミプロモーション効果を可視化する「CA-Buzz Optimizer」 を読む。次のことができるらしい。 従来の広告効果指標 意見や評判の量/質/推移 商材ごとのクチコミシェア比率 商材に対して消費者の印象/反応度合/行動 行動パターンのレベルごとに、商材に対するユーザーの印象/反応度合を数値化 そして、 各段階の数をクチコミした全体数で割ることによって、Blog 出現回数に対しての「共有」につながったコンバージョン率など、転換率を測定することも可能。 ということで、サイバーエージェントとニフティが得意なところを持ち寄ってできたもののようだ。この手の得意なものを持ち寄って一つの製品とするパターンはまだ増えてきそうな感じ。特に格的な技術を持っている会社と、ノリのよい技術を持って

    クチコミプロモーション効果の測定 CA-Buzz Optimizer - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/07/20
  • NRI の連想検索エンジン - 傀儡師の館.Python:楽天ブログ

    2007.07.15 NRI の連想検索エンジン カテゴリ:ことばの処理 NRI、関連キーワード見つける「連想検索エンジン」 を見る。 開発にはRuby on Railsを採用したほか、ミドルウェアにはオープンソースソフトを採用した。 よくわかんない記事なので、別の記事を探すと、NRI、キーワードから関連語句を提案する「連想検索エンジン」を開発 に 検索フロント部分にはWebアプリケーションフレームワーク「Ruby on Rails」を、ミドルウェア層には日形態素解析エンジン「MeCab」、全文検索エンジン「Senna」、データベース「MySQL」、Webサーバ「Apache」と、各種オープンソースソフトを採用。 と、何を使っているか明示されている。すっきりした。適当な書き方しないでちゃんと明示できるところはすればいいのにね。前者の記事だと、何も知識がない人には Ruby on Rai

    kana0355
    kana0355 2007/07/16
  • 新幹線要約 - 傀儡師の館.Python:楽天ブログ

    2007.07.15 新幹線要約 カテゴリ:ことばの処理 「新幹線要約」のための文末整形 をたまたま見る。ネーミングがいいなぁとか思ってしまった。機能語の補完による文生成を用いた濃縮還元型要約モデルとかも。 しかし、新幹線なんていうのを入れてしまっていいのかな。登録商標ではないのかな。といらぬ心配をする。 でも、わかったようなわからんようなネーミングだったりするな。。。。。 お気に入りの記事を「いいね!」で応援しよう いいね!0 シェアする Last updated 2007.07.16 03:47:47 コメント(0) | コメントを書く [ことばの処理] カテゴリの最新記事 剽窃レポート暴きに怯えるのは学生だけかな 2009.12.29 コメント(1) 重要指標としての言葉の出現頻度 2009.04.11 mecab-0.98pre1 2009.03.08 もっと見る

    新幹線要約 - 傀儡師の館.Python:楽天ブログ
    kana0355
    kana0355 2007/07/16