タグ

mecabに関するmachatakaのブックマーク (12)

  • 「似ている」を探そう

    今日から8月ですね!我が家のも夏毛に生え替わるようで、私も毛だらけです。志田です。 さて、今回は「似ている」を探したいと思います。なにかとなにかがどのくらい似ているのか、という情報があれば、それが役に立つシーンはたくさんありますよね。 ブログの似ている記事を探したり、趣味の似ているユーザを探したり、用途は様々です。 「何が似ているのか」という尺度にも様々あるように、類似度というのはいろいろな観点から調べることができます。 今回は、アシアルブログから似ている記事を探してみたいと思います。 手順としては、Mecabというライブラリを使って記事を形態素解析し、単語に分けます。 そして、元となる記事とその他の記事全体を見て、コサイン類似度という手法を用いて記事同士の類似度を測定し、似ている記事を3件見つけます。 (1) ブログ記事を取得する ブログ記事を取得し、ディレクトリに保存しておきます。

    「似ている」を探そう
    machataka
    machataka 2011/08/06
    コサイン類似度
  • MeCabインストールメモ - MediaArtWiki

    MeCabがver.0.9になり、IPADIC2.7対応となり、 Vine3.2のapt-getでさっくりインストールできるようになった。 しかし大幅な仕様変更のために0.81と同じように使うことはできない。 MeCabの使い方をじっくり調べてみる。 追記: 以下、vine3.2 + MeCab0.91 + PHP-MeCab-0.0.2について書いているが、 vine4.1 + mecab0.95 + php_mecab-0.0.3でもほぼ同じやり方でOK。 vine3.2 + MeCab0.91インストール MeCab $ apt-cache search mecab mecab - Yet Another Part-of-Speech and Morphological mecab-devel - Header files and libraries for developing

  • NAL研卒業研究ノート:: Wikipediaの項目名からmecab辞書を作成した

    以下の記事を参考に、Wikipediaの項目名からmecabの辞書を作りました。 MeCabの辞書にはてなキーワードを追加しよう - 不可視点 手抜き固有表現抽出の試行 - negatonの日記 項目名一覧は以下のURLからダウンロードできます。 http://download.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz % wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz % gzip -d jawiki-latest-all-titles-in-ns0.gz % python createcsv.py jawiki-latest-all-titles-in-ns0 > wikipedia.

  • クデラボ -KudeLab- » PHPでMeCabを使って形態素解析をするときのメモ

    PHP で MeCabと言えば MeCab PHP extension を使うのが一般的だろうと思うけど、今回はそれを使わずにやってみようというお話。 extension を使えない環境での MeCab 使用に役に立つかも。 PHP で MeCab を使うときに面倒なのは、解析したい文章を直接システムコマンドの引数として渡すことができないところ。 ファイル名なら引数として渡せるので、一旦ファイルに保存して、それを引数で渡して解析する・・・という方法が採れなくはないけど、なんか美しくない。 やはり、ファイルなど使わず、そのまま直接解析させたい。 そんなときは、結論から書くと、以下のようにすればいい。 $descriptorspec = array( 0 => array("pipe", "r") , 1 => array("pipe", "w") ); $process = p

  • mecab辞書にwikipediaのタイトル名を追加 - kokotech

    wikipediaのタイトルを追加しようとしたらいくつかハマったので。 環境はFedora10。 まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん!のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい    名詞,一般,*,*,*,*,けい,ケイ,ケイ おん    名詞,一般,*,*,*,*,おん,オン,オン !      記号,一般,*,*,*,*,!,!,! の      助詞,連体化,*,*,*,*,の,ノ,ノ せい    名詞,非自立,一般,*,*,*,せい,セイ,セイ で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t       * w       * i       * t       * t       * e      

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

  • PHPでMecab

    形態素解析をする必要が出たので、PHPの『Mecab Extension』を組み込んで試してみました。 インストールは簡単で、サンプルプログラムを作って動作確認をしてみました。 『5』が『5』と『』に分かれてしまうのは仕方ないのか? ****[ソース]**** <?php dl('mecab.so'); $mecab = mecab_new(); $str = '私には夢があります。ベッカム夢の夢 by 菊蔵下さいabcマートです。5指。ABCマート。ABCマートです。123'; //名詞を格納する配列 $noun_array = array(); if ($node = mecab_sparse_tonode($mecab, $str)) { while ($node) { $node_array = mecab_node_toarray($node); //char_typeが2

  • GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

    GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー!古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

    GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • MeCab extensionを使ってTwitterで流行っているキーワードをクラウド化 - Do You PHP はてブロ

    ほとんどMeCab extension使いたさにあれこれこじつけた感ありありですが。。。 MeCabはオープンソースとして公開されている形態素解析エンジンの1つで、GPLもしくはLGPL/BSDライセンスの下に公開されています。他の形態素解析エンジンとしては、KAKASIやChaSenなどが知られていますね。 http://mecab.sourceforge.net/ で、PHPの拡張モジュールとしてはPage2で公開されているものがあります。 http://page2.xrea.jp/#php_mecab GitHub - rsky/php-mecab: MeCab binding for PHP これを使って、Twitterで流行っているキーワードをクラウド化するコードを書いてみました。なお、CSSはタグクラウドのスタイルを考える - collisions.dotimpac.toを参考

    MeCab extensionを使ってTwitterで流行っているキーワードをクラウド化 - Do You PHP はてブロ
  • 1