TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日本語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日本語形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク
何とも言えん不思議な雰囲気で楽しかった.京大町家キャンパスもサイコー.うじひささん,お疲れさまでした. MeCab LiveCodingのなかでMeCabがチラッと出てきたので,その場でチャチャっとMacにインストールしてみました. $ sudo port install mecab +utf8 # これでutf-8もバッチリ?+sjisでShift-JISの辞書ファイルも $ sudo port install rb-mecab これで,RubyからMeCabを呼ぶことができます.素敵ですね!PerlやPython用のも用意されてるみたいです. 続きで,MeCabを試してみます. MeCabの大まかな使い方 require 'MeCab' str = "形態素解析をしちゃいます." # ChaSen互換の出力をする chasen = MeCab::Tagger.new("-Ochasen
今形態素解析で最も熱いと授業でTAが力説していたMeCab(ver0.95)をMacOSX(ver10.4.9)へインストールしてみた。そのログっぽいやつ。 0.MeCabとその仲間をダウンロードする まずは準備としてMeCabとそれに使用する辞書をダウンロードする。 http://downloads.sourceforge.net/mecab/mecab-0.95.tar.gz http://downloads.sourceforge.net/mecab/mecab-ipadic-2.7.0-20060707.tar.gz IPA辞書が推奨らしいのでおとなしくしたがってみた。 気分によってJUMANを使ってもいいと思う。。。使ったことないけど。 ダウンロードしたやつは適当なフォルダに入れとく。 ちなみに自分は/usr/local/src/mecabに入れたのでご承知を。 1.MeCabの
こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明
php_mecab-0.3.0.tgz PHP 5.3/6.0に対応。 PHP6のUnicode文字列とC文字列の相互変換をするエンコーディングを指定するためのphp.iniディレクティブmecab.internal_encodingを追加。 指定できる値はICUが対応しているエンコーディング名で、デフォルト値はUTF-8。 PHPスクリプト内ではini_set()のほか、mecab_set_encoding()関数やMeCab::setEncoding()メソッドで指定可能。 ini_get(), mecab_get_encoding(), MeCab::getEncoding()で現在の値を取得することもできる。
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く