[B! 形態素解析] wakizakaのブックマーク

wakizaka id:wakizaka

形態素解析に関するwakizakaのブックマーク (10)

Lux: Distributd full-text search engine
Lux is a distributed full-text search engine library. It helps to retrieve large amount of documents efficiently.
wakizaka 2008/04/21
形態素解析

c++

オープンソース

全文検索
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
wakizaka 2008/02/08
javascript

形態素解析
リンク
「圧縮新聞」を作った - phaの日記
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と
wakizaka 2007/11/25
php

ruby

自然言語処理

人工無能

形態素解析
リンク
Python から Yahoo! 日本語形態素解析Webサービスを使う + pydot (3) - 傀儡師の館.Python - 楽天ブログ（Blog）
2007.11.15 Python から Yahoo! 日本語形態素解析 Webサービスを使う + pydot (3) テーマ：プログラミング言語 Python を使う(336) カテゴリ：Python Python から Yahoo! 日本語形態素解析 Webサービスを使う (1) と Python から Yahoo! 日本語形態素解析 Webサービスを使う (2) で Yahoo! 日本語形態素解析 Webサービス API を使って指定した文から指定した品詞の単語を取り出すことができるようになった。ということで、ここから応用。せっかく pydot を使ってグラフが書けるようになったのだから、取り出した単語をグラフで表現してみましょうかと。 #!/usr/bin/env python #-*- coding: utf-8 -* from webma import * import pydot
wakizaka 2007/11/17
python

API

yahoo

形態素解析
リンク
マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは:コラム - CNET Japan
コンピュータに1980年代以前から親しんでいる人は、「人工無脳」と聞くと、ある種のノスタルジーと共に思い起こすものがあるんじゃないかな。「何それ？」という人のために少し解説すると、人工無脳というのは一種のお遊びプログラムのことで、チャットで人間と会話をしてくれるロボットのこと。海外ではChatter Botと呼ぶのが一般的みたいだね。もちろん、会話の精度は高くなくて、「何言ってんだコイツ」とか、「会話が全然なりたってないじゃん」なんて場合がほとんどなんだけど、たまに「おっ！」と思わせるようなことを言ったりして、チャット参加者を楽しませてくれる。そもそも人工無脳（人工「無能」と表記される場合も多いが筆者は「無脳」という表記で統一している）というのは、開発者たちが「こんなもの人工知能と呼べるレベルじゃなくて、人工無脳だよね（笑）」という謙遜から使われだした言葉なんだ。「あー、昔よく遊ん
wakizaka 2007/11/15
人工無能

webサービス

形態素解析

自然言語処理
リンク
cmecab -- Mecab-Pyhton高速バインディング
cmecab -- Mecab-Python高速バインディング初出: 2007/7/14 Status: alpha MecabのPythonバインディングの改良高速版です。 SWIGを使わず、Mecabの最低限の機能だけをPython-C APIで実装しました。 mecab-pythonバインディングの以下のメソッドを実装しています。 createTagger Tagger.parseToNode Nodeからのデータ取得（surface, feature, posid, char_type, statのみ) →もう少しくだけた紹介はこちら。更新情報 →最新情報はこちらでどうぞ [2007/7/16] 多少性能改善。バージョン番号をつけました。0.1 [2007/7/15] 公開。ベンチマーク結果 1.5kb程度の同一の短いテキストを10000回形態素解析した結果を取得す
wakizaka 2007/07/18
python

mecab

形態素解析
リンク
「メディア情報処理専修コース」本年度実施コース>自然言語処理技術
Webなどの電子情報の大規模化に伴って、その解析や検索を行うための自然言語処理技術はますます重要になっています。本コースは、自然言語処理の概要の把握に加えて、比較的標準化された技術・ツールの修得、及びそのための背景知識・基本的概念の理解を主眼としています。本分野において活発な研究活動を行っている（特に当該ソフトウェアを設計・開発した）講師陣が講義・実習指導を担当します。自然言語処理の研究を始めようとされる方、自然言語処理を用いてアプリケーションを開発予定の方、また言語資料の作成・検索に言語処理ツールの利用を考えておられる方には、貴重な機会になると思います。企画・運営担当：黒橋禎夫、河原達也（京都大学）
wakizaka 2007/07/02
あとで

自然言語処理

形態素解析
リンク
mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし
wakizaka 2007/06/21
形態素解析

アルゴリズム

mixi

自然言語処理
リンク
inforno :: Python版Yahooテキスト解析 APIライブラリ
趣味プログラマやってるわけですが、最近はずっとC言語を書いています。やっぱCはいいですね。あと3Dモデリングに手を出し始めました。目指せ最強の器用貧乏。というのは置いといて、Yahooのテキスト解析API出ましたね。これは便利そう。というわけで、Pythonのライブラリ置いておきます。ダウンロード使い方ソースに書いてあるんですが、こんな感じです。 [python] import yahoo api.jlp as jlp client = jlp.MAServiceAPI("your_appid") result = client.parse(sentence=u"庭には二羽ニワトリがいる。", results= jlp.MA+jlp.UNIQ, filter = jlp.VERB + jlp.NOUN) print result.ma_result.word_list.word[0
wakizaka 2007/06/20
yahoo

形態素解析

python
リンク
形態素解析エンジンSenを使う - 不可視点
ゼミ用資料　関係のない方はスルーしてくださいグーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。形態素解析とは？対象言語の文法の知識（文法のルールの集まり）や辞書（品詞等の情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの品詞を判別する作業を指す。自然言語で書かれた文を、形態素（言語で意味を持つ最小単位）に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。工藤拓[MeCab 汎用日本語形態素解析エンジン]http://www.jtpa.org/files/M
wakizaka 2007/05/12
sen

java

まとめ

あとで

プログラミング

形態素解析
リンク
1