Lux is a distributed full-text search engine library. It helps to retrieve large amount of documents efficiently.
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日本語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。 圧縮新聞 このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。 生成例 しょうゆ・みそ業界大手のNOVA(大阪市)が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが21日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに6者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。 しくみ こういった人工無脳みたいな文章生成をするには形態素解析と
2007.11.15 Python から Yahoo! 日本語形態素解析Webサービスを使う + pydot (3) テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python Python から Yahoo! 日本語形態素解析Webサービスを使う (1) と Python から Yahoo! 日本語形態素解析Webサービスを使う (2) で Yahoo! 日本語形態素解析Webサービス API を使って指定した文から指定した品詞の単語を取り出すことができるようになった。 ということで、ここから応用。せっかく pydot を使ってグラフが書けるようになったのだから、取り出した単語をグラフで表現してみましょうかと。 #!/usr/bin/env python #-*- coding: utf-8 -* from webma import * import pydot
コンピュータに1980年代以前から親しんでいる人は、「人工無脳」と聞くと、ある種のノスタルジーと共に思い起こすものがあるんじゃないかな。 「何それ?」という人のために少し解説すると、人工無脳というのは一種のお遊びプログラムのことで、チャットで人間と会話をしてくれるロボットのこと。海外ではChatter Botと呼ぶのが一般的みたいだね。 もちろん、会話の精度は高くなくて、「何言ってんだコイツ」とか、「会話が全然なりたってないじゃん」なんて場合がほとんどなんだけど、たまに「おっ!」と思わせるようなことを言ったりして、チャット参加者を楽しませてくれる。 そもそも人工無脳(人工「無能」と表記される場合も多いが筆者は「無脳」という表記で統一している)というのは、開発者たちが「こんなもの人工知能と呼べるレベルじゃなくて、人工無脳だよね(笑)」という謙遜から使われだした言葉なんだ。 「あー、昔よく遊ん
cmecab -- Mecab-Python高速バインディング 初出: 2007/7/14 Status: alpha MecabのPythonバインディングの改良高速版です。 SWIGを使わず、Mecabの最低限の機能だけをPython-C APIで実装しました。 mecab-pythonバインディングの以下のメソッドを実装しています。 createTagger Tagger.parseToNode Nodeからのデータ取得(surface, feature, posid, char_type, statのみ) →もう少しくだけた紹介はこちら。 更新情報 →最新情報はこちらでどうぞ [2007/7/16] 多少性能改善。バージョン番号をつけました。0.1 [2007/7/15] 公開。 ベンチマーク結果 1.5kb程度の同一の短いテキストを10000回形態素解析した結果を取得す
Webなどの電子情報の大規模化に伴って、その解析や検索を行うための自然言語処理技術はますます重要になっています。 本コースは、自然言語処理の概要の把握に加えて、比較的標準化された技術・ツールの修得、及びそのための背景知識・基本的概念の理解を主眼としています。本分野において活発な研究活動を行っている(特に当該ソフトウェアを設計・開発した)講師陣が講義・実習指導を担当します。自然言語処理の研究を始めようとされる方、自然言語処理を用いてアプリケーションを開発予定の方、また言語資料の作成・検索に言語処理ツールの利用を考えておられる方には、貴重な機会になると思います。 企画・運営担当:黒橋禎夫、河原達也(京都大学)
皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。 日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし
趣味プログラマやってるわけですが、最近はずっとC言語を書いています。やっぱCはいいですね。あと3Dモデリングに手を出し始めました。目指せ最強の器用貧乏。 というのは置いといて、Yahooのテキスト解析API出ましたね。これは便利そう。というわけで、Pythonのライブラリ置いておきます。 ダウンロード 使い方 ソースに書いてあるんですが、こんな感じです。 [python] import yahooapi.jlp as jlp client = jlp.MAServiceAPI("your_appid") result = client.parse(sentence=u"庭には二羽ニワトリがいる。", results= jlp.MA+jlp.UNIQ, filter = jlp.VERB + jlp.NOUN) print result.ma_result.word_list.word[0
ゼミ用資料 関係のない方はスルーしてください グーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。 無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。 形態素解析とは? 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。 工藤 拓[MeCab 汎用日本語形態素解析エンジン]http://www.jtpa.org/files/M
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く