このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。
しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、
最近、統計・機械学習・データマイニング関係の勉強会に顔を出しているわけですが、自然言語処理の勉強会がなぜか無かったので作りたいと思い、とりあえずグループを作りました。きっと大学の研究室レベルとか研究会とかがいっぱいあるのだと思いますが、社会人でも週末で気軽に参加できるオープンな勉強会、という点では意義があるのではないかと思います。 自然言語処理勉強会@東京 | Google グループ まだ何もありませんが、興味がありましたらご参加ください。自然言語処理(Natural Language Processing; NLP)に関する勉強会です。自然言語処理について、理論と実践の両面について深く学び、発表と議論を通じて共有していくことを目的としています。 概要 主に東京で週末に開催されます。 発表者と会場提供を募集しています。 神経なんとかとの誤爆を避けるため、英名はtokyotextmining
SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基本中の基本で,自然言語処理では当たり前のように使われていてもおかしくな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く