ATOK、ConceptBaseで培ったノウハウと機械学習を融合した日本語解析エンジン「JMAT」の性能と機能についてご紹介します。
![形態素解析器 売ってみた](https://cdn-ak-scissors.b.st-hatena.com/image/square/4c6b1cb71b3b69528573009e69a5e1db0ffceea5/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fjtt3-150501002429-conversion-gate02-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
2015-02-13 2015-03-20(金)19:30より渋谷でGroonga "Tokenizer" Talksを開催予定 2015-03-20(金)19:30より「トークナイザー」をテーマにしたGroongaイベントGroonga "Tokenizer" Talksを開催する予定です。場所は渋谷で会場提供はGMOメディアさんです。ありがとうございます! 実際にトークナイザーや形態素解析器を開発している人に話をしてもらうので、濃い内容になるはずです。多めに時間をとっているので、話をしている人にわからないことやもっと詳しく知りたいことを詳しく聞けるはずです。トークナイザーに興味のある方は(今のところはGroongaにそんなに興味がなくても)ぜひお越しください。 話は2つあって、1つはN-gramベースの話で、もう1つは形態素解析ベースの話です。 N-gramベースの話は去年のいい肉の日
(追記):「この本に書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術という本を書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんな本なのか、目次などについては公式ページを参照していただくとして、以下ではどんな本なのか宣伝したいと思います。 この本のキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、本を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの
2018年05月30日 平素よりみんなの翻訳サイトをご利用いただき誠にありがとうございます。 この度、2018年05月30日 10:00より、サーバ移行に伴いサービスを一時停止させていただきます。 ※作業完了予定は未定となります。 完了時期が分かり次第、サイト上で連絡させていただきます。ご迷惑をお掛けし、申し訳ございませんが、しばらくお待ちください。
Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし
Google 日本語入力のソースコードが公開されたらしい。Mozc (もずく)という名前だそうで。オフィシャルブログだけではなく、Twitter でもものすごい勢いで伝播していたようだが、すごい食いつきである。そして、公開されるやいなや読んだ人もたくさんいるようで、そちらもすごいなと思う。日本語入力エンジンのソース読む人なんて、ほとんどいないと思っていたのだが、逆にこんなに日本語入力って注目されるんだ、と嬉しい気持ちである(でも日本語入力エンジン作る人が増えたりはしないのかもしれない)。 そんな感じでいち早くソースコード読まれた @tkngさんがMozc(Google日本語入力)のコードを読んだメモを公開してくださった。ありがたい。変換アルゴリズムは、挙動から考えてそうだろうな、と思っていたのと同じだった。変換履歴を用いたリランキングをするところがなかなか難しいのだが、@tkng さんも手
現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く