タグ

IMEと形態素解析に関するItisangoのブックマーク (3)

  • Mozcソースコード徹底解説 #TokyoTextMining

    Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Mozcソースコード徹底解説 #TokyoTextMining - Presentation Transcript Mozcソースコード徹底解説 #tokyotextmining @nokuno 自己紹介 2  Twitter: @nokuno  はてな:id:nokuno  自然言語処理勉強会を主催  PRML/R/Python/Hadoopなど 2002~2006:コミケ同人ゲーム売ってた 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務 今日

    Itisango
    Itisango 2015/01/26
    @nokuno さんの #tokyotextmining での発表らしい。
  • MeCab - Wikipedia

    MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。 開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。 品詞情報を利用した解析・推定を行うことができる。MeCabで利用できる辞書はいくつかあるが、ChaSenと同様にIPA品詞体系で構築されたIPADICが一般的に用いられている。 MeCabはGoogleが公開した大規模日語n-gramデータの作成にも使用された[3]。 Mac OS X v10.5及びv10.6のSpotlig

    Itisango
    Itisango 2013/02/01
    #MeCab は #オープンソース の #形態素解析 エンジンで、奈良先端科学技術大学院大学出身、現 #Google ソフトウェアエンジニアでGoogle 日本語入力開発者の一人である #工藤拓 によって開発されている。
  • ATOK 2007 VS MS Office IME 2007

    ATOKの方が賢いとか言われてるけど、それってホント? めんどくさいので以下ATOK 2007はATOK、MS Office IME 2007はIMEと表記。 文節区切り間違い 昔から、一発で正解を出す確率というのは両者ともあまり変わらないけれども、ATOKの方は文節区切り間違いが多くて単語間違いは少ない、IMEの方は文節区切り間違いは少ないが単語間違いが多い、という風に言われていたが、それは2007になっても同じようである。 ただ、語彙数はATOKの方がかなり多いらしい。(参考) ATOKの方が文節区切り間違いが多いというのは、変換アルゴリズムの違いに起因していると考えられる。 両者の方式はそれぞれATOKの方が最長文節一致法、IMEの方はコスト最小法がベースである。 最長文節一致法というのは、文節(名詞・動詞等+付属語)の長さが最も長くなる文節区切りが正解となるもので、コスト最小法とい

  • 1