注意) このエントリでは、mecab-ipadic-neologdをLucene Kuromojiに適用するにあたり、2つほど問題が発生したのですが、作者の@overlastさんにそのうちのひとつを対応いただきました。 修正版mecab-ipadic-neologdを使ってLucene Kuromojiに適用するエントリは、以下を見るようにしてください。 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 こちらのエントリは、備忘録的に残っているだけです。 以降は、それを踏まえた上で読まれますよう。とりあえずLucene Kuromojiに適用したい場合は、上記のエントリをご覧ください。 先日、ちょっと気になるエントリが世の中に出ていま
BPStudy#91 「Baseball Play Study 2015 NPB開幕直前スペシャル」 の発表資料です。 http://bpstudy.connpass.com/event/12297/ TLでポジろう! 2015年の開幕がいよいよ間近に迫ってきました。大型補強に沸いたチーム、若手の台頭が期待されるチーム、世代交代が急務のチーム、チーム事情によってファンの思惑も様々。 そんな中、2015年の開幕前にもっとも盛り上がっているチームはどこか?Twitterを元に分析してみます。Read less
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く