参加者はPythonを用いて行う日本語文書の自然言語処理から未知語・重要語を抽出する手法の知識を得ます.また,この手法によって実装されたシステムの事例から,機械学習の手法を用いなくとも精度の高い転置索引による全文検索が実現可能となります.日本語解析が必要なシステムの選択肢の一つとなればと思います. ### 形態素解析については - Mecab-Pythonを使用した形態素解析では何もしない状態では以下のように日本語トークンが抽出されます. import MeCab tagger = MeCab.Tagger() text = u'安倍晋三首相は17日、2020年東京五輪・パラリンピックのメーン会場となる新国立競技場'.encode('utf-8') token = tagger.parseToNode(text) while token: print token.posid, unicod