日本語の自然言語ライブラリの中には、ヘブライ語や韓国語をぶちこんだ瞬間にエラーで処理が止まるライブラリ多いです。そんなときに便利な呪文を紹介します。 たとえばPyCon2015で紹介されたのjanomeは韓国語が混入するとエラーで死ぬ janomeはMeCabをインストールする手間を省いてくれる素晴らしい形態素解析器なのですが、日本語以外の文字が1文字でも混入するとエラーで死にます。wikipediaの左言語切り換えバーを読み込んだ例だと... text = "他言語版Italiano한국어PolskiSimple English" t = Tokenizer() for token in t.tokenize(text): print token --------------- Traceback (most recent call last): File "tests.py", lin
