日本では末尾が4(死を意味する)や9(苦)がないホテルやマンションが存在する。4や9という数字が忌み数(不吉であるとして忌避される)だからである。そして海外では13という数字が忌み数に当たるため、ホテルなどには13階や13号室がない場合が多い。 ここまでは「あー、そう言えば聞いた事があるな」と思う人がたくさんいるかもしれない。しかし、アメリカやカナダ、イギリスなど海外のホテルにはもう1つ避けられている部屋番号があった。それが420号室なのである。 今まさに420号室のホテルやマンションにいるおともだちはギクっとしたことだろう。いったいなぜ420号室は避けられているのだろうか? それにはこんな理由があった。
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く