タグ

nlpと言語に関するkyo_agoのブックマーク (4)

  • 「論理処理が必要と思ったことが確率処理でできるとわかった」のは AI だけだろうか - 木曜不足

    2004年ごろに Googleで深層学習が一躍脚光を浴びたとき、画像認識は特徴抽出が難しいので深層学習で良い結果が出るが、自然言語処理は特徴量*1がリッチなので、深層学習を適用するのは難しいだろうと思っていた。 特徴量がリッチとは、例えば「ホームラン」のたった1語でその文はスポーツ、特に野球の話題である可能性が高くなる、みたいな話である。一方、ピクセルの1つが緑であることから何の画像か当てるのは不可能だ。 その後、自然言語処理でも深層学習が当たり前になったのは誰もがご存知のとおりであり、自身の不明を恥じるばかりだ。ただ言い訳をさせてもらえるなら、自然言語処理のえらい先生方も同じように言っていたのだ。 2014年ごろ、LSTM などの深層学習モデルが発展し、自然言語処理でも目覚ましい結果が出始めた。機械翻訳など多くのタスクで、人間の平均といい勝負になったのもこの頃だったと思う。すると、

    「論理処理が必要と思ったことが確率処理でできるとわかった」のは AI だけだろうか - 木曜不足
  • WebAssemblyの形態素解析器GoyaをRustで作った

    Goyaという形態素解析器を Rust で作りました。記事は利用者目線で Goya の紹介をします。技術的な詳細については別途記事を書きます。 形態素解析とは? (このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください) 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 — 形態素解析 - Wikipedia 例えば早口言葉の”すもももももももものうち”(スモモも桃も桃のうち)という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ

    WebAssemblyの形態素解析器GoyaをRustで作った
  • 放送大学 自然言語処理('15) - rokujyouhitoma's blog

    放送大学が自然言語処理(NLP)の講義を今年から配信すると聞いた。2月ごろ。 以前から興味があった&業務でちょびっとかじったNLP。面白そうだったので、単位取得までしてみるか。ということで、放送大学 自然言語処理('15)を科目履修生として履修しました。 受講した理由は、ネット(たしかTwitterだったような...)で知って、座学を体系だってインプットしてみるか思い立ったため。業務でちょびっとかじったことあるのも関係していると思う。 受講したいけど、悩んでるって人がいたら、コメント欄やツイッターなどで連絡取ってみてください。詳細答えます。記事へのツッコミも歓迎。 結論・結果 無事単位取得。 すっごい楽しかった。 客員として京大黒橋教授の講義がラジオ配信で受けられるとかラッキーだった。 体系通り基礎を学ぶことができた。 コストは18,000円と諸経費α(学生証の写真代とか) 実際には書籍に

    放送大学 自然言語処理('15) - rokujyouhitoma's blog
  • TechCrunch JP のタイトルから hiwa 氏の翻訳か否かを深層学習で推定する

    追記 (9月30日 22:00) Q : 文も用いると更に良いのではないか A : 可能な限り氏が翻訳した記事を開きたくないため、タイトルだけを用いた Q : 深層学習ではない手法との比較がない A : 追加実験を行った。登場する語彙の上位 12,000 個の bag-of-words を用いたところ RandomForest (class_weight = 'balanced', n_estimators = 500) では精度 0.93 , 再現率 0.66, f値 0.78 LinearSVC (sklearn のデフォルトパラメタ) では精度 0.88, 再現率 0.81, f値 0.84 となり、深層学習とあまり差がないことがわかった。 Q : 理由は何か 単語の頻度足切りを変化させても精度が変わらないことから、特定の語に強く反応している可能性がある。または特定ジャンルの記事が

    TechCrunch JP のタイトルから hiwa 氏の翻訳か否かを深層学習で推定する
  • 1