タグ

NLPに関するt_ymt2のブックマーク (4)

  • 高次元ベクトルデータ検索技術「NGT」の性能と使い方の紹介

    この結果を見て単語ベクトルが変わるとNGTの性能が変わってしまうように感じた方がいるかもしれません。しかし、実はこれらの単語ベクトルはデータの次元数や件数が違っているため、それぞれの条件をあわせてみる必要があります。興味がある方は論文を読んで見比べて欲しいと思いますが、ここで重要なことは、NGTが高い精度にも関わらず、せいぜい100ミリ秒程度で検索できるという規模感であるということです。その規模感を感じてもらうために、これらの実験結果をご紹介しました。この実験以外にも論文の中では単語ベクトルの応用としてアナロジーと呼ばれる合成ベクトルでの実験やその他の比較手法の比較、実験結果の考察などもありますが今回は割愛します。 これまで紹介した内容と同じような実験はLinux系のサーバーであれば公開しているExperimental softwareという実験プログラムを使うと簡単に試すことができます。

    高次元ベクトルデータ検索技術「NGT」の性能と使い方の紹介
  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • 【機械学習】Google翻訳(みたいなもの)を自作してみた。 - Qiita

    はじめに 最近機械学習熱いし、その波に乗りたいなということで、大学時代に若干触れていた自然言語処理の知識を生かして、タイトルの通りGoogle翻訳のような機械翻訳機を作成してみました。 結果、ページトップのアニメーションのような動作をする翻訳機を作れましたが、翻訳精度はgoogle翻訳に惨敗でした。どこらへんが惨敗だったのかは最後のまとめでちょっとだけ触れます。 結果的には惨敗だったのですが、自分が作ったモデルで翻訳できた瞬間はとても嬉しかったので、自分の子供のような存在を生み出す喜びを誰かに共感していただきたく思い、機械翻訳機を作成して得た自然言語処理(ほぼ翻訳)に関する知見とその方法をまとめてみました! 自然言語処理というなかなかに難しいジャンルなので、途中眠たくなるような説明や数式も一応紹介いたしますが、 この記事のゴールはオリジナルな翻訳モデルを作成し上のアニメーションのようにター

    【機械学習】Google翻訳(みたいなもの)を自作してみた。 - Qiita
    t_ymt2
    t_ymt2 2015/12/22
  • 筆者の気持ち考えるマン | 株式会社ウサギィ

    ぼくは自然言語処理を使った文章解析サービス『筆者の気持ち 考えるマン』だよ。 クチコミを入力してもらえたら、それを書いた人がどんな気持ちだったのか(ポジティブかネガティブか)を考えるよ。試してみてね。 サンプルテキスト ボタンをクリックすると、サンプルテキストを読み込みます。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 筆者の気持ち考えるマンで行っているような、人間が書いた文章の意味をコンピュータで分析する処理を自然言語処理 (NLP: Natural Language Processing) といいます。 自然言語処理にもいろいろな分野がありますが、このサービスのように文章がポジティブなものなのか、ネガティブなものなのかを判定する技術は、特に「センチメント分析」と呼ばれています。 このサイトでは、機械学習という方法を応用して、『ポジティブな意見』と『ネガティブ

    筆者の気持ち考えるマン | 株式会社ウサギィ
    t_ymt2
    t_ymt2 2015/10/07
    「当社では、画像認識や機械学習等の論文を読んで実装するといったことも業務で行っています。」→「嫌な気持ちだったようだね」
  • 1