タグ

自然言語処理に関するhiroki23のブックマーク (14)

  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

  • 知識を使って150種類の固有表現を認識する - Qiita

    8種類の分類でも良いのですが、実際に固有表現認識を何かのアプリケーションに組み込んで使う際は、8種類では不十分なことがあります。それに対応するために、ドメインに特化した分類を行ったり、より汎用的な分類を行える分類器を構築したりします。 記事ではテキスト中の固有名詞を150種類程度に分類する分類器を作ります。最近は機械学習を使うことが多いですが、今回は学習させる時間がなかったので、知識を使って150種類の固有表現を認識してみます。 手法の説明 手法の概要 今回は固有表現を認識するために、機械学習ではなく知識を用いて認識します。具体的には、固有表現の辞書を作り、文字レベルでパターンマッチングします。複数パターンにマッチした場合は、最長一致したパターンを採用します。イメージは以下の通りです。 なんだか昔の形態素解析器みたいですね。 では、辞書を作っていきましょう。 固有表現の辞書作り 固有表現

    知識を使って150種類の固有表現を認識する - Qiita
  • 【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita
  • 固有表現認識を使って文書を黒塗りする - Qiita

    固有表現認識で認識した固有表現を黒塗りすることで、匿名化っぽいことができると考えられます。というのも、機密文書で黒塗りされている部分は機密に関係している人名や組織名などが多いと考えられるからです。上文の固有表現部分を黒塗りすると以下のようになります。 今回は固有表現を認識するためにディープラーニングを用いたモデルを構築します。具体的にはLampleらが提案したモデルを構築します。このモデルでは、単語とその単語を構成する文字を入力することで、固有表現の認識を行います。言語固有の特徴を定義する必要性もなく、ディープな固有表現認識のベースラインとしてよく使われているモデルです。 Lampleらのモデルは主に文字用BiLSTM、単語用BiLSTM、およびCRFを用いて構築されています。まず単語を構成する文字をBiLSTMに入力して、文字から単語表現を獲得します。それを単語分散表現と連結して、単語用

    固有表現認識を使って文書を黒塗りする - Qiita
  • CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

    機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

    CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
  • サブカルのためのword2vec | BLOG - DeNA Engineering

    はじめに AIシステム部AI研究開発グループ アルバイトの五十嵐です。( @bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。 私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。 取り組んだタスク 突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み

    サブカルのためのword2vec | BLOG - DeNA Engineering
  • 朝日新聞単語ベクトル

    朝日新聞メディアラボ・朝日新聞単語ベクトル サイトは移転しました。5秒後にジャンプします。 ジャンプしない場合は、以下のURLをクリックしてください。 移転先のページ

  • 都立大 自然言語処理研究室 - 自然言語処理を独習したい人のために

    東京都立大学自然言語処理研究室(小町研)に入学する人たちは、入学後に自然言語処理・機械学習・プログラミングの基礎勉強会を行なうため、特に事前に学習することはありませんが、入学前に勉強しておいたほうがよいことはあるか、と問い合わせがあるので、自然言語処理の独習用の情報を書いておきます。(主に情報系以外の学部生を対象にしています。) 近年の深層学習の発展に伴ってニューラル機械翻訳をはじめとした深層学習の研究をしたいという人がうちの受験希望者の大半ですが、深層学習の研究をしたい人はプログラミングと数学英語のすべてがある程度できなければいけません。どれか1つでも足りないものがあれば、ほとんど研究できないと思ってください。これらは現在ほぼ未習の人が入学してから勉強して追いつけるものではないので、深層学習の研究がしたい、という場合はよくよく考えたほうがいいです。東大中山研の深層学習の研究がやりたい人

  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • 畳み込みニューラルネットワークによるテキスト分類を TensorFlow で実装する · けんごのお屋敷

    先日、九工大や東工大などの学生さんが LINE Fukuoka に遊びにきてくれました。せっかく学生さんが遊びに来てくれるので LINE Fukuoka の社員と学生さんとで LT 大会をやろうという運びになって、学生さんは普段やっている研究内容を、LINE Fukuoka 側はなんでも良いので適当な話を、それぞれやりました。当日は私を含む LINE Fukuoka の社員 3 人と、学生さん 2 人の合計 5 人が LT をしました。詳細は LINE Fukuoka 公式ブログに書かれていますので、興味のある方は御覧ください。 [社外活動/報告] 学生を招いてのエンジニア技術交流会を開催しました。 LT に使った資料は公開してもいいよ、とのことだったので、せっかくなので公開。当日はテキスト分類のデモをやったのですが、残念ながらデモ環境までは公開できませんでした。ただ、ソースコードは gi

  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

  • 第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー

    昨日は第11回 Kansai.pm でした。 今回は無理を言って自分がホストを担当させていただきましたが、面白い発表が多く開催した自分も非常に満足でした。 PFI の吉田さんによる Cell Challenge での計算機に合わせたアルゴリズムのチューニング手法の発表 (発表資料) は圧巻でした。伊奈さんの文抽出の話 (発表資料)、はこべさんのコルーチンの話 (発表資料)、いずれも難解になりがちなところを凄く分かりやすく解説されていて、さすがだなと思いました。各々ショートトークも、いずれも良かったです。 スペルミス修正プログラムを作ろう 自分も 20 分ほど時間をいただいて、スペルミス修正プログラムの作り方について発表しました。 スペルミス修正プログラムを作ろうView more presentations from Naoya Ito. スペルミス修正プログラムについてはずばり スペル

    第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー
  • KH Coder: 計量テキスト分析・テキストマイニングのためのソフトウェア

    研究ノート「計量テキスト分析ツールKH Coderによる分析結果の再現性」公開 医療用語の辞書をご用意(無料) 産学連携プロダクト「KH Coderオフィシャルパッケージ」発売中 KH Coderとは KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチ

  • ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan

    ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日語の文章を解析できるAPI「日形態素解析Webサービス」を公開した。 日形態素解析Webサービスは、ヤフーの日語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。 このAPIを利用することで、開発者は解析対象となる日語の文章を形態素に分割し、品詞や読み、基形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。 また、すでに公開済みのAPIから取得したデータを解析することもでき

    ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan
  • 1