タグ

自然言語処理に関するturu_craneのブックマーク (7)

  • テキストの構造化を支える技術 -概要編- - Ahogrammer

    最近、情報抽出、特にOpen Information Extraction(OpenIE)という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについて説明します。 Open Information Extractionとは? OpenIEについて述べる前に、まずは伝統的な情報抽出について述べておきましょう。情報抽出は非構造化データであるテキストを構造化された表現に変換するタスクです*1。情報抽出で抽出される情報は関係のタプルの形(arg1, rel, arg2)で表現されます。このタプルは関係を示すフレーズ(rel)とその対象であるエンティティ(args)から成ります。一般的な処理の流れと

    テキストの構造化を支える技術 -概要編- - Ahogrammer
  • 古文品詞分解サービスへの道 第1回 - illegal function call in 1980s

    牛車のイラスト | かわいいフリー素材集 いらすとや 受験生のみなさん、「牛車」は「ぎっしゃ」。いちおうね。 * ただいま、UbuntuにMeCabを入れて何かおもしろいことをしようとしています。 [Python][Mecab]ubuntu環境にmecabをインストールする方法 · GitHub $ sudo apt-get install mecab libmecab-dev mecab-ipadic $ sudo aptitude install mecab-ipadic-utf8 $ sudo apt-get install python-mecab 行いました(2017/1/5)。 明日行うこと 中古和文UniDicのダウンロードとインストール 言語データベースとソフトウェア - 言語データベースとソフトウェア 1日1処理ずつ進めていきます。 何の話? 目標は、高校生用の古文品詞分

    古文品詞分解サービスへの道 第1回 - illegal function call in 1980s
  • タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

    ポエムを適当に書きます。2立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ 文書分類でneologdとmecabを比較した まとめ Sentencepieceの紹介記事を読んだ ニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。 自分用の要約すると ニューラル言語処理では語彙数が大きくなると扱いにくい 単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる 尤度を最大にするエントロピー圧縮の一部と見なせる スペースもメタ文字に置き換えて生文をわせることにより、detokenizeが言語によらず簡単になる 翻訳等のタスクで助かる! こういうのが必要なくなる 単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている 従来の

    タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • 【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita

    単語と遊ぶ① 分布図を書いてみる 分布図を書くメソッドを以下のように定義しました。 通常、単語のベクトル表現は100次元とか300次元とかでモデルに学習させます。 それを次元圧縮して2次元に落とし込んだ後に可視化を行っています。 from sklearn.decomposition import PCA import matplotlib.pyplot as plt def draw_word_scatter(word, topn=30): """ 入力されたwordに似ている単語の分布図を描くためのメソッド """ # 似ている単語を求めるためにはGensim word2vecの以下の機能を利用 # model.most_similar(word, topn=topn) words = [x[0] for x in sorted(model.most_similar(word, topn

    【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita
  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
  • 「つぶやき」から投稿者のプロフィールを自動推定する技術の開発に成功 - 株式会社KDDI研究所

    「つぶやき」から投稿者のプロフィールを自動推定する技術の開発に成功 〜口コミ投稿者の年齢や性別、趣味などが推定可能に〜 株式会社KDDI研究所(社:埼玉県ふじみ野市、代表取締役所長:秋葉 重幸)は、インターネット上のブログや掲示板に投稿された文書を解析することで、投稿者のプロフィール(年齢、性別、職業、出身、趣味など)を自動推定する技術を開発しました。技術を評判解析技術に適用することで、商品やコンテンツに対して年代や性別などのプロフィールごとに、どのような意見を持っているかが分かるようになり、マーケティングへの応用が可能です。

  • 1