[B! 自然言語処理] turu_craneのブックマーク

テキストの構造化を支える技術 -概要編- - Ahogrammer

最近、情報抽出、特にOpen Information Extraction（OpenIE）という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについて説明します。 Open Information Extractionとは？ OpenIEについて述べる前に、まずは伝統的な情報抽出について述べておきましょう。情報抽出は非構造化データであるテキストを構造化された表現に変換するタスクです*1。情報抽出で抽出される情報は関係のタプルの形(arg1, rel, arg2)で表現されます。このタプルは関係を示すフレーズ（rel）とその対象であるエンティティ（args）から成ります。一般的な処理の流れと

turu_crane 2018/10/12

リンク

古文品詞分解サービスへの道第1回 - illegal function call in 1980s

牛車のイラスト | かわいいフリー素材集いらすとや受験生のみなさん、「牛車」は「ぎっしゃ」。いちおうね。 * ただいま、UbuntuにMeCabを入れて何かおもしろいことをしようとしています。 [Python][Mecab]ubuntu環境にmecabをインストールする方法 · GitHub $ sudo apt-get install mecab libmecab-dev mecab-ipadic $ sudo aptitude install mecab-ipadic-utf8 $ sudo apt-get install python-mecab 行いました（2017/1/5）。明日行うこと中古和文UniDicのダウンロードとインストール言語データベースとソフトウェア - 言語データベースとソフトウェア 1日1処理ずつ進めていきます。何の話? 目標は、高校生用の古文品詞分

turu_crane 2017/08/02

リンク

タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ文書分類でneologdとmecabを比較したまとめ Sentencepieceの紹介記事を読んだニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。自分用の要約するとニューラル言語処理では語彙数が大きくなると扱いにくい単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる尤度を最大にするエントロピー圧縮の一部と見なせるスペースもメタ文字に置き換えて生文を食わせることにより、detokenizeが言語によらず簡単になる翻訳等のタスクで助かる! こういうのが必要なくなる単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている従来の

turu_crane 2017/06/07

自然言語処理

リンク

自然言語処理における前処理の種類とその威力 - Qiita

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

turu_crane 2017/06/07

自然言語処理

リンク

【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita

単語と遊ぶ① 分布図を書いてみる分布図を書くメソッドを以下のように定義しました。通常、単語のベクトル表現は100次元とか300次元とかでモデルに学習させます。それを次元圧縮して2次元に落とし込んだ後に可視化を行っています。 from sklearn.decomposition import PCA import matplotlib.pyplot as plt def draw_word_scatter(word, topn=30): """ 入力されたwordに似ている単語の分布図を描くためのメソッド """ # 似ている単語を求めるためにはGensim word2vecの以下の機能を利用 # model.most_similar(word, topn=topn) words = [x[0] for x in sorted(model.most_similar(word, topn

turu_crane 2017/01/24

リンク

自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！

概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ

turu_crane 2014/03/10

リンク

「つぶやき」から投稿者のプロフィールを自動推定する技術の開発に成功 - 株式会社KDDI研究所

「つぶやき」から投稿者のプロフィールを自動推定する技術の開発に成功〜口コミ投稿者の年齢や性別、趣味などが推定可能に〜株式会社KDDI研究所（本社：埼玉県ふじみ野市、代表取締役所長：秋葉　重幸）は、インターネット上のブログや掲示板に投稿された文書を解析することで、投稿者のプロフィール（年齢、性別、職業、出身、趣味など）を自動推定する技術を開発しました。本技術を評判解析技術に適用することで、商品やコンテンツに対して年代や性別などのプロフィールごとに、どのような意見を持っているかが分かるようになり、マーケティングへの応用が可能です。

turu_crane 2010/09/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

自然言語処理に関するturu_craneのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス