[B! 自然言語処理] yuisekiのブックマーク

GitHub - pfliu-nlp/Named-Entity-Recognition-NER-Papers: An elaborate and exhaustive paper list for Named Entity Recognition (NER)

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yuiseki 2020/01/13

リンク

fastTextで未知語の類似語を探してみる | CCT-recruit

エンジニアのtetsuです。単語のベクトル表現を得る手法といえば、ニューラルネットワークを用いたWord2vecが一番有名かもしれません。ただし単純にWord2vecを用いた場合には未知語のベクトル化ができません。これに対して、fastTextを用いると未知語に対してもベクトル化が可能になります。今回はfastTextで未知語をベクトル化し、学習データに含まれる単語の中から類似しているものを探すということを試してみます。 fastTextとは？ fastTextはFacebookによって開発されているライブラリでGitHub上でソースが公開されています。 https://github.com/facebookresearch/fastText このfastTextは高速に単語の分散表現を得ること（単語のベクトル化）と文の分類問題を解くことが可能です。今回に関しては前者の単語の分散表現を

yuiseki 2019/02/16

自然言語処理

リンク

Mecabのシステム辞書・ユーザ辞書の利用方法について - Qiita

はじめにオープンソースの日本語形態素解析器：MeCabの辞書を利用する方法を備忘録として記録します。 MeCabの辞書には、システム辞書とユーザ辞書があります。システム辞書の方が処理が早いと言われており、ユーザ辞書を使用する機会は少ないと思われる。また、MeCab用の新語辞書・固有表現に強いシステム辞書：mecab-ipadic-NEologdが公開されている。mecab-ipadic-NEologdは、毎週２回（月曜日と木曜日）に一般サイト（はてなキーワードや郵便番号データやSNS，ニュース記事など）から情報を収集して更新されている。参考サイト： MeCab公式サイト MeCabの辞書をカスタマイズする mecab-ipadic-neologd - GitHub 環境 OS：Red Hat Enterprise Linux 7.2 MeCab：0.996 MeCabのシステム辞書

yuiseki 2019/02/16

自然言語処理

リンク

MeCabのコマンドライン引数一覧とその実行例 | mwSoft

-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

yuiseki 2019/02/16

自然言語処理

リンク

Mecabにニコニコ大百科はてなキーワード Wikipediaの名詞辞書を追加して強化する - Qiita

require 'csv' def output(title, type) title_length = title.length return nil unless title_length > 3 score = [-36000.0, -400 * (title_length ** 1.5)].max.to_i [title, nil, nil, score, '名詞', '一般', '*', '*', '*', '*', title, '*', '*', type] end CSV.open("user.csv", 'w') do |csv| # niconico Dir::foreach('./niconico') do |f| next unless f =~ /^head[0-9]{4}\.csv$/ open("./niconico/#{f}").each do |line|

yuiseki 2019/02/16

自然言語処理

リンク

進出VtuberをMecab辞書に追加する - ぺんぎんさんのおうち

Vtuberがどんどん排出されている昨今, Mecabの辞書を古いままにしておくと形態素解析の精度が悪くなる. 形態素解析を自作しても良いが, そこに労力を割くのも合理的ではないので自分で辞書を作って新出語を解析できるようにしてしまおう. 自己参照用のエントリなので詳しく知りたい人は下部の参考から各エントリに飛ぶと良い. 環境 MacOS X システム辞書としてはipadicではなくmecab-ipadic-neologdを使用している. コンパイルそこまで難しくはない. $ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \ -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd \ -u user.dic \ -f utf-8 \ -t utf-8 added.csv

yuiseki 2019/02/16

自然言語処理

リンク

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

概要単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できますファイル単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル単語辞書ですエントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで, それぞれ表層形左文脈ID (単語を左から見たときの文脈 ID) 右文脈ID (単語を右から見たときの文脈 ID)

yuiseki 2019/02/16

自然言語処理

リンク

GitHub - taku910/mecab: Yet another Japanese morphological analyzer

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yuiseki 2019/02/16

自然言語処理

リンク

PythonでFacebook開発のfastTextを用いて類義語を取得する – ncat

はじめにfastTextというFacebookが開発した、あるコーパスを入力とし、単語の分散表現（単語をベクトル化したもの）を取得するライブラリである。これは同じくコーパスから単語の分散表現を獲得するword2vecの開発者Tomas Mikolov氏によって開発された。しかしながら、モデルに改良が加えられており、学習がより高速化され、精度も向上したとされている（参考文献参照）。このライブラリを用いて、今回は「ある単語に対する類義語」を取得する方法を紹介する。インストール方法とサンプルコードをみていく。コンテンツfast Text とはインストールfastTectを用いたwikipediaコーパスの学習類義語の取得まとめインストールまずは、fastTextに必要な各種ライブラリをインストールしていく。公式に従ってfastTextのインストール。

yuiseki 2019/02/16

自然言語処理

リンク

Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループグループ研究開発本部

D. M. です。昨今はテキスト解析が非常にやりやすい時代になりました。チーム内でも活発に検証・活用されており、私も流れに乗って Word2Vec や Doc2Vec を触りだしましたが、参考になる日本語の記事多いですね。よくあるのはニュース記事・青空文庫・ Wikipedia の解析ですが、各社の独自の文字列データ、しかも結構なサイズのデータを食わせて関連語を出す記事などもあったりして、実利用可能かどうかは関係無しに楽しそうです。やりたいこと類語判定について、ウェブ上では既に相当いろんな種類の記事を上げられていて凄いなあと思いつつ、結構簡単に見えたので私も何か検証しようと思いました。ただ同じことをやってもあまり面白みが無いですし小規模でも始められるようなことを考えて、ひとまず自分の Twitter のつぶやきを食わせて類語を見てみることにしました。今日はそんな初歩的な試みの紹介です。

yuiseki 2019/02/16

自然言語処理

リンク

GitHub - icoxfog417/fastTextJapaneseTutorial: Tutorial to train fastText with Japanese corpus

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yuiseki 2019/02/16

自然言語処理

リンク

機械学習で大量のテキストをカテゴリ別に分類してみよう！ - WonderPlanet Developers’ Blog

こんにちはアドバンストテクノロジー部の@y-matsushitaです。今回は機械学習を使った取り組みとして、手始めにfastTextを使ったテキストの分類について触れたいと思います。 fasttext.cc fastTextとはFacebookが提供する単語のベクトル化とテキスト分類をサポートした機械学習ライブラリです。 fastTextという名前の通り動作が軽く早いのが特徴です。試しに使ってみたところ精度も良好で動作も軽かったのでご紹介させていただきます！今回は試しに様々な情報が入り混じったTwitterの投稿内容を分類して「美容系」「エンタメ系」「暮らし系」情報の3パターンに分類してみます。なお今回の記事ではPython 3.6.1を使用します。 fastTextを使ってできることまず最初にfastTextを使った結果をお見せします。『分類前』が処理前で『分類後』がfastT

yuiseki 2019/02/15

自然言語処理

リンク

fastTextで単語のベクトル演算 - 白猫のメモ帳

こんにちは。随分と空いてしまいました。 3月なのに今年最初のエントリってどういうことじゃい…。以前、fastTextのインストールをしましたが、実際に使っていなかったので、今回は適当な文章から単語のベクトルを学習させて、その演算を試してみます。ちなみにfastTextは分類によく利用されるため、分散表現を使ってどうこうするのはあんまりポピュラーではないです。が、せっかく機能としてあるので使ってみます。何ができるの？「パリ」 - 「フランス」 + 「日本」 = 「東京」とか「王様」 - 「男」 + 「女」 = 「女王」みたいなやつです。これはfastText固有の機能というわけじゃなくて、 fastTextの元になっている（元っていうのも違う気がするけれど）、word2vecで有名な機能です。学習する詳しい説明は世の中にたくさんあるので、さっくりと端折ります。今

yuiseki 2019/02/15

自然言語処理

リンク

fastTextをインストールしてみる - 白猫のメモ帳

こんばんは。寒さに負けて早くもムートンブーツを出してしまったのですが、もっと寒くなったらどんな格好をすれば良いのでしょうか。さて、今日はFacebookの公開している自然言語処理ライブラリ「fastText」を使ってみたいので、その環境構築をしてみます。インストールするぞとりあえず調べたらコマンドライン実行のための構築手順と、 pythonライブラリのための構築手順がごっちゃになってヒットしたのでしょっぱなから混乱します。どどどういうことなの・・・私はpythonは書けないのでコマンド実行が良いのですが・・・。（ググる）とりあえず、わかったことはWindows環境よりもLinux環境の方が良さそうということ。というわけで、MacOSにDockerコンテナを立てて試してみることにします。こういう時にDockerはミスったらやり直しができるので便利ですね。というわけで余

yuiseki 2019/02/15

自然言語処理

リンク

MeCabの使い方の備忘録 - かんちゃんの備忘録

Sansan Advent Calendar 2018 の1日目の記事です。いつもお世話になっているMeCabについての備忘録です。インストール、辞書、辞書整備、Pythonやシェルでの取り扱いまで、使い方をまとめます。マニュアル読めば分かるよ！というかたは公式マニュアルが充実しているのでそちらを読むのがいいかと思います。 MeCabとはインストール Linuxでソースからビルドパッケージマネージャ Docker 基本的な使い方標準入力から解析出力フォーマット辞書辞書整備 Pythonバインディングおわりに MeCabとは MeCab(和布蕪)とは2006年から開発されているオープンソースの形態素解析器です。動作が非常に高速で、辞書の配布や辞書の作成ができるため広く利用されています。テキスト変換器として設計されているため、例えばひらがなからカタカナへの変換器のように

yuiseki 2018/12/01

自然言語処理

リンク

記事のスクレイピングを機械学習で自動化 - Qiita

Help us understand the probl em. What is going on with this article?

yuiseki 2018/10/22

自然言語処理

リンク

機械学習にアノテーションを活用して、商品検索の関連キーワード機能を作る - BASE開発チームブログ

DataStrategyの齋藤（@pigooosuke）です。ネットショップ作成サービス「BASE」は60万店舗のショップが利用しており、ショッピングアプリ「BASE」のユーザーは、新着商品、キーワード検索、関連商品、商品特集などを介して気になる商品を見つけることができます。今回、新機能として、検索ワードに関連するキーワードを表示することで、ユーザーの興味のありそうな商品にたどり着ける動線を機械学習を活用して実装しました。 DataStrategyチームは発足して間もなく、サービスドメインに適応した単語辞書がなかったので、新規で作成するところから始まりました。機械学習におけるデータセットのアノテーションについての知見が共有される機会が少ない印象もあり、折角なので今回私達が行ったデータ作りから実装までの流れをご紹介します。概要今回、どんなキーワードも意味的に近ければ、サジェストしても良

yuiseki 2018/10/17

自然言語処理

リンク

Python3で形態素解析エンジンMeCabを使ってみた

形態素解析エンジンMeCabをPython3から使ってみましたのでご紹介します。環境 macOS 10.13.6 Python 3.6.4 準備 MeCabと辞書と、mecab-python3をインストール $ brew install mecab mecab-ipadic git curl xz $ pip install mecab-python3 mecab-ipadic-NEologdのインストール標準の辞書だとEC2とかS3とかうまく分かち書きができなかったのでWeb上の新語が追加されたシステム辞書 mecab-ipadic-NEologd もインストールしました。インストール方法の詳細は mecab-ipadic-NEologd : Neologism dictionary for MeCab を確認してみてください。 $ git clone --depth 1 git@

yuiseki 2018/08/18

自然言語処理

リンク

word2vecで吉川英治本の感情分析をしてみた - Qiita

青空文庫に吉川英治本が公開されていたので言語分析を試してみました。バガボンドの原作になっている宮本武蔵と、昔読んでかすかに記憶がある三国志を分析します。分析結果だけを見たい方は、"試してみる"の項目まで飛ばしてください。今回は、pythonを使わずにnode.jsで学習と学習データの活用をしています。 word2vec-nodeという素晴らしいパッケージがあったためです。環境 mac OSX Elcapitan 10.11.6 Mecab mecab-ipadic-neologd node.js 6.1.0 mecab-async word2vec-node node.jsでword2vecのデータを作ります。学習データ作成データ入手ここから青空文庫の吉川英治本を持ってきて解析しています。更新が止まっているようで新書太閤記などが無いですが、三国志と宮本武蔵は入っているので、これを