You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
エンジニアのtetsuです。 単語のベクトル表現を得る手法といえば、ニューラルネットワークを用いたWord2vecが一番有名かもしれません。ただし単純にWord2vecを用いた場合には未知語のベクトル化ができません。これに対して、fastTextを用いると未知語に対してもベクトル化が可能になります。 今回はfastTextで未知語をベクトル化し、学習データに含まれる単語の中から類似しているものを探すということを試してみます。 fastTextとは? fastTextはFacebookによって開発されているライブラリでGitHub上でソースが公開されています。 https://github.com/facebookresearch/fastText このfastTextは高速に単語の分散表現を得ること(単語のベクトル化)と文の分類問題を解くことが可能です。今回に関しては前者の単語の分散表現を
はじめに オープンソースの日本語形態素解析器:MeCabの辞書を利用する方法を備忘録として記録します。 MeCabの辞書には、システム辞書とユーザ辞書があります。 システム辞書の方が処理が早いと言われており、ユーザ辞書を使用する機会は少ないと思われる。 また、MeCab用の新語辞書・固有表現に強いシステム辞書:mecab-ipadic-NEologdが公開されている。mecab-ipadic-NEologdは、毎週2回(月曜日と木曜日)に一般サイト(はてなキーワードや郵便番号データやSNS,ニュース記事など)から情報を収集して更新されている。 参考サイト: MeCab公式サイト MeCabの辞書をカスタマイズする mecab-ipadic-neologd - GitHub 環境 OS:Red Hat Enterprise Linux 7.2 MeCab:0.996 MeCabのシステム辞書
-r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書
require 'csv' def output(title, type) title_length = title.length return nil unless title_length > 3 score = [-36000.0, -400 * (title_length ** 1.5)].max.to_i [title, nil, nil, score, '名詞', '一般', '*', '*', '*', '*', title, '*', '*', type] end CSV.open("user.csv", 'w') do |csv| # niconico Dir::foreach('./niconico') do |f| next unless f =~ /^head[0-9]{4}\.csv$/ open("./niconico/#{f}").each do |line|
Vtuberがどんどん排出されている昨今, Mecabの辞書を古いままにしておくと形態素解析の精度が悪くなる. 形態素解析を自作しても良いが, そこに労力を割くのも合理的ではないので自分で辞書を作って新出語を解析できるようにしてしまおう. 自己参照用のエントリなので詳しく知りたい人は下部の参考から各エントリに飛ぶと良い. 環境 MacOS X システム辞書としてはipadicではなくmecab-ipadic-neologdを使用している. コンパイル そこまで難しくはない. $ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \ -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd \ -u user.dic \ -f utf-8 \ -t utf-8 added.csv
概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで, それぞれ 表層形 左文脈ID (単語を左から見たときの文脈 ID) 右文脈ID (単語を右から見たときの文脈 ID)
はじめにfastTextというFacebookが開発した、あるコーパスを入力とし、単語の分散表現(単語をベクトル化したもの)を取得するライブラリである。 これは同じくコーパスから単語の分散表現を獲得するword2vecの開発者Tomas Mikolov氏によって開発された。しかしながら、モデルに改良が加えられており、学習がより高速化され、精度も向上したとされている(参考文献参照)。 このライブラリを用いて、今回は「ある単語に対する類義語」を取得する方法を紹介する。 インストール方法とサンプルコードをみていく。 コンテンツfast Text とはインストールfastTectを用いたwikipediaコーパスの学習類義語の取得まとめ インストールまずは、fastTextに必要な各種ライブラリをインストールしていく。 公式に従ってfastTextのインストール。
D. M. です。昨今はテキスト解析が非常にやりやすい時代になりました。チーム内でも活発に検証・活用されており、私も流れに乗って Word2Vec や Doc2Vec を触りだしましたが、参考になる日本語の記事多いですね。よくあるのはニュース記事・青空文庫・ Wikipedia の解析ですが、各社の独自の文字列データ、しかも結構なサイズのデータを食わせて関連語を出す記事などもあったりして、実利用可能かどうかは関係無しに楽しそうです。 やりたいこと 類語判定について、ウェブ上では既に相当いろんな種類の記事を上げられていて凄いなあと思いつつ、結構簡単に見えたので私も何か検証しようと思いました。ただ同じことをやってもあまり面白みが無いですし小規模でも始められるようなことを考えて、ひとまず自分の Twitter のつぶやきを食わせて類語を見てみることにしました。今日はそんな初歩的な試みの紹介です。
こんにちはアドバンストテクノロジー部の@y-matsushitaです。 今回は機械学習を使った取り組みとして、手始めにfastTextを使ったテキストの分類について触れたいと思います。 fasttext.cc fastTextとはFacebookが提供する単語のベクトル化とテキスト分類をサポートした機械学習ライブラリです。 fastTextという名前の通り動作が軽く早いのが特徴です。試しに使ってみたところ精度も良好で動作も軽かったのでご紹介させていただきます! 今回は試しに様々な情報が入り混じったTwitterの投稿内容を分類して「美容系」「エンタメ系」「暮らし系」情報の3パターンに分類してみます。 なお今回の記事ではPython 3.6.1を使用します。 fastTextを使ってできること まず最初にfastTextを使った結果をお見せします。 『分類前』が処理前で『分類後』がfastT
こんにちは。 随分と空いてしまいました。 3月なのに今年最初のエントリってどういうことじゃい…。 以前、fastTextのインストールをしましたが、実際に使っていなかったので、 今回は適当な文章から単語のベクトルを学習させて、その演算を試してみます。 ちなみにfastTextは分類によく利用されるため、 分散表現を使ってどうこうするのはあんまりポピュラーではないです。 が、せっかく機能としてあるので使ってみます。 何ができるの? 「パリ」 - 「フランス」 + 「日本」 = 「東京」 とか 「王様」 - 「男」 + 「女」 = 「女王」 みたいなやつです。 これはfastText固有の機能というわけじゃなくて、 fastTextの元になっている(元っていうのも違う気がするけれど)、word2vecで有名な機能です。 学習する 詳しい説明は世の中にたくさんあるので、さっくりと端折ります。 今
こんばんは。 寒さに負けて早くもムートンブーツを出してしまったのですが、 もっと寒くなったらどんな格好をすれば良いのでしょうか。 さて、今日はFacebookの公開している自然言語処理ライブラリ「fastText」を使ってみたいので、 その環境構築をしてみます。 インストールするぞ とりあえず調べたらコマンドライン実行のための構築手順と、 pythonライブラリのための構築手順がごっちゃになってヒットしたのでしょっぱなから混乱します。 どどどういうことなの・・・私はpythonは書けないのでコマンド実行が良いのですが・・・。 (ググる) とりあえず、わかったことはWindows環境よりもLinux環境の方が良さそうということ。 というわけで、MacOSにDockerコンテナを立てて試してみることにします。 こういう時にDockerはミスったらやり直しができるので便利ですね。 というわけで余
Sansan Advent Calendar 2018 の1日目の記事です。 いつもお世話になっているMeCabについての備忘録です。 インストール、辞書、辞書整備、Pythonやシェルでの取り扱いまで、使い方をまとめます。 マニュアル読めば分かるよ!というかたは公式マニュアルが充実しているのでそちらを読むのがいいかと思います。 MeCabとは インストール Linuxでソースからビルド パッケージマネージャ Docker 基本的な使い方 標準入力から解析 出力フォーマット 辞書 辞書整備 Pythonバインディング おわりに MeCabとは MeCab(和布蕪)とは2006年から開発されているオープンソースの形態素解析器です。 動作が非常に高速で、辞書の配布や辞書の作成ができるため広く利用されています。 テキスト変換器として設計されているため、例えばひらがなからカタカナへの変換器のように
DataStrategyの齋藤(@pigooosuke)です。 ネットショップ作成サービス「BASE」は60万店舗のショップが利用しており、ショッピングアプリ「BASE」のユーザーは、新着商品、キーワード検索、関連商品、商品特集などを介して気になる商品を見つけることができます。今回、新機能として、検索ワードに関連するキーワードを表示することで、ユーザーの興味のありそうな商品にたどり着ける動線を機械学習を活用して実装しました。 DataStrategyチームは発足して間もなく、サービスドメインに適応した単語辞書がなかったので、新規で作成するところから始まりました。機械学習におけるデータセットのアノテーションについての知見が共有される機会が少ない印象もあり、折角なので今回私達が行ったデータ作りから実装までの流れをご紹介します。 概要 今回、どんなキーワードも意味的に近ければ、サジェストしても良
形態素解析エンジンMeCabをPython3から使ってみましたのでご紹介します。 環境 macOS 10.13.6 Python 3.6.4 準備 MeCabと辞書と、mecab-python3をインストール $ brew install mecab mecab-ipadic git curl xz $ pip install mecab-python3 mecab-ipadic-NEologdのインストール 標準の辞書だとEC2とかS3とかうまく分かち書きができなかったのでWeb上の新語が追加されたシステム辞書 mecab-ipadic-NEologd もインストールしました。 インストール方法の詳細は mecab-ipadic-NEologd : Neologism dictionary for MeCab を確認してみてください。 $ git clone --depth 1 git@
青空文庫に吉川英治本が公開されていたので言語分析を試してみました。バガボンドの原作になっている宮本武蔵と、昔読んでかすかに記憶がある三国志を分析します。分析結果だけを見たい方は、"試してみる"の項目まで飛ばしてください。 今回は、pythonを使わずにnode.jsで学習と学習データの活用をしています。 word2vec-nodeという素晴らしいパッケージがあったためです。 環境 mac OSX Elcapitan 10.11.6 Mecab mecab-ipadic-neologd node.js 6.1.0 mecab-async word2vec-node node.jsでword2vecのデータを作ります。 学習データ作成 データ入手 ここから青空文庫の吉川英治本を持ってきて解析しています。更新が止まっているようで新書太閤記などが無いですが、三国志と宮本武蔵は入っているので、これを
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く