2022年度人工知能学会全国大会(第36回) チュートリアル講演資料
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? **自然言語処理に前処理は不可欠です。**テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: [Deep learning for computational biology](http://msb.embopress.org/content/12/7/878) 本記事では自然言語処理における前処理の種類とその
gensimのライブラリを使うと、Word2Vecを使うことは恐ろしく簡単です。 (パラメータのチューニングは別にしてとにかく使ってみるという目的であれば) しかし、日本語を対象にする場合、形態素解析をしないといけないというハードルがあり、それがWord2Vecを使いにくいものにしている気がしています。 以下で説明する手順は、このことを考慮して、「最短コースで日本語Word2Vecを使う」という目的に注力して作ってみました。 【変更履歴】 (2019-08-11) 前提の動作環境を修正。 ファイル読込みに関して!pipをやめて、全部python APIを使うように変更しました。 (2018-07-13) IBM DSX -> Watson Studioに変更になり、それに伴ってPythonがV3になったため、Python V3対応をしました。 (2018-02-12 追加) Jupyter
医療スタートアップのUbieに入社して1年が経ちました。これまでの人生で一番短かったんじゃないかというくらいのスピードで月日が過ぎ去っていき、主体的に携わるプロジェクトも1.5周くらいしたところかなと思います。この記事では機械学習エンジニアの私が、医療というドメインの自然言語処理に携わるなかで考えたことを紹介したいと思います。 最近ではリーガルテックをはじめ、HR、ファイナンス、そして医療など、様々な領域で自然言語処理の活用が広がっています。そうした専門ドメインでの自然言語処理に携わる人も増えてきていると思いますので、その中の一例として何かしら参考になれば幸いです。 【目次】 - 医療という専門領域の知識は必要 - 分野が違っても手法は同じ、研究が扱う題材を知っておく - 医療という特殊なデータ事情 - なぜ私はいま医療言語処理をやるのか? - まとめ 医療という専門領域の知識は必要 機械
概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,
import MeCab def mecab_list(text): tagger = MeCab.Tagger("-Ochasen") tagger.parse('') node = tagger.parseToNode(text) word_class = [] while node: word = node.surface wclass = node.feature.split(',') if wclass[0] != u'BOS/EOS': if wclass[6] == None: word_class.append((word,wclass[0],wclass[1],wclass[2],"")) else: word_class.append((word,wclass[0],wclass[1],wclass[2],wclass[6])) node = node.next ret
こんにちわ。白ヤギコーポレーションでエンジニアをしている谷田です。 自然言語処理では、テキストに含まれる単語をベクトルとして表現するというタスクが頻繁に発生します。最近ではそのために、日本語テキストが来たらMeCabに渡してword2vecに投入する、というのが定番パターンのひとつかと思います。word2vecは単語を分散表現と呼ばれる低次のベクトルに変換するモデルですが、単語をベクトルに変換するためには事前に学習を走らせておく必要があります。word2vecモデルの学習にはよくWikipedia日本語版をコーパスとして使ったりするのですが、全記事で学習を走らせると結構時間がかかります。 そこで、白ヤギが作った日本語word2vecモデルを公開します! http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-mo
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。 単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。 これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。 本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。 これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。 イメージ的には、以下のような感じで単語をクラスタにまとめます。 では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。 準備 まずは、作業用のディレクトリを作成しておきましょう。 また、必要に応じて Python の仮想環境も用意します。 以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
先日参加したYANS2018では、アノテーションツールであるdoccanoの紹介を行いました。doccanoを改善していくためにアノテーションについての意見を色々お聞きしたのですが、やはりさまざまなつらみが浮き上がってきました。 本記事では、YANS2018で寄せられたアノテーションのつらさを体系的にまとめます。これはdoccanoの改善に活かされますが、アノテーションを実施する機会がある方にとっても事前に問題となる箇所を把握できる記事になっていると思います。 アノテーションのプロセスアノテーションの意見をまとめる観点として、今回はMATTERを使用しました。MATTERとは、Model、Annotate、Train、Test、Evaluate、Reviseの頭文字を取ったものです。このプロセスはNatural Language Annotation for Machine Learnin
オープンソースの形態素解析器「Mecab」でユーザ辞書を使う方法のまとめです. 辞書を追加することで,形態素解析の精度を向上させることができます. はじめに 大雑把に手順を説明すると, 辞書に追加したい単語のリストを取得. 取得したリストを,辞書作成スクリプトに対応するフォーマットに変換. 辞書を作成. となります.以下,順に説明していきます. 辞書に追加したい単語のリストを取得 今回は,Wikipediaの全記事のタイトルとはてなのキーワードリストをユーザ辞書として追加しようと思うので,まずはそれらを取得します. # Wikipedia $ curl -L http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gunzip > jawiki-latest-all-titles-in-ns
MeCabにあるキーワードをどうしても正確に形態素解析してほしかったので、自分でカスタマイズした辞書を追加してみました。 環境はWindowsです。MacやLinuxユーザのかたは関連リンクの公式の説明を見れば辞書のカスタマイズはできるんじゃないかと思います。Windowsでのやり方と流れは同じだと思うのでこの記事が参考になれば幸いです。 関連リンク 辞書のカスタマイズ ユーザ辞書の追加 1. 作業ディレクトリに移動 2. csvファイルの作成 3. csvファイルに単語を追加 4. 辞書のコンパイル user_custom.bat mecabrcの編集 テスト 結果 関連リンク MeCab: 単語の追加方法 辞書のカスタマイズ MeCabで使われる辞書への単語追加には2通りの方法があるようです。 システム辞書に追加 ユーザ辞書に追加 辞書更新が頻繁でないときや、解析速度を落としたくない場
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く