[B! polyglot] oratosaのブックマーク

oratosa id:oratosa

polyglotに関するoratosaのブックマーク (2)

お手軽に英文文書にメタ情報を!!Pythonでgensimを使ったLDAに挑戦してみた。 - astamuse Lab
こんにちは。白木（@YojiShiraki）です。デザイナーです。前回はpolyglotを用いて英文から名詞を抽出する処理を行いました。今回は、その延長でLDAという手法にチャレンジしたいと思います。背景当社ではぼちぼち大量の自然文章データを取り扱っています。通常、これらのデータを読み解いてクライアントへの提案に繋げているのですが、概観を把握する場合は、膨大なデータを一つ一つ丁寧に読んでいる余裕などありません。そうなると、できる限りメタ情報を付与して、対象データの中身を読まずにだいたい把握するニーズが高くなりますが、残念ながら最初からデータに豊かなメタ情報が付与されているケースは稀であり、あってもカテゴリが一つ与えられているくらいです。そこで自分たちでメタ情報を付与できないか、ということでLDAをやってみたという流れです。 LDAとは？ざっくり言うと、対象となる文書がどういった
oratosa 2019/09/11
polyglot

Python

トピックモデル

自然言語処理
リンク
英文の自然言語処理におススメ！お手軽なPolyglotを使ってみた。 - astamuse Lab
こんにちは。白木（@YojiShiraki）です。デザイナーです。今日はPythonで英文形態素解析をする上でお手軽便利なpolyglotについて紹介します。背景当社ではデータを分析・解析する機会がままありまして、こうしたときに自然言語解析の処理のツールを利用しています。特に最近では英語データが多く、このあたりのツールのニーズが高くなっています。しかし、いざ英語の解析となると意外に情報がありません。例えば、日本語の解析ならMeCabやChaSen、Kuromojiといったものはすぐ見つかります。しかし英文の自然言語解析ではTreeTaggerの情報は目につくもののイマイチまとまった情報がありません（このページやこのページに他の選択肢がまとまっていますが）。おそらくこの領域ではNLTKが王道なのかと思いますが、やや重厚感あります。そこでもう少しライトなものをということでPoly
oratosa 2019/09/11
自然言語処理

polyglot

Python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx