polyglotに関するoratosaのブックマーク (2)

  • お手軽に英文文書にメタ情報を!!Pythonでgensimを使ったLDAに挑戦してみた。 - astamuse Lab

    こんにちは。白木(@YojiShiraki)です。デザイナーです。 前回はpolyglotを用いて英文から名詞を抽出する処理を行いました。今回は、その延長でLDAという手法にチャレンジしたいと思います。 背景 当社ではぼちぼち大量の自然文章データを取り扱っています。通常、これらのデータを読み解いてクライアントへの提案に繋げているのですが、概観を把握する場合は、膨大なデータを一つ一つ丁寧に読んでいる余裕などありません。 そうなると、できる限りメタ情報を付与して、対象データの中身を読まずにだいたい把握するニーズが高くなりますが、残念ながら最初からデータに豊かなメタ情報が付与されているケースは稀であり、あってもカテゴリが一つ与えられているくらいです。 そこで自分たちでメタ情報を付与できないか、ということでLDAをやってみたという流れです。 LDAとは? ざっくり言うと、対象となる文書がどういった

    お手軽に英文文書にメタ情報を!!Pythonでgensimを使ったLDAに挑戦してみた。 - astamuse Lab
  • 英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。 - astamuse Lab

    こんにちは。白木(@YojiShiraki)です。デザイナーです。 今日はPythonで英文形態素解析をする上でお手軽便利なpolyglotについて紹介します。 背景 当社ではデータを分析・解析する機会がままありまして、こうしたときに自然言語解析の処理のツールを利用しています。特に最近では英語データが多く、このあたりのツールのニーズが高くなっています。 しかし、いざ英語の解析となると意外に情報がありません。 例えば、日語の解析ならMeCabやChaSen、Kuromojiといったものはすぐ見つかります。しかし英文の自然言語解析ではTreeTaggerの情報は目につくもののイマイチまとまった情報がありません(このページやこのページに他の選択肢がまとまっていますが)。 おそらくこの領域ではNLTKが王道なのかと思いますが、やや重厚感あります。 そこでもう少しライトなものをということでPoly

    英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。 - astamuse Lab
  • 1