タグ

qiitaとNLPに関するslay-tのブックマーク (4)

  • 2019年末版 形態素解析器の比較 - Qiita

    形態素解析は日語処理の初歩であり、文を単語に分割したり、品詞や活用形、基形を分析するために行います。記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

    2019年末版 形態素解析器の比較 - Qiita
  • テキスト処理総まとめ〜Bag-of-Words, MeCab, CaboCha, TF-IDF, Word2Vec, Doc2Vec〜 - Qiita

    目次 Bag-of-X Bag-of-Words Bag-of-n-Grams 日語の言語処理(MeCab, CaboCha) TF-IDF Word2Vec Doc2Vec 自然言語処理に関連した主な用語集 自然言語処理の分野では特有の専門用語がよく出てくるので、まずそれを抑えます。 ストップワード 代名詞、冠詞、前置詞のような、文章の内容によらず一般的に使われる単語のこと。 英語だと例えば、a, about, am, an, been, they, myself・・・など。 日語だと、「の」、「は」、「です」、「ます」・・・など。 ステミング 単語を語幹(単語の語形変化における基礎となる部分のこと)の形に変換する自然言語処理の技術。 例えば、'swimmer', 'swimming', 'swim'のような変化形を同じ単語として認識する。 コーパス 自然言語処理の単語で解析対象とな

    テキスト処理総まとめ〜Bag-of-Words, MeCab, CaboCha, TF-IDF, Word2Vec, Doc2Vec〜 - Qiita
  • テキストに含まれた情報を有向グラフに変換する話(一):可視化の章 - Qiita

    こんにちは。理系大学院で修業中のスーパーケロケロです。趣味で自然言語解析(NLP)の勉強をしています。最近、テキストに含まれた情報を有向グラフに変換するPythonライブラリーnaruhodoを作ったので、ライブラリーの紹介も兼ねて、テキストを有向グラフに変換する話を少ししてみたいと思います。 naruhodoのGithubリポジトリはこちら、最新バージョンはです。 自然言語解析の流れ 自然言語解析を料理に例えれば、入力されたテキストは収穫待ちのコムギのようで、そのままでは使えない。このコムギを形態素解析で脱殻し(形態素単位で分離)、さらに词类(Part-Of-Speech)や依存構造解析で小麦粉にしてから(文法情報の付与)、ようやくパンのような美味しいべ物が作れる(実際の応用)。 テキストが処理されるごとに、使える情報が増えて、応用の幅が広げるわけです。 文=>木、文章=>有向グラフ

    テキストに含まれた情報を有向グラフに変換する話(一):可視化の章 - Qiita
  • 文章特徴抽出ライブラリWordBatchを試してみる - Qiita

    GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの?って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとは こちらで公開されております。 一言で言うと 「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。 ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。 また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。 ユースケースとしては、以下の要望に応えられるものかと思います。 なるべく時間かけずに文章の

    文章特徴抽出ライブラリWordBatchを試してみる - Qiita
  • 1