目次 構文解析器CaboCha CaboChaでHello, World! 詳細な係り受け関係の出力 CaboChaでよく使用するタイプ トークン(形態素)の出力 自力で係り受け関係を出力する おわりに 参考 構文解析器CaboCha 自然言語処理とは人間の話す言語を解析するプログラミングの分野です。 自然言語処理は↓の工程に分かれています。 形態素解析 構文解析 意味解析 文脈解析 形態素解析というのは日本語を単語のリストに変換する処理です。 そして構文解析とは、それらの単語がどの単語に係(かか)っているかを解析する処理です。 係っているかどうかの関係を「係り受け」の関係といいます。 ↑の工程の内、形態素解析から構文解析までをやってくれるライブラリに「CaboCha」というライブラリがあります。 この記事ではPythonによるCaboChaの簡単な使い方をまとめています。 CaoboCh
PythonでWord2vecを使い類似語を表示するスクリプトを作った【自然言語処理, gensim】 目次 Word2vecとは? Word2vecのインストール スクリプトの仕様 スクリプトのコード おわりに 参照 Word2vecとは? 自然言語処理で類似語を判定したいとなったとき、Pythonで使われるライブラリがWord2vecです。 Word2vec - Wikipedia これはGoogleのトマス・ミコロフ氏が筆頭に開発した技術で、サンプルとなるテキストからモデルを作成し、そのモデルを使って類似語などを検出できるようにするというものです。 今回はこのWord2vecを使ったコマンドライン・スクリプトを作成しましたので紹介したいと思います。 Word2vecのインストール pipを使い環境にWord2vec(gensim)をインストールします。
目次 Pythonで形態素解析 Janomeのインストール Janomeでトークン列に分解 自力で名詞を抽出する 自力で名詞の出現回数をカウントする Analyzerで名詞を抽出する Janomeで名詞の出現回数をカウントする 問題 Pythonで形態素解析 人間が自然発生的に使っている言語を「自然言語」と言います。 その自然言語を構造的に解析する手法の1つに「形態素解析(けいたいそかいせき)」というジャンルがあります。 自然言語に対して形態素解析を行うと、名詞や動詞を抽出したりできるようになります。 Pythonには形態素解析を行うライブラリに「Janome」があります。 Janomeは形態素解析器として有名な「MeCab」の辞書を使っており、精度的にはMeCabと同程度の解析が可能です。 Welcome to janome's documentation! (Japanese) — J
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く