タグ

自然言語処理に関するkupoyukiのブックマーク (15)

  • https://www.jnlp.org/

  • 単語の出現頻度を求める --- 興味語の抽出は簡単じゃありませんよ ---

    語文章から、単語の出現数を数えるためには、文章から単語を抽出しなくてはいけません。すなわち分かち書き(単語の間に空白などを入れる)しないといけません。 来ならば、分かち書きは大変な作業ですが、MeCab (和布蕪)やChasen(茶筌)などといった形態素解析ソフトがありますので、これの出力を使うと簡単です。形態素解析(ソフト)は、入力文を単語単位に分割し、かつその品詞を与えてくれます。 PerlRubyなどのスクリプト言語のモジュールとして、提供されていることもあります。ですが、たいていの場合そのようなモジュールを使わなくても、簡潔さを損なうことなく記述することができます。(*1) (*1) 格的に解析している人は除きます。多くの人が「分かち書き+品詞を知りたいくらい」だろうと想定しています。 まず分かち書き まず、日語文章を分かち書き形式に変換しないといけません。分かち書きす

  • 専門用語(キーワード)自動抽出サービス 「言選Web」

    このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです! このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。 次のいずれかで専門用語(キーワード)を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定 文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定 入力ボックス下のチェックボックスから和文、英文を選択。 専門用語(キーワード)抽出ボタンをクリック しばらくすると専門用語(キーワード)が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの

  • TTM: TinyTextMiner β version

    はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。 また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。 インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。

  • Polaris -

    Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは,外界で観測された現象をキーワード(シンボル)や数値に変換し,そのデータをコンピュータに与えます.コンピュータは,与えられたデータがどのような性質を持つのか計算し,データの中に埋もれている特徴的な事象を見出します.あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが,そういう訳ではありません. 現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません.例えば,「顔が白い」というパターンがマイニングで得られたとき,「顔」「白色」の

  • d3.jsでCSVファイル/TSVファイルを扱う - Qiita

    CSVファイルの読み込み ヘッダ付きCSVファイルの読み込み d3.csv(url, callback)で各列の値をプロパティとして持つオブジェクトの配列が作成される。

    d3.jsでCSVファイル/TSVファイルを扱う - Qiita
    kupoyuki
    kupoyuki 2015/09/08
    d3の記事もストックしていきたい、csvの処理
  • mecabの辞書を自動コストで作成 - Qiita

    そもそもmecabを入れないとダメなのでmecabを入れます。 といっても私の場合はmroongaを使ってあることをしているので、mroongaのmecabを利用します。 ということなので、mroongaのリポジトリを使ってください。 % sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm % sudo yum makecache % sudo yum install -y mecab mecab-ipadic mecab-devel モデルファイル 辞書作成時にはある程度の語彙のコストを記録しているモデルファイルが必要です。 mecabの配布先でモデルファイルも配布しているので、それを利用します。 code.google.com テストなので、このファイルを/t

    mecabの辞書を自動コストで作成 - Qiita
    kupoyuki
    kupoyuki 2015/09/07
    コストの自動設定の件、興味深いけどうまくいかないのでまた今度
  • MeCab システム辞書への単語追加(mecab-ipadic-neologd)

    MeCab 辞書には、以前の記事でご紹介した「ユーザ辞書」と「システム辞書」の2種類があります。ユーザ辞書への単語の追加は、手軽な反面、解析速度が落ちるといったデメリットもあります。そこで今回は、MeCab の「システム辞書」に単語を追加する方法をご紹介します。また、最近話題の新語辞書 mecab-ipadic-neologd もシステム辞書に追加してみました。 作業の流れ MeCab のシステム辞書は1つのみ、というルールがあるため、IPA辞書のソースディレクトリに、追加したい単語のCSVファイルを配置して、システム辞書を作成します。また、追加する単語のコストは、mecab-ipadicのモデルファイル使った自動推定機能を使います。 下準備 MeCab と IPA辞書をインストールしておきます。 nkf コマンドのインストール IPA辞書の文字コードを、UTF-8 に変換するため、nkf

    MeCab システム辞書への単語追加(mecab-ipadic-neologd)
    kupoyuki
    kupoyuki 2015/09/07
    ユーザ辞書への認識はうまくいかなかったので結局こちらでやるしか
  • MeCab ユーザ辞書への単語追加

    MeCab を使って、文章を単語に分割した時に、複数の単語が含まれる複合語などが、思ったように分割できない事があります。例えば「焼肉定」は「焼肉」と「定」の2つの単語に分割されてしまいます。MeCab には「最小単位の単語に分割する」という基ルールがあるので、この分割は正しいのですが、実際に文章を解析する時は、1つの単語として扱いたくなります。そこで今回は、MeCab の辞書に単語を追加して、思ったように単語を分割する方法をご紹介します。 MeCab 辞書への単語の追加方法 辞書への単語の追加には、2つの方法があるようです。今回は「ユーザ辞書」へ単語を追加してみたいと思います。 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. ユーザ辞書への追加 システム辞書の更新は時間がかかります. 辞書の更新が頻繁

    MeCab ユーザ辞書への単語追加
    kupoyuki
    kupoyuki 2015/09/06
    ユーザ辞書登録のやり方はこれでいけそうだけど、なぜか認識せず
  • nkfコマンドのインストール - 本日も乙

    日はnkfコマンドのインストールです。 京都の夏は暑いです。 昨日の豪雨はすごかったです。 http://matome.naver.jp/odai/2137568482832704101 ファイルの文字コードを確認したいときや変換(エンコード)したい場合に、nkf (Network Kanji Filter)コマンドがあります。 デフォルトでインストールされていなかったので、別途インストールする必要があります。 インストールは yum か、ソースから行います。 yumでインストール $ sudo yum install nkf インストールは簡単ですが、バージョンが古い場合があるので最新バージョンをインストールしたい場合は、ソースからコンパイルしてインストールします。 ソースからインストール ソースのダウンロード http://sourceforge.jp/projects/nkf/ か

    nkfコマンドのインストール - 本日も乙
    kupoyuki
    kupoyuki 2015/09/06
    nkfコマンド
  • mecabのインストールと辞書追加 - Furudateのブログ

    こんばんは。 今回はMacにmecabを入れ、PHPで使えるようにしたいと思います。 なお、私の場合はphpenvでPHPを管理しているので、以下はそちらに合わせた環境構成となります。 mecabインストール まずはmecabのインストールです。 Homebrewで簡単に出来ます。ついでに辞書もインストールします。 辞書はipadicがデファクトスタンダードなようですのでこれをインストールします。 $ brew install mecab $ brew install mecab-ipadic # インストールが終わったらテストです $ mecab すもももももももものうち テストしてみて結果が出ればOKです。 Homebrewでインストールした辞書は、必要最低限の構成しかないみたい(CSVとかがない)なので、ソースファイルをDLしてきて全てのファイルを移動しておきます。 $ wget h

    mecabのインストールと辞書追加 - Furudateのブログ
    kupoyuki
    kupoyuki 2015/09/06
    yumでいれると “/usr/local/etc/mecabrc”じゃなくて"/etc/mecabrc"になるので注意
  • mecabにwikipediaとhatenaキーワードのユーザ辞書を適用する(ついでに、辞書にない場合はそれもわかるようにするオプション付き) - すがブロ

    mecabのインストール $ brew install mecab $ brew install mecab-ipadic wikipediahatenaのキーワードファイルの取得 $ curl -L http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv | iconv -f euc-jp -t utf-8 > keywordlist_furigana.csv $ curl -L http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gunzip > jawiki-latest-all-titles-in-ns0 辞書作成コードを用意する(make_dict.rb) gist88bfb2936690d5508a8c $

    mecabにwikipediaとhatenaキーワードのユーザ辞書を適用する(ついでに、辞書にない場合はそれもわかるようにするオプション付き) - すがブロ
    kupoyuki
    kupoyuki 2015/09/06
    去年はなかったもっと良いやり方 ニコニコも追加だ
  • さくらVPSにMeCabをインストールしてPHPから利用(CentOS6.4+PHP5.3.3/5.4.2) - 青春B■雑記blog‐青酸カリ カラメルシロップ味‐

    サーバ:さくらVPS OS:CentOS6.4 PHP:5.3.3(5.4.2でも同様でした) MeCab:0.996 IPAdic:2.7.0 php-mecab:0.5.0 文字コード:UTF-8 記事ではディレクトリ構成がデフォルトのままであることを前提に進めていますので、構成をいじっている方はそれに合わせて変更してください。 さくらVPSへのMeCabインストールを取り上げたblog記事はすでにいくらでもあるのですが、バージョンが古かったり環境が微妙に違っていたりもするので、こうして新しい情報を掲載するのも、まあ、意味があるのではないかと。

    kupoyuki
    kupoyuki 2015/08/31
    なんとphp-mecabではなくただのMeCabを一生懸命インストールしていたことが発覚しました.解決.アンインストールとかいろいろ大変だった(みてただけ)
  • MecabをCentOSにインストールして、PHPからも使えるようにする

    mecabは形態素解析を行ってくれるソフトウェアです。これをCentOSにインストールする手順です。 mecabは体と辞書の2つの要素から成り立ってます。こちらの記事では、最新の言葉が利用できる強力なユーザ辞書【mecab-ipadic-neologd】を利用する方法を紹介しています。併せてインストールすると良いと思います。 ついでに、mecab_split関数をPHPで使えるようにもしてみます。 ■Mecab体のインストール ○ダウンロード 以下のコマンドでダウンロードします。例ではwgetを利用していますが、別にダウンロードできればなんでも構いません。 wget -O mecab-0.996.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE" ○展開する 以下のコマ

    MecabをCentOSにインストールして、PHPからも使えるようにする
    kupoyuki
    kupoyuki 2015/08/31
    phpでMeCabをインストールできない:makeできない問題、この方法ならできました ver.違い?なんなの
  • 日本語品詞分解ツール | konisimple tool

    入力された文章を品詞分解して、見やすく表示します。 入力するたびに表示されるので、日語の文法の学習にご利用ください。研究等のためCSVでもダウンロードできます。

    日本語品詞分解ツール | konisimple tool
    kupoyuki
    kupoyuki 2015/08/24
    きれいなインタフェース
  • 1