タグ

形態素解析に関するssm_kariyaのブックマーク (9)

  • MeCab: 単語の追加方法

    概要 辞書への単語追加には, 二つの方法があります. システム辞書への追加 ユーザ辞書への追加 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加 辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード 例: utf-8の辞書を作成する例 % /usr/local/libexec/mecab/mecab-dict-

  • Mecabに人名辞書を追加 - Qiita

    Mecabに新しい単語を追加したくなることは多々あるはず。 今回は人名の例で解説する。 人名追加に必要となる知識 重要なリンク Mecab公式「単語の追加方法」 http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html 人名辞書一覧 http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html#person 辞書の追加先 まず、システム辞書として追加するか、ユーザー辞書として追加するかが問題となる。 人名辞書の項目は大抵万を超えるので、解析速度のことを考え、システム辞書に追加するのが妥当と考えられる。 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.

    Mecabに人名辞書を追加 - Qiita
  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

  • 形態素解析 エンジン 一覧

    ChaSen 日形態素解析システム CaboCha Support Vector Machines に基づく日語係り受け解析器 JSplitter 日語の単語抽出ツール MeCab ChaSenを基に開発された高速な形態素解析器 Sen Java 形態素解析エンジン すもも NTT 物性科学基礎研究所で開発された日形態素解析システム 大量の日語データを高速に形態素解析することを目的 JUMAN 日語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール Breakfast 富士通研究所が開発した日形態素解析システム KNP 日語文の構文解析を行なうシステム SUFARY suffix arrayというデータ構造を用いて高速な文字列検索を行なう MACD Java RM用いた形態素解析システム Rosette GoogleAmazon、Lycos 等名だたるサ

  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

  • テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
  • ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan

    ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日語の文章を解析できるAPI「日形態素解析Webサービス」を公開した。 日形態素解析Webサービスは、ヤフーの日語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。 このAPIを利用することで、開発者は解析対象となる日語の文章を形態素に分割し、品詞や読み、基形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。 また、すでに公開済みのAPIから取得したデータを解析することもでき

    ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan
  • 形態素解析 - Wikipedia

    語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

    形態素解析 - Wikipedia
  • 形態素解析の茶筅

    ChaSen -- 形態素解析器 はじめに 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。 新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布 ダウンロード あらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日語辞書 UniDic 日語辞書 NAIST-Japanese-dic 日語辞書(奈良先端大より公開予定) NAIST-Chinese-dic 中国語語辞書(奈良先端大より公開予定) 著作権および仕様条件について 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松研究室)が保持する.ソフ

  • 1