[B! 形態素解析] ssm_kariyaのブックマーク

MeCab: 単語の追加方法

概要辞書への単語追加には, 二つの方法があります. システム辞書への追加ユーザ辞書への追加システム辞書への追加辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード例: utf-8の辞書を作成する例 % /usr/local/libexec/mecab/mecab-dict-

ssm_kariya 2014/03/12

リンク

Mecabに人名辞書を追加 - Qiita

Mecabに新しい単語を追加したくなることは多々あるはず。今回は人名の例で解説する。人名追加に必要となる知識重要なリンク Mecab公式「単語の追加方法」 http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html 人名辞書一覧 http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html#person 辞書の追加先まず、システム辞書として追加するか、ユーザー辞書として追加するかが問題となる。人名辞書の項目は大抵万を超えるので、解析速度のことを考え、システム辞書に追加するのが妥当と考えられる。辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.

ssm_kariya 2014/01/29

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

ssm_kariya 2014/01/14

形態素解析

リンク

形態素解析エンジン一覧

ChaSen 日本語形態素解析システム CaboCha Support Vector Machines に基づく日本語係り受け解析器 JSplitter 日本語の単語抽出ツール MeCab ChaSenを基に開発された高速な形態素解析器 Sen Java 形態素解析エンジンすもも NTT 物性科学基礎研究所で開発された日本語形態素解析システム大量の日本語データを高速に形態素解析することを目的 JUMAN 日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール Breakfast 富士通研究所が開発した日本語形態素解析システム KNP 日本語文の構文解析を行なうシステム SUFARY suffix arrayというデータ構造を用いて高速な文字列検索を行なう MACD Java RM用いた形態素解析システム Rosette Google、Amazon、Lycos 等名だたるサ

ssm_kariya 2007/08/17

形態素解析

リンク

辞書不要の形態素解析エンジン「マリモ」とは − ＠IT

2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

ssm_kariya 2007/08/17

リンク

テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

ssm_kariya 2007/06/18

形態素解析

リンク

ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan

ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき

ssm_kariya 2007/06/18

リンク

形態素解析 - Wikipedia

日本語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書（自然言語処理用の）を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。日本語文法では、たとえば動詞のあとに格助詞がくることはできない（「ドアを開けるを」などは不可）といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある（たとえば連体形の後は名詞）。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法確率的言語モデルをもちいる方法規則による形態素解析[編集] 長尾真らの197

ssm_kariya 2007/05/30

形態素解析

リンク

形態素解析の茶筅

ChaSen -- 形態素解析器はじめに形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布ダウンロードあらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書（奈良先端大より公開予定） NAIST-Chinese-dic 中国語語辞書（奈良先端大より公開予定）著作権および仕様条件について茶筌システムは，広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである．茶筌の著作権は，奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する．本ソフ

ssm_kariya 2007/05/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

形態素解析に関するssm_kariyaのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス