[B! 形態素解析] syou6162のブックマーク

syou6162 id:syou6162

形態素解析に関するsyou6162のブックマーク (13)

形態素解析器 Sudachi の辞書が手に入ったので Go で遊んでみた - 押してダメならふて寝しろ
はじめに Sudachi はワークスアプリケーションズが絶賛開発中の形態素解析器で，Java で書かれています．今一番新しい注目すべき形態素解析器で，次のような機能が特徴としてあげられています．複数の分割単位の併用必要に応じて切り替え形態素解析と固有表現抽出の融合多数の収録語彙 UniDic と NEologd をベースに調整機能のプラグイン化文字正規化や未知語処理に機能追加が可能同義語辞書との連携 (後日公開予定) github.com 開発のステータスは公式には発表されていない(?)ようですが，開発中で本リリースはこれからかな・・・と思います．（実際のところ，スケジュールなどはどうなんでしょうか？）最近，Sudachi の辞書がレポジトリからダウンロードできるようになったので，kagome の辞書に加工して少し遊んでみました．以下，公式情報ではない＆開発で変更される
syou6162 2017/10/18
おもしろい!

形態素解析

nlp
リンク
MeCabのコマンドライン引数一覧とその実行例 | mwSoft
-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書
syou6162 2009/10/20
すげえ

自然言語処理

mecab

形態素解析

nlp
リンク
Rosette形態素解析システム
トークン化や品詞のタグづけ、基本形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基本的な言語解析モジュール製品評価版お問い合わせフォーム高精度な言語解析を実現 Rosette Base Linguictics (基本言語解析)はポータブルで高性能なテキスト分節（分かち書き）エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。テキストを単語（トークン）に分割し、トークンに品詞を付与するとともに、活用語を正規化して基本形（辞書に載っている標準形）を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日本語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計さ
syou6162 2009/10/11
商用の形態素解析器

google

search

形態素解析
リンク
連載：検索エンジンを作る｜gihyo.jp … 技術評論社
運営元のロゴ Copyright © 2007-2025 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
syou6162 2009/10/11
形態素解析

全文検索

algorithm

自然言語処理

検索
リンク
Darts: Double ARray Trie System
Darts: Double-ARray Trie System はじめに Darts は, Double-Array [Aoe 1989]を構築するためのシンプルな C++ Template Library です. Double-Array は Trie を表現するためのデータ構造です. ハッシュ木, デジタルトライ, パトリシア木, Suffix Array による擬似 Trieといった他の Trie の実装に比べ高速に動作します. オリジナルの Double-Arrayは, 動的に key の追加削除を行えるような枠組ですが, Darts はソート済の辞書を一括してDouble-Array に変換することに機能を絞っています. ハッシュのような単純な辞書として使うことも可能ですが, 形態素解析器の辞書に必須の Common Prefix Search を非常に高速に行うことが
syou6162 2009/09/04
形態素解析

trie

c++
リンク
Darts: Double ARray Trie System
Darts: Double-ARray Trie System はじめに Darts は, Double-Array [Aoe 1989]を構築するためのシンプルな C++ Template Library です. Double-Array は Trie を表現するためのデータ構造です. ハッシュ木, デジタルトライ, パトリシア木, Suffix Array による擬似 Trieといった他の Trie の実装に比べ高速に動作します. オリジナルの Double-Arrayは, 動的に key の追加削除を行えるような枠組ですが, Darts はソート済の辞書を一括してDouble-Array に変換することに機能を絞っています. ハッシュのような単純な辞書として使うことも可能ですが, 形態素解析器の辞書に必須の Common Prefix Search を非常に高速に行うことが
syou6162 2009/07/22
algorithm

アルゴリズム

c++

形態素解析

自然言語処理

Double-Array
リンク
”専門用語（キーワード）自動抽出システム”のページ
1.専門用語（キーワード）自動抽出システムとは？当サイトでは、専門用語（キーワード）自動抽出システムの基本システムおよび応用システムを提供しています。専門用語（キーワード）自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、（１）形態素解析プログラムによる単語分割、（２）複合語の作成、（３）文章中における重要度の計算、という３つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。自作の文章からキーワードを抽出したい！メタデータ作成のためにウェッブサイト
syou6162 2009/05/13
自然言語処理

日本語処理

形態素解析

nlp
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
syou6162 2007/08/17
algorithm

computer

mooter

search

tech

形態素解析

アルゴリズム

日本語

検索エンジン

自然言語処理
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
syou6162 2007/06/23
言語処理

自然言語処理

形態素解析

yahoo!

yahoo

nlp

mecab
リンク
形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ
syou6162 2007/05/31
形態素解析

tf-idf

nlp

api
リンク
キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)
いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（
syou6162 2007/05/13
これ使おっかな

cpan

keyword

mecab

nlp

perl

web2.0

形態素解析

自然言語処理

lang
リンク
JUMAN-形態素解析
本システムは, 計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました。その際, 学校文法が計算機向きではないという問題を考慮し, 使用者によって文法の定義, 単語間の接続関係の定義などを容易に変更できるように配慮しました。新バージョン5.Xの拡張点の概要は以下の通りです．日本語の基本的語彙，約3万語（固有名詞を除く）を選定した．表記バリエーションの整備を行い，代表表記を出力することとした．その他の整備（読みの音訓情報の付与，「読ます」「読まされる」などの使役形への対応）例えば，以下のような解析結果がえられます． % cat sample.txt 子どもはリンゴがすきだかぜでおくれた % juman -B -e2 < sample.txt 子どもこども子ども名詞 6 普通名詞 1 * 0 * 0 ”代表
syou6162 2007/03/10
形態素解析
リンク
トップページ
SQL データベース操作言語SQLについて、またRDBMSの持つ機能について詳しく解説します。 DB概要、SQL、テーブル操作、データ操作 ... 特集：replication PostgreSQLのレプリケーションシステムを紹介し、それらの機能を比較していきます。特集：pgbench PostgreSQLのベンチマークテストに用いられるプログラムである pgbench について解説します。 SQL演習問題各章に用意された演習問題を集めました。
syou6162 2006/10/06
lucene

java

形態素解析
リンク
1