[B! 自然言語処理] tadasatoのブックマーク

tadasato id:tadasato

自然言語処理に関するtadasatoのブックマーク (4)

「風景」と「光景」の違いは？国立国語研が大量の日本語データ公開
国立国語研究所は2007年5月28日、約1000万語分の日本語の書き言葉データをインターネット上で試験公開したと発表した。各省庁が刊行した白書のデータ（約500万語分）と、ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ（約500万語分）から成る。こうした大量の言語データは「コーパス」と呼ばれ、言語にまつわる研究開発で活用されている。同研究所は現在、「現代日本語書き言葉均衡コーパス」と呼ぶ大規模コーパスの構築を進めており、今回公開したのはその一部。研究者に限らず誰でも無償で検索、閲覧が可能だ。「“風景”と“光景”など、辞書では違いが分かりにくい言葉でも、大量の用例を見ればすぐ分かる」（研究開発部門の前川喜久雄言語資源グループ長）など、一般の人にとっても、日本語の使われ方を知るうえで便利なデータとなりそうだ。コーパスは、日本語学や日本語教育はもちろん、自然言語処理のように情
tadasato 2008/05/30
コーパス

日本語

自然言語処理
リンク
MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介
※ 画像は公式サイトデモより分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。 TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日本語として正しく書かれている新聞記事などに対して強いが、
tadasato 2008/05/06
形態素解析

自然言語処理

javascript

library
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
tadasato 2007/11/02
n-gram

google

形態素解析

日本語

自然言語処理

database

データベース
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
tadasato 2007/08/16
形態素解析

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx