[B! 形態素解析] jnlpのブックマーク

https://ja.osdn.net/projects/naist-jdic/docs/NAIST-JDIC-ja.pdf/ja/1/NAIST-JDIC-ja.pdf.pdf

jnlp 2011/08/15

形態素解析

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

jnlp 2011/08/09

リンク

Igo - a morphological analyzer

目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード

jnlp 2011/06/15

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

jnlp 2011/06/07

リンク

MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac

HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su

jnlp 2011/06/06

リンク

.NETプログラミング研究 - DoboWiki

DOBON.NET DOBON.NET プログラミング道 .NET Tips 最近1週間の人気の20件.NETプログラミング研究/93 ( 113 / 77 / 139529 ) ぱたうさ ( 94 / 66 / 31923 ) .NETプログラミング研究/76 ( 76 / 40 / 73306 ) free/kanaxsCSharp ( 72 / 32 / 30796 ) .NETプログラミング研究/111 ( 64 / 57 / 47632 ) .NETプログラミング研究/112 ( 62 / 60 / 37907 ) .NETプログラミング研究/94 ( 54 / 35 / 60613 ) .NETプログラミング研究/98 ( 46 / 49 / 42994 ) PukiWiki/Tips ( 45 / 37 / 13532 ) .NETプログラミング研究/85 ( 44 / 32

jnlp 2011/06/03

リンク

日本語解析エンジン「なずき」 | NTTデータ

「エモーションアナライザ」は、アンケートの自由記述回答や、コンタクトセンターに集まった問い合わせ、インターネット上のブログ等、様々なテキストデータの分析を行うことのできる分析パッケージツールです。テキストデータに含まれる単語や係り受けからだけでなく、表現やニュアンスに含まれる書き手の「気持ち」を理解し、文章中にある話題（対象）について「好き」「嫌い」などの評価情報（感性）を高い精度で抽出することができます。

jnlp 2011/05/31

リンク

Tokyonlp03 analyzer

Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Tokyonlp03 analyzer - Presentation Transcript 統計的形態素解析入門 #tokyonlp @nokuno 自己紹介 2  Twitter: @nokuno  はてなid: nokuno  この勉強会の主催者  自然言語処理 / 機械学習 / 並列分散処理に興味 2002～2006：サークルでゲーム開発 2007～2008：未踏でSocial IMEの開発 2009～現在：Web業界勤務今日の話題 3  形態素解析  生成モデル  識別

jnlp 2011/05/20

リンク

Sen - 日本語形態素解析システム

Sen は Java で書かれた日本語形態素解析システム。 C++ で開発されている MeCab を Java に移植したもの。辞書は MeCab、茶筌と同じIPAの辞書を利用。 Sen配布ページ辞書の構築に Apache Ant が必要。このページは Sen version 1.2.2.1 用である。インストール Apache Antのインストール Sen は辞書を構築するのに Apache Ant というビルドツールを使う。これをあらかじめインストールしておく必要がある。 Apache Ant のインストール SenのインストールパッケージはSen配布ページから sen-1.2.2.1.zip をダウンロードしておく(mirror)。以下では ~学籍番号/Desktop/ にダウンロードしたものとして話を進める。展開 /usr/local に展開し、ディレクトリ名を se

jnlp 2011/05/20

リンク

異なる「しょうぶ」を見分けるGoogle の同義語システム

Google は、検索を使いやすくするために、日々改善を続けています。昨年は、検索結果ページのリニューアルやレシピ検索等、ユーザーの皆さんに見える機能を含め、500 以上の改善を施しています。今日は「見えにくい」改善のひとつとして、同義語システムについてご紹介します。日本語には、ひらがな、カタカナ、漢字、アルファベット等、多様な種類の文字があり、同じ言葉でも、さまざまな書き方があります。文字種違いの同義語への取り組みについては、以前の記事でもご紹介しましたが、これは、一見簡単そうで実は奥の深い問題です。一見すると、日本語入力に使っている辞書のようなものがあればよいように思いますが、人手を介さずに正しい同義語を見つけるのは単純ではありません。たとえば、「しょうぶ」という言葉は「勝負」「菖蒲」「尚武」などさまざまな漢字を当てることができますが、それぞれ異なる意味を持っていて、探している情報

jnlp 2011/05/18

リンク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

jnlp 2011/05/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

形態素解析に関するjnlpのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス