[B! nlp] [4ページ] mwsoftのブックマーク

gr.jp

This domain may be for sale!

mwsoft 2010/12/03

nlp

リンク

Igo - a morphological analyzer

目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード

mwsoft 2010/11/28

Java製形態素解析器。辞書はMeCab互換。

nlp

リンク

日本語評価極性辞書

2. 日本語評価極性辞書（名詞編）評価極性を持つ（複合）名詞，約8千5百表現に対して評価極性情報を付与した，人手によるチェック済みのデータ．名詞の評価極性は概ね以下の基準に従う（東山, 2008）．〜である・になる（評価・感情）主観「○○が〜である・〜になる」ことは，○○をP/Nと評価しているか？ポジティブ：誠実，安寧，親切，中立，名手，英雄，第一人者，幸せネガティブ：弱気，鬱〜である・になる（状態）客観「〜（という状態）になる」ことは良いことか悪いことか？ポジティブ：ネガティブ：ガン〜い（評価・感情）主観「〜い」は良いか悪いか？ポジティブ：美しさネガティブ：弱さ〜する（感情）主観「〜する」は良い感情か，悪い感情か？ポジティブ：感嘆ネガティブ：失望〜する（出来事）「〜する」ことは嬉しいことか嫌なことか？ポジティブ：

mwsoft 2010/11/27

nlp

リンク

言語データベースとソフトウェア - 言語データベースとソフトウェア

このページでは，国立国語研究所で開発されたコーパス，辞書，ソフトウェアなどの言語資源を公開しています。新着情報 ... 履歴† 2024-04-01:全文検索システム『ひまわり』用の『青空文庫』パッケージを更新しました。 2024-03-15: FishWatchr (ver.1.0 rev02，履歴)を公開しました。 2023-10-25: 『ひまわり』ver.1.7.4を公開しました。 2023-01-31:全文検索システム『ひまわり』を用いた『日本語学習者作文コーパス』の利用を公開しました。 2023-01-07: FishWatchr Mini (ver.2.1，履歴)を更新しました。 2022-12-19:全文検索システム『ひまわり』を用いた『小中高大生による日本語絵描写ストーリーライティングコーパス』の利用を公開しました。 2022-12-15:全文検索システム『ひまわり』の

mwsoft 2010/11/25

nlp

リンク

自然言語処理悪魔の辞典

言い換え (paraphrase) 都合の悪いことを別の表現でごまかすこと。物は言い様。例: 「わがまま→自分の意思をしっかり持っている人」「不潔→ワイルド系」「くだらない研究→興味深い研究」「役に立たない研究→基礎研究」意味論 (semantics) 意味論の意味は意味論の意味論によって定義される。 SVM (support vector machine) ポスト決定木の最右翼。決定木を参照のこと。エラー率 (error rate) 精度の向上が芳しくないときに用いる。精度が 0.01 % 上がりました、と言わずに、エラー率が 5%下がりました、と言うとよい。機械学習 (machine learning) 自己の学習をあきらめた人間の最後のよりどころ。形態素解析 (morphological analysis) 文を形態素に分割すること。形態素が何であるかは永遠の謎。決

mwsoft 2010/11/24

nlp
ネタ

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

mwsoft 2010/11/24

nlp

リンク

Wikipedia日英京都関連文書対訳コーパス

English Page 本コーパスについて『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事（京都関連）を英語に翻訳し、作成しました。特徴人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。翻訳の過程（一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階）が記録されています。訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成

mwsoft 2010/11/16

辞書
nlp

リンク

第3回自然言語処理勉強会で発表してきました - 蝉々亭

少々間が空いてしまいましたが、先週の日曜日11月7日、第3回自然言語処理勉強会で発表させていただきました。内容としては、自然言語処理において名高い教科書の一つである Foundations of Statistical Natural Language Processing の第3章 Linguistic Essentials を解説しました。 Foundations of Statistical Natural Language Processing (The MIT Press) 作者: Christopher Manning,Hinrich Schuetze出版社/メーカー: The MIT Press発売日: 1999/05/28メディア: ハードカバー購入: 3人クリック: 169回この商品を含むブログ (18件) を見る以下は発表の際に用いたスライドです。 FSNLP Ch

mwsoft 2010/11/14

nlp

リンク

UniDic/中古和文UniDic - 言語データベースとソフトウェア

UniDic 2022/04/01 このページは更新は終了しています。UniDicの情報はこちらのページをご覧ください。 http://clrd.ninjal.ac.jp/unidic 2012/05/02 科研費報告書『和文系資料を対象とした形態素解析辞書の開発』(2012)，『中古和文UniDic 短単位規程集』(2012)のPDFを公開しました。形態素解析辞書 : 中古和文UniDic† UniDicの情報をまとめた新しいサイトがオープンしました。このページの内容は古い情報です。今後はこちらのページをご覧ください。 →https://clrd.ninjal.ac.jp/unidic/

mwsoft 2010/10/27

nlp

リンク

2010-10-11 - kento日記 Mozcのかな漢字変換をpythonから呼び出す

とりあえず手順だけ。あとで清書するかも知れません。かもかも。手順 mozcのコードをチェックアウト。（以下、~/src/mozcをWDとする）バインディング用のラッパーを作る。~/src/mozc/src/converter/converter_binding.ccとかで保存。 #include <string> #include "base/base.h" #include "base/util.h" #include "converter/converter_interface.h" #include "converter/segments.h" using namespace mozc; Segments *startConversion(const char *str) { Segments *seg = new Segments(); ConverterInterface *

mwsoft 2010/10/13

nlp

リンク

行列分解ライブラリredsvdで潜在的意味インデキシングを試してみたの巻 - download_takeshi’s diary

久しぶりに自然言語処理的な話です。すこし前にPFIの岡野原さんが公開されたredsvdを試してみました。 redsvd は行列分解を解くためのC++ライブラリであり、特異値分解（SVD)、主成分分析(PCA)、固有値分解などをサポートしています　（中略）　例えば、行と列がそれぞれ10万、非零の要素が100万からなる行列に対する上位20位までの特異値分解を1秒未満で行うことができます．１秒未満って、す、す、すごくねぇだべか？というわけで早速導入してみますた。インストール redsvdは内部の行列演算などにeigen3を使っているとのことなので、まずはこいつをセットアップ。あ、そうそうCMAKEも必要だよ。ちなみに自分の環境でmake checkしたらエラーが少し出てたけど、気にせずそのまま突っ込んでみました。続いてredsvdをインストール。マニュアルサイト見ながらやれば問題

mwsoft 2010/10/12

nlp

リンク

「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記

というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会＠東京 : ATND私の発表は、シルバーウィークにもう１回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回自然言語処理勉強会＠東京 (#tokyotextmining)」自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん）自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん）Query Suggestion @ tokyotextmining#2 (@y_benjoさん）

mwsoft 2010/09/30

わかりやすい

リンク

Baidu Japan（バイドゥ株式会社）

このページをブックマーク登録されていた方は、お手数ですがブックマークの変更をお願いいたします。なお、このページは５秒後に自動的にジャンプします。自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

mwsoft 2010/09/01

nlp

リンク

新しいウェブの言語現象～今ウェブ上で起こっている言語変化～ | Baidu Japan Blog

こんにちは。プロダクト事業部エンジニアの萩原です。８月１１日、東洋大学白山キャンパスにて、文字研究会主催の「第5回ワークショップ:文字―「現実」から見た改定常用漢字表― 」が開催されました。ワークショップにて、「ウェブ上における使用実態統計から改定常用漢字を考える」というタイトルで発表させていただきましたので、今回はそのご報告です。今回のワークショップの背景として、常用漢字表の改定があります。現行の常用漢字表が制定されたのは29年前の1981年ですが、現在では、情報機器の普及、インターネットの発展によって、漢字をはじめとすることばの使用実態にに大きな変化が起こっています。新しい言語現象の最先端とも言えるウェブで、どのような変化が起こっているのでしょう。その変化を正確に捉えるために、今回、ウェブ上の言語現象を、正確な時間と共に記録した「高精度時間軸ウェブコーパス」をバイドゥ独自に構築し

mwsoft 2010/08/31

nlp

リンク

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

mwsoft 2010/08/18

リンク

Baidu Japan（バイドゥ株式会社）

このページをブックマーク登録されていた方は、お手数ですがブックマークの変更をお願いいたします。なお、このページは５秒後に自動的にジャンプします。自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

mwsoft 2010/06/22

nlp

リンク

大規模文字列解析の理論と実践＠IBISML - DO++

IBISML 第一回研究会の招待講演での発表資料です。参考文献などを追加しました。 "大規模文字列解析の理論と実践" (pdf|pptx) 最初はもっとサーベイ的にしたかったのですが、まとめあげられず、テーマを部分文字列の計量に絞ってやりました。後半の予備スライドにそのへんの名残があります。本番で口頭で説明したところは、スライドだけだと追いづらいかもしれません。 --- 研究会は武田ホールで立ち見がでるくらい盛況でした。プログラムを見ていただければわかるとおもいますが、みなさん非常に濃い内容でした。久しぶりのこうした研究会参加で大変刺激になりました。

mwsoft 2010/06/17

nlp

リンク

言語情報処理ポータル

IWSLT 2008 (International Workshop on Spoken Language Translation) (2008/10/20-21, Hawai'i, USA) AMTA 2008 (The 8th Biennial Conference of the Association for Machine Translation in the Americas) (2008/10/21-25, Hawai'i, USA) JEITA 知識情報処理技術に関するシンポジウム「先端Web技術は企業を変えるか」 (2008/10/23, ベルサール神保町, 東京) EM NLP 2008 (Conference on Empirical Methods in Natural Language Processing) (2008/10/25-27, Hawai'i, USA

mwsoft 2010/06/17

nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

nlpに関するmwsoftのブックマーク (78)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス