タグ

nlpに関するmwsoftのブックマーク (78)

  • gr.jp

    This domain may be for sale!

    mwsoft
    mwsoft 2010/12/03
  • Igo - a morphological analyzer

    目次 概要/特徴 リリースノート インストール/使い方 jarファイル 解析用辞書作成 形態素解析 コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点 解析結果 機能 辞書ファイル 単語エントリフォーマット 制限/注意点 禁則文字 バイナリ辞書エンディアン ライセンス バグ報告など 概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版 辞書フォーマット及び解析結果は、ほぼMeCab互換。 単機能。 Java形態素解析器としては比較的高速。 スレッドセーフ。 リリースノート version 0.4.3: 2011年06月17日 形態素解析部の微細なパフォーマンスチューニング インストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。 ダウンロード

    mwsoft
    mwsoft 2010/11/28
    Java製形態素解析器。辞書はMeCab互換。
  • 日本語評価極性辞書

    2. 日語評価極性辞書(名詞編) 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気, 〜である・になる(状態)客観 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ: ネガティブ:ガン 〜い(評価・感情)主観 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事) 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:

    mwsoft
    mwsoft 2010/11/27
  • 言語データベースとソフトウェア - 言語データベースとソフトウェア

    このページでは,国立国語研究所で開発されたコーパス,辞書,ソフトウェアなどの言語資源を公開しています。 新着情報 ... 履歴† 2024-04-01:全文検索システム『ひまわり』用の『青空文庫』パッケージを更新しました。 2024-03-15: FishWatchr (ver.1.0 rev02,履歴)を公開しました。 2023-10-25: 『ひまわり』ver.1.7.4を公開しました。 2023-01-31:全文検索システム『ひまわり』を用いた『日語学習者作文コーパス』の利用を公開しました。 2023-01-07: FishWatchr Mini (ver.2.1,履歴)を更新しました。 2022-12-19:全文検索システム『ひまわり』を用いた『小中高大生による日語絵描写ストーリーライティングコーパス』の利用を公開しました。 2022-12-15:全文検索システム『ひまわり』の

    mwsoft
    mwsoft 2010/11/25
  • 自然言語処理 悪魔の辞典

    言い換え (paraphrase) 都合の悪いことを別の表現でごまかすこと。物は言い様。 例: 「わがまま→自分の意思をしっかり持っている人」 「不潔→ワイルド系」「くだらない研究→興味深い研究」 「役に立たない研究→基礎研究」 意味論 (semantics) 意味論の意味は意味論の意味論によって定義される。 SVM (support vector machine) ポスト決定木の最右翼。決定木を参照のこと。 エラー率 (error rate) 精度の向上が芳しくないときに用いる。精度が 0.01 % 上がりま した、と言わずに、エラー率が 5%下がりました、と言うとよい。 機械学習 (machine learning) 自己の学習をあきらめた人間の最後のよりどころ。 形態素解析 (morphological analysis) 文を形態素に分割すること。形態素が何であるかは永遠の謎。 決

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

    mwsoft
    mwsoft 2010/11/24
  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

  • 第3回自然言語処理勉強会で発表してきました - 蝉々亭

    少々間が空いてしまいましたが、先週の日曜日11月7日、第3回自然言語処理勉強会で発表させていただきました。内容としては、自然言語処理において名高い教科書の一つである Foundations of Statistical Natural Language Processing の第3章 Linguistic Essentials を解説しました。 Foundations of Statistical Natural Language Processing (The MIT Press) 作者: Christopher Manning,Hinrich Schuetze出版社/メーカー: The MIT Press発売日: 1999/05/28メディア: ハードカバー購入: 3人 クリック: 169回この商品を含むブログ (18件) を見る 以下は発表の際に用いたスライドです。 FSNLP Ch

    第3回自然言語処理勉強会で発表してきました - 蝉々亭
    mwsoft
    mwsoft 2010/11/14
  • UniDic/中古和文UniDic - 言語データベースとソフトウェア

    UniDic 2022/04/01 このページは更新は終了しています。UniDicの情報はこちらのページをご覧ください。 http://clrd.ninjal.ac.jp/unidic 2012/05/02 科研費報告書『和文系資料を対象とした形態素解析辞書の開発』(2012),『中古和文UniDic 短単位規程集』(2012)のPDFを公開しました。 形態素解析辞書 : 中古和文UniDic† UniDicの情報をまとめた新しいサイトがオープンしました。このページの内容は古い情報です。今後はこちらのページをご覧ください。 →https://clrd.ninjal.ac.jp/unidic/

    mwsoft
    mwsoft 2010/10/27
  • 2010-10-11 - kento日記 Mozcのかな漢字変換をpythonから呼び出す

    とりあえず手順だけ。あとで清書するかも知れません。かもかも。 手順 mozcのコードをチェックアウト。(以下、~/src/mozcをWDとする) バインディング用のラッパーを作る。~/src/mozc/src/converter/converter_binding.ccとかで保存。 #include <string> #include "base/base.h" #include "base/util.h" #include "converter/converter_interface.h" #include "converter/segments.h" using namespace mozc; Segments *startConversion(const char *str) { Segments *seg = new Segments(); ConverterInterface *

    2010-10-11 - kento日記 Mozcのかな漢字変換をpythonから呼び出す
    mwsoft
    mwsoft 2010/10/13
  • 行列分解ライブラリredsvdで潜在的意味インデキシングを試してみたの巻 - download_takeshi’s diary

    久しぶりに自然言語処理的な話です。 すこし前にPFIの岡野原さんが公開されたredsvdを試してみました。 redsvd は行列分解を解くためのC++ライブラリであり、特異値分解(SVD)、主成分分析(PCA)、固有値分解などをサポートしています (中略) 例えば、行と列がそれぞれ10万、非零 の要素が100万からなる行列に対する上位20位までの特異値分解を1秒未満で行うことができます. 1秒未満って、す、す、すごくねぇだべか? というわけで早速導入してみますた。 インストール redsvdは内部の行列演算などにeigen3を使っているとのことなので、まずはこいつをセットアップ。あ、そうそうCMAKEも必要だよ。 ちなみに自分の環境でmake checkしたらエラーが少し出てたけど、気にせずそのまま突っ込んでみました。 続いてredsvdをインストール。 マニュアルサイト見ながらやれば問題

    行列分解ライブラリredsvdで潜在的意味インデキシングを試してみたの巻 - download_takeshi’s diary
    mwsoft
    mwsoft 2010/10/12
  • 「Mozcソースコード徹底解説」 at 第2回自然言語処理勉強会 - nokunoの日記

    というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会@東京 : ATND私の発表は、シルバーウィークにもう1回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回 自然言語処理勉強会@東京 (#tokyotextmining)」 自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん) 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん)Query Suggestion @ tokyotextmining#2 (@y_benjoさん)

    mwsoft
    mwsoft 2010/09/30
    わかりやすい
  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    mwsoft
    mwsoft 2010/09/01
  • 新しいウェブの言語現象~今ウェブ上で起こっている言語変化~ | Baidu Japan Blog

    こんにちは。プロダクト事業部エンジニアの萩原です。 8月11日、東洋大学白山キャンパスにて、文字研究会主催の「第5回ワークショップ:文字―「現実」から見た改定常用漢字表― 」が開催されました。ワークショップにて、「ウェブ上における使用実態統計から改定常用漢字を考える」というタイトルで発表させていただきましたので、今回はそのご報告です。 今回のワークショップの背景として、常用漢字表の改定があります。現行の常用漢字表が制定されたのは29年前の1981年ですが、現在では、情報機器の普及、インターネットの発展によって、漢字をはじめとすることばの使用実態にに大きな変化が起こっています。 新しい言語現象の最先端とも言えるウェブで、どのような変化が起こっているのでしょう。その変化を正確に捉えるために、今回、ウェブ上の言語現象を、正確な時間と共に記録した「高精度時間軸ウェブコーパス」をバイドゥ独自に構築し

    mwsoft
    mwsoft 2010/08/31
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    mwsoft
    mwsoft 2010/06/22
  • 大規模文字列解 析の理論と実践@IBISML - DO++

    IBISML 第一回研究会の招待講演での発表資料です。参考文献などを追加しました。 "大規模文字列解 析の理論と実践" (pdf|pptx) 最初はもっとサーベイ的にしたかったのですが、まとめあげられず、テーマを部分文字列の計量に絞ってやりました。後半の予備スライドにそのへんの名残があります。 番で口頭で説明したところは、スライドだけだと追いづらいかもしれません。 --- 研究会は武田ホールで立ち見がでるくらい盛況でした。 プログラムを見ていただければわかるとおもいますが、みなさん非常に濃い内容でした。 久しぶりのこうした研究会参加で大変刺激になりました。

    大規模文字列解 析の理論と実践@IBISML - DO++
    mwsoft
    mwsoft 2010/06/17
  • 言語情報処理 ポータル

    IWSLT 2008 (International Workshop on Spoken Language Translation) (2008/10/20-21, Hawai'i, USA) AMTA 2008 (The 8th Biennial Conference of the Association for Machine Translation in the Americas) (2008/10/21-25, Hawai'i, USA) JEITA 知識情報処理技術に関するシンポジウム 「先端Web技術は企業を変えるか」 (2008/10/23, ベルサール神保町, 東京) EMNLP 2008 (Conference on Empirical Methods in Natural Language Processing) (2008/10/25-27, Hawai'i, USA

    mwsoft
    mwsoft 2010/06/17