辞書に関するfawのブックマーク (51)

  • kuromoji - japanese morphological analyzer

    About Kuromoji Kuromoji is an open source Japanese morphological analyzer written in Java. Kuromoji has been donated to the Apache Software Foundation and provides the Japanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, but it can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so

    faw
    faw 2011/06/06
    形態素解析
  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

    faw
    faw 2011/05/30
    日本語 係り受け 文字単位
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

    faw
    faw 2010/11/30
    ライブラリ 日本語処理 自然言語処理 かな漢字変換 予測変換 スペル訂正 spell check 形態素解析 HTTP Tire Mozc
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    faw
    faw 2010/11/24
    ライブラリ 文字 言語 判定
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    faw
    faw 2010/10/18
    中国語 わかち書き 分かち書き
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

    faw
    faw 2010/08/22
    日本語 意味辞書
  • https://github.com/shuyo/iir/blob/master/sequence/crf.py

    https://github.com/shuyo/iir/blob/master/sequence/crf.py
    faw
    faw 2010/07/04
    CRF 機械学習 条件付き乱数場 HMM 教師あり学習
  • LinuxBuildInstructions - mozc - How to build Mozc on Linux - Project Hosting on Google Code

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    LinuxBuildInstructions - mozc - How to build Mozc on Linux - Project Hosting on Google Code
    faw
    faw 2010/05/11
    日本語入力 IME linux
  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

    faw
    faw 2010/03/13
    日本語入力 形態素解析 文法 単語 自然言語処理
  • StarDict - The best dictionary program in linux and windows

    Visit www.StarDict.org for online dictionaries now! 星际译王中文站开通!www.stardict.cn 词典解决不了? 用最好的人工翻译, 一条仅10元! 随你译翻译 Genius Religion 星际译王作者最新著作:《我的世界之源代码》

    faw
    faw 2009/10/22
  • GENE95 Dictionary

    GENE95 辞書 このページでは、Kurumi さんが作成された辞書データを、作者の許可を得て再配布しています。 gene95.lzh (LHA圧縮形式) gene95.tar.gz (tar+gzip圧縮形式) gene95.tar.bz2 (tar+bzip2圧縮形式) Kurumi さんの連絡先についての問い合わせを頻繁に受けますが、 私(土屋)も現時点での連絡先は分かりません。 私が再配布の許諾を受けた1998年当時は、Nifty のアドレスで連絡が可能でした。 以下は、KurumiさんによるGENE辞書の解説です。 ************************************************************************** ** ** ** GENE95辞書について ** ** By Kurumi (GGD00145) ** ******

    faw
    faw 2009/07/20
    英語
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    faw
    faw 2009/06/01
    昔anthy用に作ったなぁ
  • コトバンク [ 時事問題、ニュースもわかるネット百科事典 ]

    今日のキーワード メディアリテラシー インターネットやテレビ、新聞などのメディアを使いこなし、メディアの伝える情報を理解する能力。また、メディアからの情報を見きわめる能力のこと。... 今日のキーワード メディアリテラシー インターネットやテレビ、新聞などのメディアを使いこなし、メディアの伝える情報を理解する能力。また、メディアからの情報を見きわめる能力のこと。...

    コトバンク [ 時事問題、ニュースもわかるネット百科事典 ]
    faw
    faw 2009/04/22
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
    faw
    faw 2009/03/27
    日本語処理 言語 全文検索 Nグラム 確率 単語 文
  • ChaIME

    ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google語 N グラムからの推定 現在2GBの辞書サイズ

    faw
    faw 2009/03/04
    日本語入力 統計 コーパス IME
  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
    faw
    faw 2008/08/04
  • Anthy-YahooJIMService: Yahooかな漢字変換WebサービスをLinuxデスクトップで

    Anthy-YahooJIMServiceは、Yahoo!の仮名漢字変換WebサービスLinux上の仮名漢字変換のバックエンドとして使うためのラッパーライブラリです。 libanthy.so (Anthyの変換コアライブラリ)を再実装し、そっくりライブラリ を入れ替えることで YahooJIMService経由での日本語入力を実現しています。 共用のLinuxデスクトップやキオスク・多目的端末での利用を想定しています。 機能 サポートされている機能 通常の連文節変換 予測入力 (SCIMを使う場合は予測入力の設定をONにしてください) 文節を伸ばす、縮める (JIMServiceの制約から完璧ではありません) サポートされていない機能 学習機能 (候補を修正しても、次回以降反映されません) ユーザ辞書 スクリーンショット 通常の変換. 右画面はYahooJIMServiceが返す変換結果

    faw
    faw 2008/06/03
  • テキスト解析:かな漢字変換API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:かな漢字変換API - Yahoo!デベロッパーネットワーク
    faw
    faw 2008/05/28
  • かな漢字変換エンジンの基礎 - nokunoの日記

    先日研究室で勉強会(通称サーベイ輪講)があったので、その資料をアップロードしました。うちは自然言語処理をやっている人は少ないので、内容的には当に基礎の基礎です。先生からは「わかりやすい」とお褒めの言葉を頂きました。 | View | Upload your own間違い等がありましたら遠慮なくご指摘下さい。

    faw
    faw 2008/05/23