[B! 辞書] fawのブックマーク

kuromoji - japanese morphological analyzer

About Kuromoji Kuromoji is an open source Japanese morphological analyzer written in Java. Kuromoji has been donated to the Apache Software Foundation and provides the Japanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, but it can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so

faw 2011/06/06

形態素解析

Java
辞書

リンク

単語と文字の話 - Preferred Networks Research & Development

4月からPFIで働いてます。海野です。今日は単語の話をします。読み物的な話なので軽く読んでください。テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

faw 2011/05/30

日本語　係り受け　文字単位

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

faw 2010/12/05

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

faw 2010/11/30

ライブラリ日本語処理　自然言語処理　かな漢字変換　予測変換　スペル訂正 spell check 形態素解析 HTTP Tire Mozc

辞書
API

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

faw 2010/11/24

ライブラリ文字　言語　判定

Java
辞書

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

faw 2010/10/18

中国語わかち書き分かち書き

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

faw 2010/08/22

日本語意味辞書

辞書

リンク

https://github.com/shuyo/iir/blob/master/sequence/crf.py

faw 2010/07/04

CRF 機械学習条件付き乱数場 HMM 教師あり学習

リンク

LinuxBuildInstructions - mozc - How to build Mozc on Linux - Project Hosting on Google Code

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

faw 2010/05/11

日本語入力 IME linux

辞書

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

faw 2010/03/13

日本語入力　形態素解析　文法　単語　自然言語処理

辞書

リンク

StarDict - The best dictionary program in linux and windows

Visit www.StarDict.org for online dictionaries now! 星际译王中文站开通！www.stardict.cn 词典解决不了? 用最好的人工翻译, 一条仅10元! 随你译翻译 Genius Religion 星际译王作者最新著作：《我的世界之源代码》

faw 2009/10/22

辞書

リンク

GENE95 Dictionary

GENE95 辞書このページでは、Kurumi さんが作成された辞書データを、作者の許可を得て再配布しています。 gene95.lzh (LHA圧縮形式) gene95.tar.gz (tar+gzip圧縮形式) gene95.tar.bz2 (tar+bzip2圧縮形式) Kurumi さんの連絡先についての問い合わせを頻繁に受けますが、私(土屋)も現時点での連絡先は分かりません。私が再配布の許諾を受けた1998年当時は、Nifty のアドレスで連絡が可能でした。以下は、KurumiさんによるGENE辞書の解説です。 ************************************************************************** ** ** ** GENE95辞書について ** ** By Kurumi (GGD00145) ** ******

faw 2009/07/20

英語

辞書

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

faw 2009/06/01

昔anthy用に作ったなぁ

辞書

リンク

コトバンク [ 時事問題、ニュースもわかるネット百科事典 ]

今日のキーワードメディアリテラシーインターネットやテレビ、新聞などのメディアを使いこなし、メディアの伝える情報を理解する能力。また、メディアからの情報を見きわめる能力のこと。... 今日のキーワードメディアリテラシーインターネットやテレビ、新聞などのメディアを使いこなし、メディアの伝える情報を理解する能力。また、メディアからの情報を見きわめる能力のこと。...

faw 2009/04/22

辞書

リンク

教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

faw 2009/03/27

日本語処理言語全文検索 Nグラム確率単語文

リンク

ChaIME

ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデルを学習するとうまく行くかもしれません。統計的仮名漢字変換統計的仮名漢字変換についてページを分けました。既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定現在2GBの辞書サイズ

faw 2009/03/04

日本語入力統計コーパス IME

辞書

リンク

DO++: 機械学習による自然言語処理チュートリアル

自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

faw 2008/08/04

AI
辞書

リンク

Anthy-YahooJIMService: Yahooかな漢字変換WebサービスをLinuxデスクトップで

Anthy-YahooJIMServiceは、Yahoo!の仮名漢字変換WebサービスをLinux上の仮名漢字変換のバックエンドとして使うためのラッパーライブラリです。 libanthy.so (Anthyの変換コアライブラリ)を再実装し、そっくりライブラリを入れ替えることで YahooJIMService経由での日本語入力を実現しています。共用のLinux デスクトップやキオスク・多目的端末での利用を想定しています。機能サポートされている機能通常の連文節変換予測入力 (SCIMを使う場合は予測入力の設定をONにしてください) 文節を伸ばす、縮める (JIMServiceの制約から完璧ではありません) サポートされていない機能学習機能 (候補を修正しても、次回以降反映されません) ユーザ辞書スクリーンショット通常の変換. 右画面はYahooJIMServiceが返す変換結果

faw 2008/06/03

辞書

リンク

テキスト解析:かな漢字変換API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

faw 2008/05/28

辞書

リンク

かな漢字変換エンジンの基礎 - nokunoの日記

先日研究室で勉強会（通称サーベイ輪講）があったので、その資料をアップロードしました。うちは自然言語処理をやっている人は少ないので、内容的には本当に基礎の基礎です。先生からは「わかりやすい」とお褒めの言葉を頂きました。 | View | Upload your own間違い等がありましたら遠慮なくご指摘下さい。

faw 2008/05/23

辞書

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

辞書に関するfawのブックマーク (51)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス