目次 概要/特徴 リリースノート インストール/使い方 jarファイル 解析用辞書作成 形態素解析 コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点 解析結果 機能 辞書ファイル 単語エントリフォーマット 制限/注意点 禁則文字 バイナリ辞書エンディアン ライセンス バグ報告など 概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版 辞書フォーマット及び解析結果は、ほぼMeCab互換。 単機能。 Javaの形態素解析器としては比較的高速。 スレッドセーフ。 リリースノート version 0.4.3: 2011年06月17日 形態素解析部の微細なパフォーマンスチューニング インストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。 ダウンロード
Introduction to Computer Science from Harvard, better known as CS50, is the largest course on the Harvard campus and more than 4,000,000 learners worldwide have registered for the course on edX. We are excited to offer a series of introductory CS50 courses and Professional Certificate programs from Harvard that are open to learners of all backgrounds looking to explore computer science, mobile app
独立行政法人情報通信研究機構(以下「NICT」、理事長:宮原 秀夫)は、iPhone用の敬語学習支援アプリケーション「敬語力」を6月12日(日)からApp Storeで無料公開しました。このアプリケーションは、基本的な敬語を手軽に楽しく学習するためのいろいろな機能を備えており、新入社員や日本語を学習中の外国人など、敬語初級者の敬語力をアップする手助けとなります。 日本社会においては、ビジネスをはじめとする様々な場面において敬語を正しく使うことが求められます。しかし、近年、敬語の乱れが問題になっています。NICTではこの問題に対し、NICTが持つ自然言語処理技術を応用して敬語学習を支援するシステムの開発を進めてきました。 今回公開したアプリケーションは、文に含まれる様々な敬語の誤りを判定することにより、敬語学習を支援します。敬語の誤りには、“社長が来る。”のような上下関係にふさわしくない敬語
What is U-Compare? U-Compare is an integrated text mining/natural language processing system based on the UIMA Framework. [ lists who we are] For any UIMA component, an integrated platform of GUI for easy drag-and-drop workflow (UIMA CPE/component descriptor) creation comparison by U-Compare parallel component evaluation, statistics and visualizations no installation required, click "Start U-Compa
"意味"を計算機で扱う一方法 —格解析入門— 林部 祐太 奈良先端科学技術大学院大学(NAIST) 自然言語処理学講座 http://hayashibe.jp/ 2010/10/23 第2回言語学×自然言語処理合同勉強会 2010/10/23 第2回言語学× 自然言語処理合同勉強会 林部 祐太 "意味"を計算機で扱う一方法 —格解析入門— 2/43 自己紹介 • 1987/12/10 大阪府堺市生まれ • 大阪府立三国丘高校・大阪大学出身 • 現在,NAISTの松本裕治研 M2 • 来春,博士後期課程に進学予定 • ことばの「意味」をどのように計算機で扱うかに興味を もっています • 趣味 – プログラミング – バイク ST250,大型二輪[最近教習に行ってます] – 音楽 ピアノ,打楽器全般,ギター[最近始めました] 2010/10/23 第2回言語学× 自然言語処理合同勉強会 林部
SVMを学びたい人にとっては「サポートベクターマシン入門」通称「赤本」は最適な入門書であるといえる。理論から実践までバランスよく解説されており、本書を読むだけでSVMの実装が可能になる。 しかし本書はSF小説を彷彿とさせる独特な翻訳の文体のため機械学習に不慣れな読者にとっては読みこなすのは苦しい戦いとなる。本来なら原書をオススメしたいところだが、そうはいっても英語はちょっとという人も多いはず。 そこで本記事では赤本のオススメな読み方を紹介してみる。 1.「わかパタ」で準備運動をしよう 泳ぎのうまい人でもいきなり水に飛び込むのは危険。まずは準備運動をして体を温める。これには「わかりやすいパターン認識」がオススメ。とりあえず2章まで、余裕があれば3章まで読んでおけば充分。 2.赤本を枕元において一晩寝よう さて準備運動が済んだら早速赤本にトライ!したいところだが赤本の放つ瘴気で心を蝕まれないよ
最近HNにGoogle検索結果の質の低下を指摘するポストが目立つ。 Tumblrの元リードデベロッパー、Instapaperのファウンダー Marco Arment http://www.marco.org/2617546197 検索をいくつかのカテゴリに分類して分析している。 ナビゲーション(Address Bar): 行き先のページがわかっているがURLを知らない(打ち込むのが面倒な)場合 "オリンパス デジタルカメラ sp-600uz" --> オリンパスの公式製品ページ リファレンス: 明確な特定の質問に対する答 "顔検出AFとは" --> 「顔検出AF」の解説ページ。 wikipediaによって答えられるような質問。 ガイド: あるトピックに関する有益なページ "デジタル一眼カメラ 広角レンズ" --> ハウツーや解説ページ 買い物リサーチ: 商品に関する一般情報、レビュー、批評
概要 日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて, 助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビュー を お送りする 496 テレクラ で いる 6 大気 が 存続する 1 化量 を 言う 1 Private と 定義する 1 けんぎゅうか が 伝来される 2 プロテスタンティズム を 生み出す 1 脳内 で アップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会 が 仕事 25 こころ という ちよ 1 場所 から 大筒 1 見直し へ 訴訟 3 ここ
第1章 パターン認識とは 1.1 パターン認識系の構成 1.2 特徴ベクトルと特徴空間 [1] 特徴ベクトル [2] 特徴ベクトルの多様性 1.3 プロトタイプと最近傍決定則 [1] プロトタイプ [2] 特徴空間の分割
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
機械学習による自然⾔語処理 チュートリアル 〜PerceptronからCRFまで〜 岡野原 大輔 東京大学 Preferred Infrastructure 2008 8/3@PFI本郷オフィス 目次 • 自然⾔語処理 紹介 • 機械学習導⼊ • パーセプトロン • バッチ学習 (最大エントロピー法) • 過学習/正則化 • 多クラス分類 • 系列分類 (CRF, Structured Perceptron) このへんで 眠くなる 自然⾔語処理 (1/2) • ⾔語情報をコンピュータで処理する – コンピュータ⾔語の研究との対⽐で自然⾔語 – 世界最初のコンピュータの出現の頃から自動翻訳は 試みられている。コンピューターサイエンスの中で も歴史の⻑い分野 – 近年ビジネス的にも成功, Googleなどなど • 非常に幅広い分野と接触する、境界領域 – 処理する⼿法 = ⾔語学, 数学,
最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの
Accurately conveying Japan, present and future, to the world. Mission Providing trustworthy information that deepens understanding of, and generates interest in, Japan. 世界中で、日本に興味を持つ人を増やし、日本についての理解を深めるために、私たちは、信頼できる情報を提供します。 Vision Contributing to a better world through the promotion of mutual understanding between Japan and various international communities. 日本と世界の相互理解を推進することで、よりよい世界の実現に貢献します。
はじめまして。そろそろ何かしら情報を発信していく必要性を感じたため、主に研究関連で、まとまったことがあれば記事にしていくことにしました。どれだけ更新出来るかは謎ですが。今回は、ノンパラベイズの基本をディリクレ過程を中心にまとめます。 機械学習におけるノンパラベイズは、出て来てから10年以上経っていることもあり、大分一般的な話題になってる気がしますが、例えばブログできちんと分かりやすく説明したものってほとんどないように思います。僕がそもそも研究系のブログをあまりチェックしないというのもあるかもしれないですが、、、。個人的には去年の夏頃からの卒論で、Tehや持橋さんなどの論文を泣きながら読みつつ理解出来なかったので、その時の気持ちを思い出しながら書いてみたいと思います。例えばディリクレ過程(以下DP)を理解しようとして論文など読むと、DPはCRPと等価であるとか、SBPと等価であるとか書いてあ
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く