[B! 形態素解析] j7400157のブックマーク

Java製形態素解析器「Kuromoji」を試してみる

概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

j7400157 2012/02/29

リンク

形態素解析の辞書追加

形態素解析器としてMeCab（ラティス上の系列予測）とKyTea（点予測）を利用する（モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる）。この二つの形態素解析器で以下のような分野適応戦略を比較する：適応無し：一般分野のテキストと辞書を利用する。辞書追加（再学習なし）：Webコーパスにある単語を辞書追加し、MeCabの単語追加ページの指示に従ってそのコストを似たような単語（頻度の低い名詞）と一緒にする。（MeCabのみ）辞書追加（再学習あり）：辞書に単語を追加し、もう１回一般分野コーパスでモデルの重みを学習。コーパス追加：一般分野＋Webコーパスで辞書を作り、モデル学習を行う。実験結果実験は以下のような結果になった。

j7400157 2011/12/05

形態素解析

リンク

言語処理学会第17回年次大会で発表しました #nlp2011

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 地震の余波が収まらぬところ失礼します。要素技術開発部の奥野と申します。 2011年3月7日(月)～3月11日(金)に愛知県の豊橋技科大で行われた言語処理学会で、ヤフーから3件の発表を行いました。言語処理学会第17回年次大会(NLP2011) この記事では、その際の発表スライドと論文について紹介します。言語処理学会とは？言語処理学会とは自然言語処理に関する国内最大の学会で、年4回の学会誌の発行と年1回の年次大会の開催を主な活動としています。毎年3月に行われている年次大会では、この分野の研究者・技術者が一同に会し、活発な議論が行われています。事前登録の情報によると、本会議には約500名の方が参加されたそうです。年次大会は毎年関東

j7400157 2011/04/06

リンク

Igo - a morphological analyzer

目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード

j7400157 2011/02/05

リンク

RSS を読み込んでランダムな文章を生成する

RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。以下、サンプルプログラムと実行例です。サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

j7400157 2008/09/09

参考リンクが参考になる

形態素解析

リンク

ナイーブベイズによるテキスト分類体験アプリ - シリコンの谷のゾンビ

もともとは研究室の新入生にNaive Bayesのイメージをつけるためにつくったもの．Naive Bayesを世の中に広めるために，きちんと公開することにしました． Text classification by Naive Bayes (2008-09-11追記）好評だったので日本語を扱えるようにしました．詳しくはこちらの日記をご覧ください． Text classification by Naive Bayes ver.2 日本語はじめました Naive Bayesナニソレ？という方はとりあえずググりましょう．理屈はわかったけれど，うまくイメージがつかないなぁ．．という状態になったら本プログラムを触ってみてください．すっきりします．たぶん．使い方の説明単語区切りが面倒なので日本語は使えません．あしからず．本文を入れるっぽいところにテキストを入力します．クラスを選択して学習ボタンを押

j7400157 2008/09/09

リンク

連載：検索エンジンを作る｜gihyo.jp … 技術評論社

j7400157 2008/05/04

面白そう

リンク

zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW

j7400157 2008/02/06

形態素解析

リンク

http://www.ryo.com/ryo/2005/06/01/39/

j7400157 2008/02/05

文章要約

形態素解析

リンク

形態素解析器Senのセットアップ - techlog

さてはて、Javaで楽しく形態素解析の時間がやってきました。 Sen は、Java で実装された形態素解析器で、工藤拓さんによりオープンソース(LGPL)で開発されている形態素解析器MecabをJavaへポーティングしたライブラリです。 Sen - FrontPage ではでは、インストールして使ってみる。 Wikiにインストールガイドがあるけど、Eclipseでやったほうが楽だと思うので、Eclipse版のセットアップ方法を書いてみる。前提条件 JDKがインストールされていること ActivePerlがインストールされていること EclipseがインストールされていることダウンロードまずはここからSenをダウンロードしてくる。今回はsen-1.2.2.1.zipを使う。インポート sen-1.2.2.1.zipを解凍して、Eclipseのworkspaceに置く。ディレクトリ名

j7400157 2007/12/11

形態素解析器Senのセットアップ

リンク

学習ブロック入門編

next:計画ブロック入門編 >> Next Session:人工無脳の条件人工無脳はチャットの内容を記憶し、それを再構成することで会話を行なうふりをする。近年では自分が属しているチャットだけでなく、ニュースサイトのテキストなども収集して学習する人工無脳も多い11こうさぎ、酢鶏など。チャットやRSSから得られた文字列を必要な形式で記憶することが学習ブロックの目的である。人工無脳の学習アルゴリズムは文の再構成アルゴリズムと一体になっている場合が多いのだが、あえて切り離して議論することで組み合わせの自由などを考えることができるようになる。そこで、ここでは学習、すなわち入力文字列を記憶に変換するアルゴリズムについてのみ考えよう。マルコフ連鎖以前から注目されているアルゴリズムに、C. Shannonによって1948年に発案されたマルコフ連鎖によるテキスト生成(Markov text gene

j7400157 2007/11/27

マルコフ連鎖

リンク

「圧縮新聞」を作った - phaの日記

僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と

j7400157 2007/11/26

リンク

ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan

ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき

j7400157 2007/06/18

リンク

形態素解析エンジンSenを使う - 不可視点

ゼミ用資料　関係のない方はスルーしてくださいグーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。形態素解析とは？対象言語の文法の知識（文法のルールの集まり）や辞書（品詞等の情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの品詞を判別する作業を指す。自然言語で書かれた文を、形態素（言語で意味を持つ最小単位）に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。工藤拓[MeCab 汎用日本語形態素解析エンジン]http://www.jtpa.org/files/M

j7400157 2007/05/12

リンク

あぁそうだった: Eclipseアーカイブ

WSDLのバリデータなどが検証の過程でインターネットにアクセスするのでプロクシ設定が必要な環境においては、ウィンドウ→設定→インターネット→プロクシ設定で設定しておかなければならない。これを忘れると赤い×がつく。つい、必要なjarが参照できていないのでは？という方向に向かいがち。クライアントを作る分には手間も少なく、インタフェース仕様がサーバサイドで実際に使われているコードと対応するので齟齬が減らせるのではないかと思った。 java/Eclipse/Tomcat/axisの組み合わせに関して言えば、本来やりたかったこと以外の部分で悩むことが多いんじゃないだろうか。java 文化の特徴かも。 ASP.NETの場合、メソッドの属性にメタデータが書けるせいか手間が少ない。今後アノテーションに対応してくればツールを使う部分でハマるケースを回避できるかもしれない。 DLL HellよりもJAR H

j7400157 2007/02/28

リンク

今日の渋沢: アマルティア・セン

こんな人です。で、Senの話。 ChasenTNG(現Mecab)を基にJavaで書かれたのがSen。 Javaで現在のソフトを作っている以上、Cで書かれたChasenを外部呼出ししてたんでは効率も悪いしちょっと怖い。ということでSenを使おうと思っている。 MecabもC++で書かれているもののSWINGによるバインディングがなされ、Javaからも利用可能とあるが、いまいちJNIを理解してないというか「JNIを理解してない」なんて迂闊にいえるかどうかも危ういので回避。で、Sen。辞書のインストールに少し難儀。Ant1.5以降とPerl5.6以降が別途必要とは面倒。 Windows2000にて。Antは展開して、ANT_HOMEを環境変数で設定するだけで使えるようになる。ActivePerlは先代のPC利用者によってインストールされてた。辞書作成時はHPにも書いているがWindows

j7400157 2007/02/28

「SEN]

リンク

Sen - FrontPage

Generated by Hiki 0.8.6 (2006-07-03). Powered by Ruby 1.8.5 (2006-08-25). Founded by ghfghgh564.

j7400157 2007/02/27

リンク

形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

j7400157 2007/02/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

形態素解析に関するj7400157のブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス