タグ

KKCに関するgologo13のブックマーク (51)

  • N-gram かな漢字・漢字かな変換(C++版) - アスペ日記

    作った。 リポジトリはこちら。 https://github.com/hiroshi-manabe/ngram-converter-cpp 以前、N-gram 漢字-かな変換という記事で、N-gram を使ったかな漢字・漢字かな変換を公開した。 内部で使用しているアルゴリズムについては、可変次数 N-gram デコードのアルゴリズムの記事や、N-gram かな漢字変換 (スライド)で紹介した通り。 精度は、http://d.hatena.ne.jp/nokuno/20111103/1320317225で検証していただいた通り、それなりに出ていたと思うが、いかんせん速度が遅いのが問題だった。ちょっと長い文章を変換すると数秒間も時間がかかってしまう。これでは実用にならない。 それで、仕事を辞めて時間があるので、それを C++ で書き直してみた。N-gram の保存には、Faster and S

    N-gram かな漢字・漢字かな変換(C++版) - アスペ日記
  • 福島ラビット - Google

    Join the official community for Google Workspace administrators In the Google Cloud Community, connect with Googlers and other Google Workspace admins like yourself. Participate in product discussions, check out the Community Articles, and learn tips and tricks that will make your work and life easier. Be the first to know what's happening with Google Workspace. ______________ Learn about more Goo

    福島ラビット - Google
    gologo13
    gologo13 2012/02/29
  • 参考文献・図表 | ジャストシステムの日本語テクノロジー | ATOK.com

    謝辞: 浮川和宣氏、浮川初子氏を初めとする、ジャストシステムでATOK開発に係わってこられた方々、紀田順一郎氏を初めとする歴代ATOK監修委員会委員諸氏、米国サンマイクロシステムズの樋浦秀樹氏、マイクロソフトプロダクトディベロプメントリミテッドの阿南康宏氏からは、仮名漢字変換技術に係わる当事者にしか知り得ない情報を多く提供していただいた。浦城恒雄氏を初めとする「情報処理」編集関係者、bit編集部、月刊アスキー編集部には、過去に掲載された仮名漢字変換機能に係わる論文に目を通す便を図っていただいた。 参考文献: 高田宏:言葉の海へ,新潮社,東京(1978) 篠原一:電脳日語論,月刊アスキー,Vol.24, No.7 (2000) 牧野寛:「カナ漢字変換,ワープロと日語処理」,bit別冊,共立出版(1985) 箭内敏夫:電脳辞書の国語学,おうふう(1994) 紀田順一郎:「コンピュータと漢字

    gologo13
    gologo13 2012/02/07
  • 可変次数 N-gram デコードのアルゴリズム - アスペ日記

    前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。 こういう時に使われるのが「ラティス構造」。こういうやつ↓ (この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの) それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。 これをプログラム上でどう実現するか。 まず、共通接頭辞検索というものを使う。 これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。 例えば、「くるまで」をキーとして使うと、「く

    可変次数 N-gram デコードのアルゴリズム - アスペ日記
    gologo13
    gologo13 2011/08/11
  • N-gram 漢字<=>かな変換 - アスペ日記

    @gologo13さんの言語モデル配布ページのデータを利用して簡単な漢字->かな/かな->漢字変換ができないかなーと思って作ってみた。 言語モデルの作成には SRILMを使用。 配布中のデータを SRILM で扱うには多少加工しないといけないので、その変換スクリプトも作った。 GitHub リポジトリは https://github.com/hiroshi-manabe/ngram-converter 。 [追記]最新のバージョンでは、4-gram のかな漢字変換用辞書をあらかじめリポジトリに入れてある。 marisa-trie モジュールさえ入れてあれば、 ./converter_sample.py --dicname-prefix=dics/bccwj4_rev_dic --order=4 --interactiveですぐにかな漢字変換が実行できる。 まず、@gologo13さんの言語

    N-gram 漢字<=>かな変換 - アスペ日記
    gologo13
    gologo13 2011/07/20
    相互変換
  • hiroshi-manabe - Overview

    Report abuse Contact GitHub support about this user’s behavior. Learn more about reporting abuse. Report abuse

    hiroshi-manabe - Overview
    gologo13
    gologo13 2011/07/20
  • サークルの講座用(2011/5/9)

    kakan.cpp 'd}$V �$d}$V /* サークルの講座用に書いた何か. `もう/もう 何/なに も/も 怖/コワ く/く な/な い/い 。/。` という形式のコーパスを読み込んで仮名漢字変換っぽい何かをします. 未知語とか何も考えてない上にスムージングのパラメータも適当でこれはひどい. 「EUCだから1文字2バイトだろ」とか決め打ちでこれはひどい. 全体的に富豪気味でこれはひどい. using namepsace std; もぐもぐ! gcc 4.4で動作確認. % echo "もうなにもこわくない" | nkf -e | ./a.out corpus/all | nkf -w => もう何も怖くない */ #include <iostream> #include <vector> #include <string> #include <fstream> #include <

    サークルの講座用(2011/5/9)
  • 情報学広場:情報処理学会電子図書館

    ※ユーザ登録は無料です. 電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 情報学広場に掲載されているコンテンツには有料のものも含まれています。 有料コンテンツをご購入いただいた場合はクレジットカード決済のみとなります。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。

    gologo13
    gologo13 2011/05/24
    なんか似てるような似てないような。。
  • 同音異義語の一覧ってありますか? - 同音異義語の一覧ってどこかにあるでしょうか??変換でいろいろ探せばいいのかもしれませんが、そんな... - Yahoo!知恵袋

    同音異義語の一覧ってありますか? 同音異義語の一覧ってどこかにあるでしょうか?? 変換でいろいろ探せばいいのかもしれませんが、そんなサイトあったら 楽だなぁと思って。 どなたかあったら教えてくださいませ。

    同音異義語の一覧ってありますか? - 同音異義語の一覧ってどこかにあるでしょうか??変換でいろいろ探せばいいのかもしれませんが、そんな... - Yahoo!知恵袋
    gologo13
    gologo13 2011/05/19
  • HMMを用いて分野適応する仮名漢字変換 | CiNii Research

    JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業

    gologo13
    gologo13 2011/05/13
  • NLP2011に参加してきました - 射撃しつつ前転 改

    もう一ヶ月以上も前の話になりますが、2011年の言語処理学会年次大会で、かな漢字変換について発表をしてきました。 日本語入力についてのテーマセッションが用意されているということで、発表申し込みをしようかどうか迷った挙句、仕事が忙しいからあきらめたのですが、〆切前日にG社の方から「明日が〆切なのでよろしく」的なメールが来て、そんなに申し込みが少ないなら出すか…ということで発表してきました。蓋を開けてみたら2セッション分の発表があって割と大人気だった訳ですが、こんな機会がないとなかなか会わないような人にたくさん会えたので、結果的には行ってきて良かったです。 発表に関しては会社ブログの方に既に資料を上げたので、こちらでは実装の細かいところの話をちょっと書いてみたいと思います。 資料にも書きましたが、構造化SVMをFOBOSで最適化する場合、 正解パスへはペナルティを与えつつ現在のパラメーターで変

    NLP2011に参加してきました - 射撃しつつ前転 改
    gologo13
    gologo13 2011/04/21
    ようわからんけどすごい。
  • かな漢字変換における共起情報の利用 - nokunoの日記

    統計的かな漢字変換において、系列ラベリングの枠組みを利用したクラスバイグラムやCRFでは、系列のマルコフ性を仮定して計算量を下げている。しかし文中の2つ以上離れた単語の間には関連性があると考えられるので、共起情報を利用して変換精度を上げるという工夫が行われている。ここでは、かな漢字変換における共起情報の利用について考える。 非局所素性を用いたかな漢字変換NLP2011でジャストシステムの高岡さんらの発表を聞いた。NLP2011 programCRFで文中の共起を素性として取り込むために、ラティス中のパスを展開したりして実装するというもの。実際には展開する長さを制限しないと計算量が爆発してしまうとのことで、完全な大域的素性を取り入れるのは難しいようだ。CRFではなくStructured PerceptronやStructured SVMを使えば、ViterbiだけでForward-Backw

    gologo13
    gologo13 2011/04/01
    共起情報
  • 2011-03-27 - nokunoの日記

    統計的かな漢字変換において、系列ラベリングの枠組みを利用したクラスバイグラムやCRFでは、系列のマルコフ性を仮定して計算量を下げている。しかし文中の2つ以上離れた単語の間には関連性があると考えられるので、共起情報を利用して変換精度を上げるという工夫が行われている。ここでは、かな漢字変換における共起情報の利用について考える。 非局所素性を用いたかな漢字変換NLP2011でジャストシステムの高岡さんらの発表を聞いた。NLP2011 programCRFで文中の共起を素性として取り込むために、ラティス中のパスを展開したりして実装するというもの。実際には展開する長さを制限しないと計算量が爆発してしまうとのことで、完全な大域的素性を取り入れるのは難しいようだ。CRFではなくStructured PerceptronやStructured SVMを使えば、ViterbiだけでForward-Backw

    gologo13
    gologo13 2011/03/27
    共起情報
  • GitHub - paijp/archive.pda.pa-i.org

    「現行のPDAを残せる」というのは、M32Rのボードの在庫がないため、現行のPDAからCPUボードをはずして流用する、という点です。 質的な問題は、64KBのメモリで満足できるアプリケーションが動かせるかどうかという点になります。外づけのRAMが載ったARMボードもないわけではないのですが、それなりに手間がかかるという点で、悩んでいます。 SWEST出展 (2010/09/13) SWESTという組み込みシステムのワークショップで、自作PDAのデモ出展をおこないました。 今回はワークショップがメインだったので、デモの方には力を割けなかったのですか、いろいろな方とお話させていただきました。 筆者のswestのページ: http://swest.pa-i.org/ SWEST公式ページ: http://www.ertl.jp/SWEST/ 履歴の管理 (2010/09/02) 自作PDAでは

    gologo13
    gologo13 2011/02/13
    めっちゃやってる子と同じ..
  • IEEJEISS : Vol. 130 (2010) , No. 6 pp.1054-1060

    Abstract:  The processing of kana-to-kanji conversion can be classified into two categories of processing: The first is the processing to detect the boundaries of words in non-segmented kana strings, and the second is the processing to select the candidate of kanji-kana words. Also, the methods of kana-to-kanji conversion can be mainly classified into two types from the point of view of the two pr

    gologo13
    gologo13 2011/02/06
  • きまぐれ日記: IMEにおける「文節」とは何ぞや

    とあるIME開発者と仮名漢字変換(IME)における「文節」についてディスカッションする 機会がありました。今まであまり真剣に考えたことなかったのですが、 この「IME文節」、いろんな意味で興味深いということを改めて認識しました。 学校文法や自然言語処理におけるいわゆる「文節」とは 統語的な性質からほぼ一意に決定できる単位です。 簡単には 自立語連続+付属語 と言えるでしょう。 たとえば、 「東京特許許可局で工藤は講演をした。」 は 東京特許許可局で|工藤は|講演した。 の3文節になります。小学校のときに「~ね」を挿入できる単位として 習ったかと思います。 しかし、IMEで上記の文を変換してみると。 東京|特許|許可局で|工藤は|講演した|。 と分割されます。(WinXP) あきらかにNLP業界の文節と単位が異なるようです。 このIMEが使っている分割の単位を「IME文節」と呼ぶことにしまし

    gologo13
    gologo13 2011/01/25
    最適な文節単位とは.
  • はてなブログ | 無料ブログを作成しよう

    週報 2024/04/28 川はただ流れている 4/20(土) 初期値依存性 さいきん土曜日は寝てばかり。平日で何か消耗しているらしい。やったことと言えば庭いじりと読書くらい。 ベランダの大改造をした。 サンドイッチ 一年前に引っ越してからこんな配置だったのだけど、さいきん鉢を増やしたら洗濯担当大臣の氏…

    はてなブログ | 無料ブログを作成しよう
  • ddskk で交ぜ書き変換をしたい - とりあえず暇だったし何となくはじめたブログ

    Emacs Advent Calendar の20日目です。 Emacs Advent Calendar 自体は、下記 URL を参考として下さい。 http://atnd.org/events/10054 前日は、id:buzztaiki さんでした。 http://d.hatena.ne.jp/buzztaiki/20101219/1292729262 さて、日は、ddskk で交ぜ書き変換を使う elisp を書いたので、それを紹介したいと思います。 交ぜ書き変換とは、いわゆる漢直と呼ばれる日本語入力法で使われる変換方式の1つです。 私は、漢直にそこまで詳しいわけではないので、交ぜ書き変換の解説等間違いがありましたら教えて頂けると幸いです。 概要 SKK とは ddskk とは SKK という日本語入力方式の Emacs における実装です。 以下の URL で開発がなされています。

    ddskk で交ぜ書き変換をしたい - とりあえず暇だったし何となくはじめたブログ
    gologo13
    gologo13 2011/01/04
    通常の仮名漢字変換では、変換元となる文字列は、「ひらがな」や「数字」のみです。 それに対して、交ぜ書き変換は、変換元となる文字列に「漢字」が含まれる事を許容します。[.emacs]
  • YC's Room

    YC の設定 yc-canna-lib-path かんなの初期設定パス(default.cannaが格納されている)を設定する。 環境変数 CANNALIBDIR 参照 (setq yc-canna-lib-path "/usr/local/canna/lib/") yc-canna-dic-path かんなの辞書パス(canna.cbpやcanna.tが格納されている)を設定する (setq yc-canna-dic-path "/usr/local/canna/lib/dic") yc-select-count 一覧モードになる繰り返し数-1を指定する。デフォルトは3回。 (setq yc-select-count 2) yc-rK-trans-key 変換キーを指定する。デフォルトは \C-j (setq yc-rK-trans-key "\C-j") yc-stop-chars 変

  • ChaIME: Stochastic Input Method Editor

    AjaxIME is yet-another browser-based Japanese input method. Proposed method achieves much better accuracy because it uses more data (~x100 in size) to build Kana-Kanji conversion model. It is not fair to compare it with ATOK 2007 with these examples since they are taken from error analysis of ATOK 2007. (ATOK 2007 usually gives moderate results) Since the language model is constructed from Web cor