IMに関するmurawakiのブックマーク (56)

  • バイドゥ、IMEに関する技術的な情報について 小町守准教授と連携し情報発信を開始

    バイドゥ株式会社(社:東京都港区、代表取締役 駐日首席代表 Charles Zhang、以下バイドゥ) は、ユーザーにより安心してバイドゥのサービスをご利用いただけるよう、自然言語処理研究者である首都大学東京 小町守准教授と連携し、来春を目処にバイドゥの技術的な情報発信をしていきます。 バイドゥは、現在提供しているIME(Imput Method Editor)製品に関する基的な仕組みと、その背後に貢献している自然言語処理の概要について、分かり易い事例とともに、小町准教授と当社技術陣、プロダクト担当とで情報発信していく予定です。小町守准教授には、当社が研究開発・当社IME製品に実装している自然言語処理のコアな部分やIMEにおける変換エンジンといった部分について、専門家のナレッジをもとに分かり易く紐解いていただきます。 取り組みを通じて、バイドゥがユーザー向けに発信する“バイドゥを支え

    バイドゥ、IMEに関する技術的な情報について 小町守准教授と連携し情報発信を開始
    murawaki
    murawaki 2014/12/22
  • また百度(baidu)が日本語入力ソフトの件でやってくれたようです(山本一郎) - 個人 - Yahoo!ニュース

    murawaki
    murawaki 2013/12/26
  • 中国製の日本語入力ソフト 入力情報を無断送信 NHKニュース

    中国最大手の検索サイト「百度(バイドゥ)」が提供する日語の入力ソフトが、パソコンに打ち込まれたほぼすべての情報を、利用者に無断で外部に送信していたことが分かりました。 セキュリティー会社は、機密情報が漏えいするおそれもあるとして、利用には注意が必要だと指摘しています。 アメリカグーグルに次いで世界2位の検索サイト、中国の「百度」は、4年前から「Baidu IME(バイドゥ・アイエムイー)」という日語の入力ソフトを無償で提供していて、おととしまでに180万回ダウンロードされるなど、利用が広がっています。 このソフトは、初期設定ではパソコンの情報を外部に送信しないと表示していますが、セキュリティー会社のネットエージェントなどが分析したところ、実際には国内にある百度のサーバーに情報を送信していることが分かりました。送っている内容は、利用者がパソコンで打ち込んだほぼすべての情報と、パソコン固

    中国製の日本語入力ソフト 入力情報を無断送信 NHKニュース
    murawaki
    murawaki 2013/12/26
  • 日本語入力こそ我がライフワーク

    人がコンピュータを利用する上で欠かせない日本語入力機能。グーグルが2009年12月に提供を開始した「Google日本語入力」は、後発ながら変換効率の高さで評判を集めた。開発を主導した小松弘幸氏は「日本語入力はライフワーク」と語り、ユーザーインタフェース(UI)の進化につなげると意気込む。 「Google日本語入力」を開発したきっかけは何ですか。 学生時代に日語予測入力システムを開発し、オープンソースソフトとして公開していました。グーグル入社後は開発から離れたものの、業の傍らで新たな日本語入力システムの構想を温めていました。 直接のきっかけは、同僚である工藤拓からの提案です。彼は検索エンジンで入力語句を予測したりスペルミスを修正したりする「もしかして」機能の担当でした。この機能を日本語入力に応用したいというアイデアに可能性を感じました。 グーグルには、勤務時間の2割を業以外に使える

    日本語入力こそ我がライフワーク
    murawaki
    murawaki 2012/08/22
  • 思いどおりの日本語入力をモバイルでも。Android 版 Google 日本語入力をリリース。

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    思いどおりの日本語入力をモバイルでも。Android 版 Google 日本語入力をリリース。
    murawaki
    murawaki 2011/12/15
  • バイドゥ株式会社アンドロイド携帯用日本語入力システム『simeji(シメジ)』の事業を取得 | Baidu Japan Blog

    みなさん。こんにちは。 バイドゥからマスコミの皆様に報道発表した内容をお知らせします。 日バイドゥでは、アンドロイド携帯の世界ではとても有名な、『Simeji(シメジ)』という日本語入力システムの権利を取得しました。 また、この『Simeji(シメジ)』を開発した開発者の足立昌彦さん、デザイナーの矢野りんさんもバイドゥに入社します。 また、今後『Simeji(シメジ)』とBaidu IMEの、企画、開発、マーケティングなどを統一し、一層ユーザーのみなさんの利便性の高いサービスを提供します。 すでに、いろいろなニュースサイトなどでも取り上げていただいていると思いますが、念のため、みなさんにはご報告します。 『Simeji(シメジ)』は、アンドロイドマーケットの日語IMEのなかではダウンロード数がもっとも多いアプリケーションです。Baidu IMEも着せ替えスキンなど、IMEを自由にカスタ

    murawaki
    murawaki 2011/12/13
  • [050845]「こんにちは」と入力すると「こんにちは、死ね!」と表示される

    「ニコニコ大百科かんたん入力」をセットアップしていると、「こんにちは」と入力した際に、「こんにちは、死ね!」と表示されます。「ニコニコ大百科かんたん入力」を使用しない設定にすると、このような候補は表示されなくなります。 ※「ニコニコ大百科かんたん入力」は、ATOK 2011のバリューアップサービス[ベータ]で提供している、ニコニコ大百科の見出し語を登録した変換辞書および省入力データです。ニコニコ動画上でしか使用されない特有の表現が多数含まれます。 ■操作 言語バーの [メニュー]*1をクリックし、基のメニューから[プロパティ(環境設定)]を選択します。 *1ATOKパレットをお使いの場合は、ATOKパレットの [メニュー]をクリックします。 [入力・変換]シートを選択します。 [設定項目]の[推測変換-省入力データ]を選択します。 [省入力データの内容]で[ニコニコ大百科省入力データ]の

  • 良い IME に必要なもの 3つ - アスペ日記

    語のかな漢字変換に必要なもののうち、主要なものを 3つ挙げてみる(細かく言えば、必要なものはもっとずっといっぱいある)。 1. N-gram 言語モデル 直接つながる前後の文脈によって曖昧性を解消する。これが基。「おもってはいる」が「思って-入る」ではなく「思って-は-いる」のほうがもっともらしい、といった基的なところには N-gram 的なものが向いている。表記だけの N-gram でもかなりのところまで行けるというのは N-gram 漢字-かな変換 - アスペ日記と デモで示したとおり。 2. 共起情報 共起というのは、どの単語とどの単語が一緒に出現しやすいかということ。N-gram でカバーしきれない曖昧性解消に使う。例えば、「ねこをかいたい」が「を飼いたい」であるという程度は単純な N-gram 変換で解決できる。ある程度の規模のコーパスなら「-を-飼(う)」という 3

    良い IME に必要なもの 3つ - アスペ日記
    murawaki
    murawaki 2011/08/13
  • 「会ぎ」を「会議」に変換可能、iPad向け手書きノートアプリ

    MetaMoJiは2011年2月3日、iPad向けのノートアプリ「7notes」を発売した。手書き文字をそのまま入力できるほか、フォント文字に変換することも可能。「会ぎ」のように画数が多い漢字だけをひらがなで書いても、正しい漢字に変換できる。作成したデータはクラウド上で保管・管理する。価格は1500円で、2月末まではキャンペーン価格として900円で販売する。 7notesに特徴的なのが、「交ぜ書き変換入力」機能。「えい業会ぎ」のように漢字とひらがなを混在させて書いても、正しく「営業会議」と変換される。「手書きと言うと、難しい字をいちいち書かないとコンピューターに伝わらないだろうと思われるかもしれないが、7notesでは面倒な部分はコンピューターが手助けする。漢字が書けない現代社会に提案する手書きだ」(浮川和宣社長)。 手書きの味を残したい場合は、手書き文字をそのままノート上に入力することも

    「会ぎ」を「会議」に変換可能、iPad向け手書きノートアプリ
    murawaki
    murawaki 2011/02/04
    MetaMoJi だったのか
  • Sekka -- * Sekka(石火): SKK like Japanese input method

    Sekka(石火): SKK like Japanese input method Sekka(石火)はkiyokaが開発中のSKKライクな日本語入力メソッドです。現在はEmacs専用です。 特徴 モードレス Sekkaには日本語入力モードという概念がありません。Emacsのカーソル位置のローマ字を(Ctrl+J)キーで直接、漢字変換できます。 SKKライク 入力するローマ字表記ルールはSKKに近いルールを採用していますので、SKKユーザーは簡単にSekkaで文章を入力することができるでしょう。 ミスタイプ許容 ローマ字表記の揺れ(siとshi、nとnnなどの混在)や少々のローマ字のミスタイプは曖昧辞書検索によって救済されます。 Kanji => "漢字" Kannj => "漢字" Funiki => "雰囲気" fuinki => "雰囲気" Shizegegosor => "自然言語

    murawaki
    murawaki 2010/12/27
  • GeoIME 〜位置連携日本語入力システム〜

    GeoIME(ジオアイエムイー)って? GeoIMEは,利用者の位置に応じて,読みに対して提示される変換候補が変化する,"少しだけ気が利く"日語変換システムを目指しています.例えば, 位置に応じて変換候補が絶妙にソートされている! 「し」で始まる「渋谷」「新宿」「新橋」などの順序が今いる位置によって変わる 近くの地名がサクッと出る! 福岡にいると「は」→「博多」,「て」→「天神」. 難しい地名もOK.「す」→「周船寺」,「と」→「等々力」 同じ場所では同じような単語が出る! 自身の過去の履歴と,周辺にいる他人の履歴を参照 いつもの場所では「だ」→「大名」.家では,「だ」→「大好き」 みんなが集まる場所で「ま」→「マッシュアップキャラバン」 といった利点があります. DEMO デモ版ではリアルタイムに辞書を生成していますので,動作が遅いです.辞書生成用のサーバ with MeCabを導入し

    murawaki
    murawaki 2010/11/17
    みんな同じこと考えるんだな本当に
  • Google 日本語入力 TechTalk 2010 ノート - yoriyukiの日記

    ノートをそのまま公開する。具合が悪い場合はご連絡下さい。 始め 会場ついた。プロジェクタでTweetが表示されている(Tweet Search Stream)。しかし説明用の漫画を作るとかお金あるなあ。「IME開発をしようとする気持ちを新たにしてくださると嬉しい。」ライトニングトークのテーマは入力入力じゃなくて人力だった?!でもOK お知らせ諸注意写真撮影禁止「Google 日本語入力 イベント」と検索すれば出るソースコード:mozcで検索Google C++ style guide ← よめ:例外処理禁止とか。Boostに対する扱いとか。プレゼン資料は公開禁止。ノートはOKGoogle DocumentのGoogle Presentationを使う。便利だよ!Google 日本語入力ができるまで小松さんGoogle 日本語入力Webから自動的に辞書作成サジェスト機能マルチプラットフォーム

    murawaki
    murawaki 2010/10/25
  • 「Mozcソースコード徹底解説」 at 第2回自然言語処理勉強会 - nokunoの日記

    というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会@東京 : ATND私の発表は、シルバーウィークにもう1回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回 自然言語処理勉強会@東京 (#tokyotextmining)」 自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん) 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん)Query Suggestion @ tokyotextmining#2 (@y_benjoさん)

    murawaki
    murawaki 2010/09/26
  • ruby タグで表記と読みのペアを抽出(できるかも) - やた@はてな日記

    HTML のルビ振り用タグ(<ruby>)は表記と読みのペアを抽出するのに使えそうな気がしたので,約 1000 万ページからルビを取り出してみました.ルビを使っているページ自体が少ないので,抽出できたルビはノイズや重複込みで約 800 万件,重複を除くと約 80 万件でした. ルビの例を以下に示します.左側が元の文字列で,右側がルビです. 文字化 もじか 文字化 もじば 文字化 モジカ 文字化 モジバ 文字塔 もじとう 文字塔二基 もじとうにき 文字太夫 もじだゆう 文字弁道 もんじべんどう 文字式 もじしき 文字手摺昔人形 もじてずりむかしにんぎやう 文字打ち労務 シナリオ 文字揃 もじそろ 文字摺 もじずり 文字摺石 もじずりいし 文字数 もじすう 文字数 モジスウ 文字春 もじはる 文字有 おじあ 文字校正 もじこうせい 文字欄 もじらん 文字無 もじな 文字焼 もんじやき 文字版

    ruby タグで表記と読みのペアを抽出(できるかも) - やた@はてな日記
  • 2010-06-08 - 何かの上層にある記憶媒体

    相変わらず実験.評価の仕方を変えたら何となく嬉しい結果が出てくる.当にこの評価方法が妥当で,間違っていなければとりあえず研究会で発表はできるという段階なのだがはてさて.昼過ぎに,こっそり,というわけではなく堂々と研究室を抜け出して立川の方まで.面白そうなトークがあるという話を聞いたので.で,事実面白かったわけで.終わってから研究室に戻ってちまちまと作業.

    murawaki
    murawaki 2010/06/08
  • TSFはin-process serverである - 射撃しつつ前転 改

    MSDNのドキュメントにも書いてあるのだが、TSFにおいて、テキストサービスはin process serverであり、アプリケーションと同一のプロセス空間で動作する。Google Techtalk Tokyoで工藤さんの話を聞いた方には、ATOKはほぼ全部がアプリと同一プロセスで動作してんのにクラッシュしないのはすごい、という話を覚えている人もいるかもしれない。Google日本語入力では変換サーバーが別プロセスだよという主張を裏返せば、他の変換エンジンでは同一プロセスで動いているよ、という事だしね。 Windows95が出てきたころ、FEPとIMEの違いの説明として、FEPはキーボードドライバだけどIMEはプロセスとして動くんだよ、というのを読んだような気がするのだが、実際には、これまでのかな漢字変換エンジンはアプリケーションと同一プロセスで動作していたという事になる。キーボードドライバ

    TSFはin-process serverである - 射撃しつつ前転 改
    murawaki
    murawaki 2010/05/25
  • Mozc(Google 日本語入力)のコードを読んだメモ(2) - 射撃しつつ前転 改

    TSFのメモとMozcのコード読みメモを比較すると、書くのにかかった時間は4,5倍は違う(TSFの方が大変だった)のに、ブックマーク数は逆転どころか桁が2桁違う事になりそうだなぁ、と、あらためてGoogleの人気のすごさを体感した。小町さんは こんなに日本語入力って注目されるんだと嬉しい気持ち と書いておられるが、個人的な感触としては、日本語入力が注目されているというよりはGoogleが注目されている、というあたりが悲しい現実なのではないかと思う。とは言え、自分もChaSenのコードとか読んだことない(mecabは少しだけ読んだ事があるけど)ので、あんまり人の事は言えないが。 さて、週末にバイグラムコストの保存方法についても現実逃避で読んでしまったので、ついでに解説を試みる。 前のメモにも書いたが、Google日本語入力のコストモデルは「品詞バイグラム+単語ユニグラム」という構成になってい

    Mozc(Google 日本語入力)のコードを読んだメモ(2) - 射撃しつつ前転 改
  • SVMによる予測変換 - nokunoの日記

    Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

    murawaki
    murawaki 2010/05/15
  • Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 改

    Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。 変換アルゴリズムはどんな感じか? twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

    Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 改
    murawaki
    murawaki 2010/05/14
  • google ime (mozc)のソースコードが公開されたので読んでみた。 - お前の血は何色だ!! 4

    google ime (mozc)のソースコードが公開されました。 http://code.google.com/p/mozc/ http://codezine.jp/article/detail/5174 http://googlejapan.blogspot.com/2010/05/google_10.html なんで、早速ソースコードを探検してみた。 google のスーパーハカーはどういう楽しいコードを書いているのか興味津々です。 #まだすべてのソースコードに目を通していないです。 1.CallOnce という CASで実装された楽しい関数 base/mutex.cc に、 CallOnce という 大変ユニークな関数があります。 void CallOnce(once_t *once, void (*func)()) { if (once == NULL || func == NU

    google ime (mozc)のソースコードが公開されたので読んでみた。 - お前の血は何色だ!! 4