[B! IM] murawakiのブックマーク

バイドゥ、IMEに関する技術的な情報について小町守准教授と連携し情報発信を開始

バイドゥ株式会社（本社：東京都港区、代表取締役駐日首席代表 Charles Zhang、以下バイドゥ）は、ユーザーにより安心してバイドゥのサービスをご利用いただけるよう、自然言語処理研究者である首都大学東京　小町守准教授と連携し、来春を目処にバイドゥの技術的な情報発信をしていきます。バイドゥは、現在提供しているIME（Imput Method Editor）製品に関する基本的な仕組みと、その背後に貢献している自然言語処理の概要について、分かり易い事例とともに、小町准教授と当社技術陣、プロダクト担当とで情報発信していく予定です。小町守准教授には、当社が研究開発・当社IME製品に実装している自然言語処理のコアな部分やIMEにおける変換エンジンといった部分について、専門家のナレッジをもとに分かり易く紐解いていただきます。本取り組みを通じて、バイドゥがユーザー向けに発信する“バイドゥを支え

murawaki 2014/12/22

IM

リンク

また百度（baidu）が日本語入力ソフトの件でやってくれたようです(山本一郎) - 個人 - Yahoo!ニュース

murawaki 2013/12/26

IM

リンク

中国製の日本語入力ソフト入力情報を無断送信　NHKニュース

中国最大手の検索サイト「百度（バイドゥ）」が提供する日本語の入力ソフトが、パソコンに打ち込まれたほぼすべての情報を、利用者に無断で外部に送信していたことが分かりました。セキュリティー会社は、機密情報が漏えいするおそれもあるとして、利用には注意が必要だと指摘しています。アメリカのグーグルに次いで世界２位の検索サイト、中国の「百度」は、４年前から「ＢａｉｄｕＩＭＥ（バイドゥ・アイエムイー）」という日本語の入力ソフトを無償で提供していて、おととしまでに１８０万回ダウンロードされるなど、利用が広がっています。このソフトは、初期設定ではパソコンの情報を外部に送信しないと表示していますが、セキュリティー会社のネットエージェントなどが分析したところ、実際には国内にある百度のサーバーに情報を送信していることが分かりました。送っている内容は、利用者がパソコンで打ち込んだほぼすべての情報と、パソコン固

murawaki 2013/12/26

IM

リンク

日本語入力こそ我がライフワーク

日本人がコンピュータを利用する上で欠かせない日本語入力機能。グーグルが2009年12月に提供を開始した「Google日本語入力」は、後発ながら変換効率の高さで評判を集めた。開発を主導した小松弘幸氏は「日本語入力はライフワーク」と語り、ユーザーインタフェース（UI）の進化につなげると意気込む。「Google日本語入力」を開発したきっかけは何ですか。学生時代に日本語予測入力システムを開発し、オープンソースソフトとして公開していました。グーグル入社後は開発から離れたものの、本業の傍らで新たな日本語入力システムの構想を温めていました。直接のきっかけは、同僚である工藤拓からの提案です。彼は検索エンジンで入力語句を予測したりスペルミスを修正したりする「もしかして」機能の担当でした。この機能を日本語入力に応用したいというアイデアに可能性を感じました。グーグルには、勤務時間の2割を本業以外に使える

murawaki 2012/08/22

IM

リンク

思いどおりの日本語入力をモバイルでも。Android 版 Google 日本語入力をリリース。

メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

murawaki 2011/12/15

IM

リンク

バイドゥ株式会社アンドロイド携帯用日本語入力システム『simeji（シメジ）』の事業を取得 | Baidu Japan Blog

みなさん。こんにちは。バイドゥからマスコミの皆様に報道発表した内容をお知らせします。本日バイドゥでは、アンドロイド携帯の世界ではとても有名な、『Simeji（シメジ）』という日本語入力システムの権利を取得しました。また、この『Simeji（シメジ）』を開発した開発者の足立昌彦さん、デザイナーの矢野りんさんもバイドゥに入社します。また、今後『Simeji（シメジ）』とBaidu IMEの、企画、開発、マーケティングなどを統一し、一層ユーザーのみなさんの利便性の高いサービスを提供します。すでに、いろいろなニュースサイトなどでも取り上げていただいていると思いますが、念のため、みなさんにはご報告します。『Simeji（シメジ）』は、アンドロイドマーケットの日本語IMEのなかではダウンロード数がもっとも多いアプリケーションです。Baidu IMEも着せ替えスキンなど、IMEを自由にカスタ

murawaki 2011/12/13

IM

リンク

[050845]「こんにちは」と入力すると「こんにちは、死ね！」と表示される

「ニコニコ大百科かんたん入力」をセットアップしていると、「こんにちは」と入力した際に、「こんにちは、死ね！」と表示されます。「ニコニコ大百科かんたん入力」を使用しない設定にすると、このような候補は表示されなくなります。 ※「ニコニコ大百科かんたん入力」は、ATOK 2011のバリューアップサービス［ベータ］で提供している、ニコニコ大百科の見出し語を登録した変換辞書および省入力データです。ニコニコ動画上でしか使用されない特有の表現が多数含まれます。 ■操作言語バーの［メニュー］*1をクリックし、基本のメニューから［プロパティ（環境設定）］を選択します。 *1ATOKパレットをお使いの場合は、ATOKパレットの［メニュー］をクリックします。［入力・変換］シートを選択します。［設定項目］の［推測変換-省入力データ］を選択します。［省入力データの内容］で［ニコニコ大百科省入力データ］の

murawaki 2011/11/02

ネタ
IM

リンク

良い IME に必要なもの 3つ - アスペ日記

日本語のかな漢字変換に必要なもののうち、主要なものを 3つ挙げてみる（細かく言えば、必要なものはもっとずっといっぱいある）。 1. N-gram 言語モデル直接つながる前後の文脈によって曖昧性を解消する。これが基本。「おもってはいる」が「思って-入る」ではなく「思って-は-いる」のほうがもっともらしい、といった基本的なところには N-gram 的なものが向いている。表記だけの N-gram でもかなりのところまで行けるというのは N-gram 漢字-かな変換 - アスペ日記とデモで示したとおり。 2. 共起情報共起というのは、どの単語とどの単語が一緒に出現しやすいかということ。N-gram でカバーしきれない曖昧性解消に使う。例えば、「ねこをかいたい」が「猫を飼いたい」であるという程度は単純な N-gram 変換で解決できる。ある程度の規模のコーパスなら「猫-を-飼（う）」という 3

murawaki 2011/08/13

IM

リンク

「会ぎ」を「会議」に変換可能、iPad向け手書きノートアプリ

MetaMoJiは2011年2月3日、iPad向けのノートアプリ「7notes」を発売した。手書き文字をそのまま入力できるほか、フォント文字に変換することも可能。「会ぎ」のように画数が多い漢字だけをひらがなで書いても、正しい漢字に変換できる。作成したデータはクラウド上で保管・管理する。価格は1500円で、2月末まではキャンペーン価格として900円で販売する。 7notesに特徴的なのが、「交ぜ書き変換入力」機能。「えい業会ぎ」のように漢字とひらがなを混在させて書いても、正しく「営業会議」と変換される。「手書きと言うと、難しい字をいちいち書かないとコンピューターに伝わらないだろうと思われるかもしれないが、7notesでは面倒な部分はコンピューターが手助けする。漢字が書けない現代社会に提案する手書きだ」（浮川和宣社長）。手書きの味を残したい場合は、手書き文字をそのままノート上に入力することも

murawaki 2011/02/04

MetaMoJi だったのか

IM

リンク

Sekka -- * Sekka(石火): SKK like Japanese input method

Sekka(石火): SKK like Japanese input method Sekka(石火)はkiyokaが開発中のSKKライクな日本語入力メソッドです。現在はEmacs専用です。特徴モードレス Sekkaには日本語入力モードという概念がありません。Emacsのカーソル位置のローマ字を(Ctrl+J)キーで直接、漢字変換できます。 SKKライク入力するローマ字表記ルールはSKKに近いルールを採用していますので、SKKユーザーは簡単にSekkaで文章を入力することができるでしょう。ミスタイプ許容ローマ字表記の揺れ(siとshi、nとnnなどの混在)や少々のローマ字のミスタイプは曖昧辞書検索によって救済されます。 Kanji => "漢字" Kannj => "漢字" Funiki => "雰囲気" fuinki => "雰囲気" Shizegegosor => "自然言語

murawaki 2010/12/27

IM

リンク

GeoIME 〜位置連携日本語入力システム〜

GeoIME（ジオアイエムイー）って？ GeoIMEは，利用者の位置に応じて，読みに対して提示される変換候補が変化する，"少しだけ気が利く"日本語変換システムを目指しています．例えば，位置に応じて変換候補が絶妙にソートされている！「し」で始まる「渋谷」「新宿」「新橋」などの順序が今いる位置によって変わる近くの地名がサクッと出る！福岡にいると「は」→「博多」，「て」→「天神」．難しい地名もOK．「す」→「周船寺」，「と」→「等々力」同じ場所では同じような単語が出る！自身の過去の履歴と，周辺にいる他人の履歴を参照いつもの場所では「だ」→「大名」．家では，「だ」→「大好き」みんなが集まる場所で「ま」→「マッシュアップキャラバン」といった利点があります． DEMO デモ版ではリアルタイムに辞書を生成していますので，動作が遅いです．辞書生成用のサーバ with MeCabを導入し

murawaki 2010/11/17

みんな同じこと考えるんだな本当に

IM

リンク

Google 日本語入力 TechTalk 2010 ノート - yoriyukiの日記

ノートをそのまま公開する。具合が悪い場合はご連絡下さい。始め会場ついた。プロジェクタでTweetが表示されている(Tweet Search Stream)。しかし説明用の漫画を作るとかお金あるなあ。「IME開発をしようとする気持ちを新たにしてくださると嬉しい。」ライトニングトークのテーマは入力入力じゃなくて人力だった？！でもOK お知らせ諸注意写真撮影禁止「Google 日本語入力イベント」と検索すれば出るソースコード:mozcで検索Google C++ style guide　← よめ:例外処理禁止とか。Boostに対する扱いとか。プレゼン資料は公開禁止。ノートはOKGoogle DocumentのGoogle Presentationを使う。便利だよ!Google 日本語入力ができるまで小松さんGoogle 日本語入力Webから自動的に辞書作成サジェスト機能マルチプラットフォーム

murawaki 2010/10/25

IM

リンク

「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記

というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会＠東京 : ATND私の発表は、シルバーウィークにもう１回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回自然言語処理勉強会＠東京 (#tokyotextmining)」自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん）自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん）Query Suggestion @ tokyotextmining#2 (@y_benjoさん）

murawaki 2010/09/26

IM

リンク

ruby タグで表記と読みのペアを抽出（できるかも） - やた＠はてな日記

HTML のルビ振り用タグ（<ruby>）は表記と読みのペアを抽出するのに使えそうな気がしたので，約 1000 万ページからルビを取り出してみました．ルビを使っているページ自体が少ないので，抽出できたルビはノイズや重複込みで約 800 万件，重複を除くと約 80 万件でした．ルビの例を以下に示します．左側が元の文字列で，右側がルビです．文字化もじか文字化もじば文字化モジカ文字化モジバ文字塔もじとう文字塔二基もじとうにき文字太夫もじだゆう文字弁道もんじべんどう文字式もじしき文字手摺昔人形もじてずりむかしにんぎやう文字打ち労務シナリオ文字揃もじそろ文字摺もじずり文字摺石もじずりいし文字数もじすう文字数モジスウ文字春もじはる文字有おじあ文字校正もじこうせい文字欄もじらん文字無もじな文字焼もんじやき文字版

murawaki 2010/07/05

corpus
IM

リンク

2010-06-08 - 何かの上層にある記憶媒体

相変わらず実験．評価の仕方を変えたら何となく嬉しい結果が出てくる．本当にこの評価方法が妥当で，間違っていなければとりあえず研究会で発表はできるという段階なのだがはてさて．昼過ぎに，こっそり，というわけではなく堂々と研究室を抜け出して立川の方まで．面白そうなトークがあるという話を聞いたので．で，事実面白かったわけで．終わってから研究室に戻ってちまちまと作業．

murawaki 2010/06/08

IM

リンク

TSFはin-process serverである - 射撃しつつ前転改

MSDNのドキュメントにも書いてあるのだが、TSFにおいて、テキストサービスはin process serverであり、アプリケーションと同一のプロセス空間で動作する。Google Techtalk Tokyoで工藤さんの話を聞いた方には、ATOKはほぼ全部がアプリと同一プロセスで動作してんのにクラッシュしないのはすごい、という話を覚えている人もいるかもしれない。Google日本語入力では変換サーバーが別プロセスだよという主張を裏返せば、他の変換エンジンでは同一プロセスで動いているよ、という事だしね。 Windows95が出てきたころ、FEPとIMEの違いの説明として、FEPはキーボードドライバだけどIMEはプロセスとして動くんだよ、というのを読んだような気がするのだが、実際には、これまでのかな漢字変換エンジンはアプリケーションと同一プロセスで動作していたという事になる。キーボードドライバ

murawaki 2010/05/25

IM

リンク

Mozc(Google 日本語入力)のコードを読んだメモ(2) - 射撃しつつ前転改

TSFのメモとMozcのコード読みメモを比較すると、書くのにかかった時間は4,5倍は違う（TSFの方が大変だった）のに、ブックマーク数は逆転どころか桁が2桁違う事になりそうだなぁ、と、あらためてGoogleの人気のすごさを体感した。小町さんはこんなに日本語入力って注目されるんだと嬉しい気持ちと書いておられるが、個人的な感触としては、日本語入力が注目されているというよりはGoogleが注目されている、というあたりが悲しい現実なのではないかと思う。とは言え、自分もChaSenのコードとか読んだことない（mecabは少しだけ読んだ事があるけど）ので、あんまり人の事は言えないが。さて、週末にバイグラムコストの保存方法についても現実逃避で読んでしまったので、ついでに解説を試みる。前のメモにも書いたが、Google日本語入力のコストモデルは「品詞バイグラム+単語ユニグラム」という構成になってい

murawaki 2010/05/17

リンク

SVMによる予測変換 - nokunoの日記

Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

murawaki 2010/05/15

IM

リンク

Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転改

Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。変換アルゴリズムはどんな感じか？ twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基本的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp

murawaki 2010/05/14

IM

リンク

google ime (mozc)のソースコードが公開されたので読んでみた。 - お前の血は何色だ!! 4

google ime (mozc)のソースコードが公開されました。 http://code.google.com/p/mozc/ http://codezine.jp/article/detail/5174 http://googlejapan.blogspot.com/2010/05/google_10.html なんで、早速ソースコードを探検してみた。 google のスーパーハカーはどういう楽しいコードを書いているのか興味津々です。 #まだすべてのソースコードに目を通していないです。 1.CallOnce という CASで実装された楽しい関数 base/mutex.cc に、 CallOnce という大変ユニークな関数があります。 void CallOnce(once_t *once, void (*func)()) { if (once == NULL || func == NU

murawaki 2010/05/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

IMに関するmurawakiのブックマーク (56)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス