ブックマーク / d.hatena.ne.jp/nokuno (12)

  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

  • 予測変換APIを公開しました! - nokunoの日記

    Social IMEではWeb APIを公開していますが、昨年11月に公開したかな漢字変換APIに続き、予測変換APIを公開しました。 このAPIを使うと、たとえば次のような予測変換ができます。「はてな」で予測変換はてな はてなブックマーク はてなブック はてなダイアリー (以下略) ローマ字入力の途中での予測を行うと、このように展開されます。「わt」で予測変換私 私は 私の 私も 私が(以下略) また、長文を入力したときのかな漢字変換候補との統合にも対応しています。「きょうのてんきはは」で予測変換今日の天気は晴れ予測変換にはWebから抽出された大規模な統計量(Google提供)が用いられています。APIを活用したクライアントを開発されている方は、ぜひご利用ください。

  • Google IMEという可能性 - nokunoの日記

    先日リリースしたSocial IMEの新しい予測変換エンジンについて書いてみたいと思います。 新変換エンジンは、Googleが提供しているデータを使って開発されました。このデータ形式はNグラムと呼ばれていて、例えば3グラムなら、次のように3つの単語と、それがWeb上に連続して現れた回数(頻度)が記録されています。 単語1単語2単語3頻度今日の天気357935ソフトウェア開発を37191GoogleのNグラムは、抽出元のWeb上の文章が200億文で、解凍後のサイズが100GB以上という大規模な統計データです。最大で7グラム、つまり単語7つの組み合わせで、頻度が20以上のものを全て記録しているので、このように大規模になります。 かな漢字変換における同音異義語の選択、予測変換における入力予測などは、変換結果を一意に決めることができないという点で質的に問題を抱えています。このような曖昧性の問題に

  • 2008-07-26 - nokunoの日記

    協調フィルタリングとはAmazonのお勧めのように「この商品を購入した人はこんな商品も購入しています」という情報を用いて推薦をする手法です。グラフィカルモデルはベイジアンネットワークとも呼ばれ、最近一部で流行している機械学習の手法です。今回は、協調フィルタリングをグラフィカルモデルで表現したらどのようになるだろう、と考えて思いついたアイデアを紹介します。 今、ユーザuとアイテムiの組{u,i}のデータが大量に与えられているとします。例えばソーシャルブックマークならユーザとブックマークしているページの組み合わせ、E-commerseならユーザと購入した商品の組み合わせ、などです。ここではSBMを例に考えるので、はてブと同様にユーザはマイナスの評価を付けることはできないものとします。 このときユーザuに対してお勧めのページを推薦することを考えると、ユーザuがまだブックマークしていないページiに

    Nao_u
    Nao_u 2008/07/26
  • Social IME 〜みんなで育てる日本語入力〜 - nokunoの日記

    未踏の成果報告会のスライドです。slideshareちょっと重いですね。 | View | Upload your own前述のように提案のときとは方向性が少しだけ変わっているのですが、その中でも大きかったのは2つ。提案のときは「専門用語」「流行語」の辞書を共有する、としていたのですが、実際にはオタク用語などの需要が大きかったこと(笑)当初の予定になかった予測入力を実装したところ、実用性はともかく面白い挙動となることが分かったこと予測入力は結果のあいまい性が高いので、集合知的なログが最も活きる部分ではないか、と思っています。

  • 「継続は力なり」という言葉の真の意味 - nokunoの日記

    「継続は力なり」という言葉の意味を誤解していた気がする。何かを継続するということは、それに関する知識や経験が増えていくということだ。継続による効果を横軸が時間、縦軸が効果のグラフにすると次のように線形になるかのような錯覚を覚える。 物理的に自分の中に蓄積される効果はこのように近似できるかもしれない。しかし、外部からの評価という視点を加えるとこのグラフは一変する。時間が経つにつれて、継続によって得られる力に対する希少価値が生まれるからだ。 継続は難しい。1つの事を長く続けるにつれて、他に同じくらい続けている人は指数関数的に減っていく。だから継続している人の希少価値は、指数関数的に増加していくのだ。 何かを継続するには、その対象を好きになることが一番効率的だと思う。私は継続が苦手なので、まずは好きになることから始めようと思う。 というわけで手書き機能を使ってみたエントリ、第一弾。

    Nao_u
    Nao_u 2008/05/04
    「1つの事を長く続けるにつれて、他に同じくらい続けている人は指数関数的に減っていく。だから継続している人の希少価値は、指数関数的に増加していくのだ。」
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

    Nao_u
    Nao_u 2008/05/03
  • 仮説 - nokunoの日記

    Nao_u
    Nao_u 2007/09/29
    左手使用。
  • givenなもの - nokunoの日記

    Nao_u
    Nao_u 2007/02/27
  • 努力の価値 - nokunoの日記

    努力の価値 無駄な努力を美しいと感じる価値観が、一部にはあるようです。 私は、労力をかけたというポーズに意味があるのは、 それを見抜けない人に対してだけだと思う。 365日坊主 努力してはいけない 努力すればいいと思うのは間違いだ。 例えば、就活のエントリーシートは手書きがいいという文化があるようです。 すでに文章を書くのはPCがデフォルトになっているのに、それを避ける理由は何か。 もちろん単なる惰性ということも考えられます。 あまりたくさん応募できないような方式にしたいという理由もあるでしょう。 しかし、一番大きな理由は、「無駄な努力は美しい」という価値観です。 「無駄なやり方でも頑張ったらいい」その価値観には理由がありません。 私は、人に頑張れ、ということはよくあります。 でもそれはやり方を考えることも含めて、頑張れ、といっているのです。 あるいは頑張る分野の将来性を考えることも含

    Nao_u
    Nao_u 2007/02/23
    「手書きの文字からはその人の特性の一端が伺える」という利点もあるような>「手書き履歴書が好ましい」 自分も字が汚いんで困りますが、必ずしも綺麗なだけがいいとも限らない?性格の推測の手がかりの一つとして
  • 自動と手動の境界 - nokunoの日記

    Nao_u
    Nao_u 2007/02/16
  • 予想外のアクセス - nokunoの日記

    Nao_u
    Nao_u 2006/11/01
  • 1