タグ

webとnlpに関するHeavyFeatherのブックマーク (6)

  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

    HeavyFeather
    HeavyFeather 2010/07/23
    N-gramとかなつかしーなー。有意なフリーのコーパスって今どのくらいあるのかなぁ
  • Comparing NLP APIs for Entity Extraction | Michael Fagan's blog

    Update: a number have people have pointed out some small errors and some additional APIs that I should look at. See my half-hearted followup: Entity Extraction APIs, once again. As part of a project I’m working on (more on that later), I wanted to be able to take some text (probably in the form of a web page) and get a list of the important entities/keywords/phrases. It turns out that there are ac

    HeavyFeather
    HeavyFeather 2010/01/04
    Web上のNLP用APIの比較。日本語圏の比較はさすがにないけれど。
  • 「Google日本語入力」開発者が語る、その狙い

    Google法人が公開した新日本語入力システム(IME)「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。 同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP/Vista/7(それぞれ32ビット版)とMac OS X(Leopard以降)に対応し、無料で利用できる。 エンジニアの情熱の成果 開発は、ソフトウェアエンジニアの工藤拓さんと

    「Google日本語入力」開発者が語る、その狙い
  • 「グーグルでないと作れない日本語入力ツールを作った」--Google日本語入力の狙い

    グーグルが12月3日に公開した文字入力支援ツール「Google日本語入力」が、大きな注目を集めている。Googleがクロールした大量のウェブデータ元にした豊富な語彙と、変換語を提案するサジェスト機能が目玉だ。 開発を担当したのは、Google検索で検索語の誤変換を指摘する「もしかして」機能の日語版を開発した、グーグルソフトウェアエンジニアの工藤拓氏と、同じくソフトウェアエンジニアの小松弘幸氏だ。2人は「20%ルール」と呼ばれるグーグルの社内制度を使い、勤務時間の20%を使ってGoogle日本語入力の開発を始めた。 工藤氏によると、「もしかして」機能を担当した際、検索クエリの間違いの多くは既存のIME(文字入力ソフト)の誤変換によるものであることに気付いたという。特に新しい単語や芸能人の名前などには対応できていない場合が多かった。それを「もしかして」機能が修正することで、ユーザーが求める情

    「グーグルでないと作れない日本語入力ツールを作った」--Google日本語入力の狙い
  • CNET Japan

    人気記事 1 現金NGの「完全キャッシュレス化」で店の利益は増える?減る? 調査結果 2026年04月06日 2 マイクロソフト、PC起動時に「Edge」が開く機能をテストか 不評の懸念 2026年04月06日 3 写真で見る東京ゲームショウ2012を彩ったコンパニオンたち 2012年09月24日 4 東京ゲームショウ2019を彩ったコンパニオンたち--170枚の写真で振り返る 2019年09月23日 5 写真で見る東京ゲームショウ2022--3年ぶりの幕張を彩ったコンパニオンたち 2022年09月23日 6 写真で見る東京ゲームショウ2023を彩ったコンパニオンたち 2023年11月01日 7 フォトレポート:分解、27インチ「iMac」--「Thunderbolt」搭載モデルの内部を見る 2011年05月30日 8 東京ゲームショウ2017を彩ったコンパニオンたち(前編)--140枚の

    CNET Japan
    HeavyFeather
    HeavyFeather 2009/09/03
    これは面白そう
  • 人工無能の作り方

    書いた人 INA 人工無能とは? 人間っぽく話すプログラムのこと。会話を理解しているというよりは、なんかそれっぽいことを話すだけのものが多い。 今回は「日語のようなものを話す人工無能」を作ってみたので、その簡単な仕組みと工夫した点について少し書いてみることにする。 動機 うちのサークルのメンバーがよく集まってるチャット。とてもマニアックな どうしようもない 会話が繰り広げられているわけだが、ちょっと物足りない。 そうだ! 萌キャラがいないじゃないか! 「ないなら作ればいいじゃない?」 材料 MeCab 形態素解析エンジン 難しいことは知らなくても問題ない。 「私は変な人ではない」 ↓ 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 変 名詞,形容動詞語幹,*,*,*,*,変,ヘン,ヘン な 助動詞,*,*,*,特殊・ダ,体言接続,だ,

  • 1