タグ

NLPに関するkat0usiのブックマーク (108)

  • ふぉーんなハナシ:タッチパネル用の高速入力方式「Swype」 年内に日本語対応を予定 - ITmedia D モバイル

    少し前の話になるが、スペイン・バルセロナでMobile World Congress 2010が開幕した2月15日に、とある米国のベンチャー企業が、DOCOMO Capitalから100万ドルの出資を受けたことを発表した。そのベンチャー企業とは、タッチパネル上で独特の文字入力方式を実現したSwypeだ。 Swypeは、タッチパネルに表示されたQWERTYキーボードを、一筆書きの要領でなぞることで言葉を入力する技術だ。慣れれば1分間で40語も入力できるという。YouTubeに掲載されているSwypeのチュートリアル動画を見てみると、慣れればかなりのスピードで単語が入力できそうに見える。 すでにSwypeは30種の言語をサポートしているが、今回DOCOMO Capitalからの出資を受け、日語対応のバージョンも開発する。2010年後半のリリースを予定しているという。 スマートフォン向けの単体

    ふぉーんなハナシ:タッチパネル用の高速入力方式「Swype」 年内に日本語対応を予定 - ITmedia D モバイル
    kat0usi
    kat0usi 2010/02/26
  • 空気のようなソフトウェアのつくりかたに迫る - 武蔵野日記

    Word + IME 2000に迫るを読んでいろいろと考える。taku さんのファンに支えられるプロダクトとユーザにdisられるプロダクトを読んで、「ポジティブなファンの応援は確かに励みになりますが、改善点を正直にぶつけてdisってくれるユーザ(not ファン)を大事にしていきたいと思います。良くも悪くも言われないんだけど、誰もが空気のように使っているというのが私の理想のプロダクトです」とあって、そうだなぁ、と思ったり。 安達:そうなんです。ユーザビリティ・ラボのテストでも,初心者の人はどうしても変換中の文字列に対してマウスを使ってしまって,変換中の文字列が全部消えてビックリ,となる。そこで,変換中の文字列に対しても,確定後の文字列に対してと変わらないマウス操作を可能にしよう,と。 藤:その一環として,見た目的にも,変換中の注目文節が反転する表示をやめました。代わりに太い下線が引かれます

    空気のようなソフトウェアのつくりかたに迫る - 武蔵野日記
  • IM飲み会2009 - yoriyukiの日記

    今年も開かれたIM飲み会に参加してきた。私がかな漢字変換に関わったのはマイナーなエンジンを作っただけで、しかもずいぶん前のことなのだけれど、このように毎年呼んで頂いて申し訳ない。以下は取ったメモから。最初の方はまとまった文章にしようとしているが後の方は諦めてメモそのまま。 まず午後の時間を使って、京大でワークショップ形式のセッションGoogle IME田畑さん初めは田畑さんからGoogle IMEについて。私はうっかりして遅刻してしまったので全部聞けなかった。さらに残念なことに、オフレコ前提の講演とのことで、内容を公開することはできない。まあ、講演でもアルゴリズムについては「答えられない」を連発していたけれども。それでもGoogleでの開発のあり方が分かって面白かった。私が読み推定のアルゴリズムについて質問したところ、森先生から「普通のやり方」は文字を単位とするBigramを使ったHMMで

    kat0usi
    kat0usi 2009/12/31
  • ATOK の辞書をつくる - 武蔵野日記

    @klmquasi さんのお勧めで 電脳日語論 作者: 篠原一出版社/メーカー: 作品社発売日: 2003/03/01メディア: 単行購入: 1人 クリック: 8回この商品を含むブログ (11件) を見るを読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめたであり、日本語入力や計算機上の日語処理に興味のある人が読むと、とてもおもしろいだろう(2003年ので新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。 Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かと

    ATOK の辞書をつくる - 武蔵野日記
    kat0usi
    kat0usi 2009/12/23
  • 「ゎナ=∪も行くょ〜」も修正 —— KDDI研、「くだけた表現」の自動判読技術を開発 | RBB TODAY

    KDDI研究所は3日、従来の言語解析技術では正しく解析することが困難だった、ホームページやブログ上で使われる口語やギャル文字などの「くだけた表現」を、正規な表現に自動修正する技術を開発したことを発表した。 Web上の文章には誹謗・中傷や犯罪予告などの違法・有害な書き込みも含まれており、これらの表現を言語解析によって自動的に検出するフィルタリング技術に注目が集まっている。しかしWeb上の文書には口語やギャル文字、伏せ字などが多数含まれている上に、日々新しい言葉も現れており、従来の言語解析技術では正しく解析することが困難だった。 今回開発された技術では、「ゎナ=∪も行くょ〜」「auの携帯ってヵゎいいね」「オ●マ大統領来日」といった文章であっても、システムが自動修正し、「わたしも行くよ」「auの携帯ってかわいいね」「オバマ大統領来日」と解析可能な文章に変換する。解析不能なくだけた表現を検出し、そ

    「ゎナ=∪も行くょ〜」も修正 —— KDDI研、「くだけた表現」の自動判読技術を開発 | RBB TODAY
    kat0usi
    kat0usi 2009/12/07
    修正候補となる表現を新聞文書などの正規な表現を多く含む文書から自動的に検索して取得。適切な表現を選ぶために、編集距離や統計的言語モデルによる確からしさを利用。
  • Google日本語入力は、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるのか?:データイズム:オルタナティブ・ブログ

    12月3日に話題騒然となったGoogleによるIME、「Google 日本語入力」。忽然と現れたベータにも関わらず、その性能が従来に無く専門用語や固有名詞に強いということで評判です。 そして、日語IMEと言えば、みなさん思う浮かべるジャストシステム社への影響を心配する声が出ています。MS-DOS時代に数多くあった当時FEPと呼ばれたIME(日本語入力)ソフトがWindows OSに付属したIMEで淘汰されて市場が消えた様子を目の当たりにされた、樋口理氏のブログでの指摘です。 ぶっこ抜き? [Google日本語入力の功罪] - higuchi.com blog via kwout 樋口氏は特に、その元になるデータが市販のIMEデータに由来するものではないか?という問題意識を「ぶっこ抜き」という、マナーに反したデータ入手の手法を表現するストレートな言葉で語られています。 ユーザーが「かな」を

    Google日本語入力は、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるのか?:データイズム:オルタナティブ・ブログ
  • かな漢字変換の歴史と最近の研究動向

    PFI Seminar 20091203

    かな漢字変換の歴史と最近の研究動向
  • かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記

    id:tkng さんが、現状の ChaIME について紹介して、これからの開発研究体制について話したい、ということで、京大に集まってミーティング。京大の森さんたちが作っている変換エンジン KAGAMI も9月くらいから格稼働している(少なくとも森さんは常用している)そうで、データやサーバ、ライブラリなど共通化できるところは共通化しましょう、というわけで、総勢5人でお昼から夕(学生さんは free pizza と free beer (笑))を挟んで11時近くまで、スライド使ったりデモしたりコード見たり雑談したり、いろいろ。 今後の方針については、tkng さんがものすごくがんばってくれてメモリ・ディスク使用量、処理時間ともに1/25くらいになって使えるようになってきた(現在 tkng さんと自分の2人が常用している)実用的にしたいと思う反面、実用的にするためにごちゃごちゃした変更を加え

    かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記
    kat0usi
    kat0usi 2009/11/24
    学習をどのように統計・機械学習モデルに組み込んでいくかは、まだ決定版がないのだと思います。
  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
    kat0usi
    kat0usi 2009/10/20
    人間もルールで覚えているのではなく、全部丸覚えしていて、知らない単語に出会うとルールにバックオフしているのではないか
  • http://mc1.edsp.co.jp/bs/blogsonpo.html

    kat0usi
    kat0usi 2009/10/15
  • 日本語評価極性辞書

    2. 日語評価極性辞書(名詞編) 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気, 〜である・になる(状態)客観 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ: ネガティブ:ガン 〜い(評価・感情)主観 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事) 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:

  • アマゾンwww手広い商売すぎるwwww:アルファルファモザイク

    ■編集元:女向ゲー一般板より 555 名無しって呼んでいいか? :2009/09/05(土) 11:28:20 ID:??? 654 おさかなくわえた名無しさん sage New! 2009/09/04(金) 15:05:47 ID:wAy8hsuA ____ /::::::─三三─\ /:::::::: ( ○)三(○)\ |::::::::::::::::::::(__人__)::::  | ________ \:::::::::   |r┬-|  / | |          | ノ::::::::::::  `ー'´   \ | |          | http://image.blog.livedoor.jp/albina/imgs/1/0/1065eabd.jpg 556 名無しって呼んでいいか? :2009/09/05(土) 11:31:28 ID:???

  • まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先

    ITmedia 説明会では、画面のキャラクターと会話ができるサービスのデモンストレーションが実施されていました。「道案内をする」「チケットを買う」といった目的型のほかに、携帯でこういう対話型の音声認識が採用される日は近いのでしょうか。 枝連 直近は難しいですが、将来的にはあり得るでしょう。住所や駅名の入力はキーを使った方が早い面もありますが、会話はキーよりも音声認識の方が適していると考えています。 ただ、現在の音声認識は話したことをテキスト化するサービスのみで、言い間違えてもそのまま文字化されます。一方、人間同士のコミュニケーションは、多少言い間違えても意味を認識することで問題なく成立します。対話型サービスは音声認識の次のステップで取り組まなければならないと考えていますが、コンピューターが人間並みにウィットに富んだ会話をしてくれるのかというと、難しいですよね。こうした知能面の課題がまずあり

    まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先
    kat0usi
    kat0usi 2009/08/29
    現在の音声認識は話したことをテキスト化するサービスのみで、言い間違えてもそのまま文字化されます。一方、人間同士のコミュニケーションは、多少言い間違えても意味を認識することで問題なく成立します。
  • Android端末向けに独自入力方式の日本語IME

  • HOME

    GETAssoc GETAssocは、国立情報学研究所高野研究室で開発された連想検索エンジンです。 特長 高速な文書検索 HTTPインターフェースのサポート 複数データベース間の横断検索が可能 複数CPU対応による負荷分散 インデックスの差分更新対応 検索インデックスの構築が容易 任意の類似度尺度が記述可能 オープンソース News 2009/09/04 GETAssoc 1.1 をリリースしました。 2009/07/21 GETAssoc 1.0 をリリースしました。 ダウンロード GETAssocはフリーソフトウェアです。修正BSDライセンス(Revised BSD License, 宣伝条項無し)に従ってソフトウェアを使用、再配布することができます。 stmd-1.1.5.tar.gz getassoc-1.1.5.tar.gz getassoc-1.1.0.zip (Window

    kat0usi
    kat0usi 2009/07/23
  • Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

    最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

    Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記
    kat0usi
    kat0usi 2009/06/02
  • 液晶タブレット型“Mac”が来日――「ModBook」を一足早く試す

    ModBookに付属するソフトウェアはGPSNavXだけではない。ソフトウェアキーボードで文字入力を可能にする「Quickclicks」や、ペンによる手書き文字を認識させる「Quickscript」もプリインストールされる(これらのソフトはすべてModBook Kitの一部となっており、自前のMacBookホワイトを改造した場合でもインストールしてもらえる)。 手書き文字認識技術の「Quickscript」は、Vision Objectの技術に基づいているが、なんと日語の手書き文字認識にも対応しているのだ。実際に試してみたところ、写真のようにかなりくずした字でも驚くほどの精度で認識してくれる。 実はこの認識技術には、文脈を見て自動的に候補を補正してくれる機能があり、最初のうちは間違っていても、そこでペンを止めずに続きの文を書いていくと、それにあわせて文字候補がリアルタイムで変化していくの

    液晶タブレット型“Mac”が来日――「ModBook」を一足早く試す
    kat0usi
    kat0usi 2009/04/24
    文脈を見て自動的に候補を補正してくれる機能があり、最初のうちは間違っていても、そこでペンを止めずに続きの文を書いていくと、それにあわせて文字候補がリアルタイムで変化していく
  • 人物情報検索のトレンドご紹介 part3 テキストマイニング技術について

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Yahoo! JAPAN 研究所の山下達雄です。 今回は「Yahoo!人物名鑑」の一要素である「関連人物モジュール」について技術的な解説をしていきたいと思います。よろしくお願いします。 関連人物モジュールは、人物名鑑のページの右カラムにある「関係ありそうな人物名」で使われています。 例)夫木聡さんの場合 ウェブ上のさまざまなテキストデータを分析して、人物同士の関連度を計算し、その関連度の高い人物をタグクラウド形式で表示しています。 関連度の計算には様々なテキストマイニング的な手法を用いていますが、ここではウェブ検索を利用した簡単で効果的を方法を説明します。 ■処理の流れ 分かりやすくするため、関連人物ではなく関連語を

    人物情報検索のトレンドご紹介 part3 テキストマイニング技術について
    kat0usi
    kat0usi 2009/04/18
    「や」による関連語かの判定とフレッシュクロール
  • 格フレーム検索

    検索例: 「積む」, 「修行を 積む」, 「積む:P」(受身), 「積む:C」(使役) ©2009 Kurohashi Lab.

    kat0usi
    kat0usi 2009/04/14
  • 2重マルコフモデルを用いたべた書きかな文の仮文節境界の推定方法 | CiNii Research

    タイトル別名 2ジュウ マルコフ モデル オ モチイタ ベタガキ カナブン ノ カリ ブンセ A Method of Finding the Provisional Boundaries of "Bunsetsu" for Non - segmented "Kana" Sentences Using 2nd - order Markov Model 人工知識と認知科学 べた書きかな文のかな漢字変換精度を向上させるためには,変換の過程で正解を漏らさないように,辞書から,かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが,文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある.従来,べた書きの漢字かな混じり文の場合は,字種の変化点に着目して仮文節境界を決定する方法が提案されているが,この方法は字種が,かな文字に限定されるべた書きかな文に