タグ

nlpに関するfuktommyのブックマーク (79)

  • 日本語入力シンポジウム

    文の入力方式シンボジウム 1981年7月2日~3日に東京の機械振興会館で行われました。 情報処理学会では「日文入力法」という研究委員会が設立されて活動しており、その成果発表でした。 私はこの委員会のメンバーでした。 シンポジウム予稿表紙 シンポジウムプログラム1 シンポジウムプログラム2 このバネル討論に私も出席しました。 シンポジウム予稿 シンポジウムを開催するに当たって 高橋秀俊(慶大理工学部) その1・その2・その3 ・・このシンボジウムの位置づけ、これまでの日本語入力の経緯、考え方などがあります。 日文入力の現状と展望 高橋延匡(東京農工大学工学部) その1・その2・その3・ その4・その5・その6・ その7・その8・その9・ その10・その11・その12・ その13 ・・日文入力の現状をまとめたもの。筆者の意見では、専門家はカナ2タッチ式、素人にはオンライン手書き文字認

    fuktommy
    fuktommy 2010/01/01
    資料が公開されているのはありがたいが、もう少し検索とかできるようにならないか。むずかしいか。
  • ATOK の辞書をつくる - 武蔵野日記

    @klmquasi さんのお勧めで 電脳日語論 作者: 篠原一出版社/メーカー: 作品社発売日: 2003/03/01メディア: 単行購入: 1人 クリック: 8回この商品を含むブログ (11件) を見るを読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめたであり、日本語入力や計算機上の日語処理に興味のある人が読むと、とてもおもしろいだろう(2003年ので新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。 Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かと

    ATOK の辞書をつくる - 武蔵野日記
    fuktommy
    fuktommy 2009/12/23
    これは読んだ。http://blog.fuktommy.com/1088567953 買った時点で辞書の完成度が高い反面、単語登録がやりにくいというのが、興味深かった。
  • 「グーグルでないと作れない日本語入力ツールを作った」--Google日本語入力の狙い

    グーグルが12月3日に公開した文字入力支援ツール「Google日本語入力」が、大きな注目を集めている。Googleがクロールした大量のウェブデータ元にした豊富な語彙と、変換語を提案するサジェスト機能が目玉だ。 開発を担当したのは、Google検索で検索語の誤変換を指摘する「もしかして」機能の日語版を開発した、グーグルソフトウェアエンジニアの工藤拓氏と、同じくソフトウェアエンジニアの小松弘幸氏だ。2人は「20%ルール」と呼ばれるグーグルの社内制度を使い、勤務時間の20%を使ってGoogle日本語入力の開発を始めた。 工藤氏によると、「もしかして」機能を担当した際、検索クエリの間違いの多くは既存のIME(文字入力ソフト)の誤変換によるものであることに気付いたという。特に新しい単語や芸能人の名前などには対応できていない場合が多かった。それを「もしかして」機能が修正することで、ユーザーが求める情

    「グーグルでないと作れない日本語入力ツールを作った」--Google日本語入力の狙い
    fuktommy
    fuktommy 2009/12/10
    "きょう" はGoogleっぽい。普通だとショートカットキーを割当てようとして、結局覚えきれなくなる。
  • http://www.dl.kuis.kyoto-u.ac.jp/~n.asahi/BetweenFinder/

    fuktommy
    fuktommy 2009/11/14
    よくわからない。あとで考える。
  • 川柳の自動生成アルゴリズムの紹介(どうしたら 機械で川柳 詠めるかな)

    こんにちは。エイプリルフールに 1 日だけローンチした Google 川柳、お楽しみいただけましたか?エイプリルフールが終わってしまったのでサービスはもうありませんが、せっかくなのでその裏側をすこしご紹介します。 今回は、Google人工知能 CADIE を開発し、その CADIE が世界中で面白いサービスを提供するという設定で Google 川柳を提供しました。人工知能 CADIE は架空のものですが、コンピューターによる川柳の自動生成を行ったのは、ウソではありません。 ここでは、その川柳をコンピューターに生成させた手順を簡単にご紹介します。 川柳とは何かを学習する まず、物の川柳/俳句を Web 上から集めました。集めた作品を解析し、俳句/川柳にありがちな品詞の並びパターンを学習しました。「瞬間」を切り取る 川柳/俳句には、「話題」が必要になります。これは、Web ページからラン

    川柳の自動生成アルゴリズムの紹介(どうしたら 機械で川柳 詠めるかな)
  • 確かに「文章は接続詞で決まる」と思う。 - IHARA Note 2008-09-21

    光文社新書から「文章は接続詞で決まる」というが出た。最近の新書は中身よりも題名に価値のあるものが多いが、これは中身も役に立つと思う。読み物として面白いとは言い難いが、自然言語処理をするアマチュアやプロの人は一度目を通しておいてもいいかもしれない。辞書的な用途で使えるような気がする。ちなみに、私にとって自然言語処理は隣接分野であって専門分野ではない。 文章は接続詞で決まる (光文社新書) 作者: 石黒圭出版社/メーカー: 光文社発売日: 2008/09/17メディア: 新書購入: 24人 クリック: 122回この商品を含むブログ (86件) を見る 構成としては、まず接続詞の定義などについての前置きがあり、次に接続詞が丁寧に分類され(ここにページ数が割かれている)、そして接続詞の実践的使用法への言及へと展開していく。全体的に用例が豊富であり、理解しやすい。 このを文系の言語学の人たちがど

    確かに「文章は接続詞で決まる」と思う。 - IHARA Note 2008-09-21
    fuktommy
    fuktommy 2008/09/21
    接続詞の使い方がおかしい人が、どういう風におかしいのかに興味がある。なにか規則があるかも。これ的な意味で→http://d.hatena.ne.jp/potasiumch/20070815#1187155376
  • Googleのアドレスと統語法。 - IHARA Note

    唐突にアドレスを書く。 http://www.google.com/search?q=IHARA+Note&hl=ja&lr=&start=10&sa=N これはgoogleで「IHARA Note」を検索したときの2ページ目である。こういう少し入り組んだアドレスを見ていると、人間が使っている自然言語にどことなく似ているような気がする。 最初の方を見ると、「命令」が宣言されている。「これをgoogleで検索しろ」といったふうである。「?」以降にはその細かい条件が記述されている。IHARA Noteをhl=jaでlr=という条件で探したときの10番目からsa=Nという条件で表示せよ。 面白いと思ったのは、これは私の勝手な解釈だが、自然言語と同様に「格」が存在しているように見える点である。「=」の左側に「格」を定める文字列があり、右側にはそれに対応する具体的な引数がある。 考えてみれば、情報を

    Googleのアドレスと統語法。 - IHARA Note
    fuktommy
    fuktommy 2008/03/28
    http://www.nicovideo.jp/watch/nm2662108 のように「動詞/目的語」っぽいのもあるよな。cf. http://ja.wikipedia.org/wiki/REST
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • blogWatcher開発日誌: お詫び サービス停止のお知らせ

    2004年8月にサービスを開始し,これまで続けてまいりましたblogWatcher(現在Ver.3.0β)ですが,この2月末(29日)を持ちまして停止させていただくことになりました.長い間ご利用ありがとうございました.また,温かく見守ってくださりありがとうございました.現在もご利用くださっている皆様にはご迷惑をおかけすることになりますが,どうかご容赦ください. 停止にはいくつか理由があります. 1. 保守管理をする人員も必要であり負担になってきた. 2. 実際の研究開発にもう少し注力したい. 3. 多くのブログ検索,分析サービスが他にも出てきており,また, blogWatcherをベースとしたサービスSHOOTIもあり,必要性が薄れてきていると感じている. 等です.1.等の理由により,昨年からブログの収集は停止してしまっており,すでに昨年から皆様にはご不便をおかけしていたことと思いま

    fuktommy
    fuktommy 2008/02/09
    お疲れ様でした。
  • http://onosendai.jp/hyoron/hyoron.php?URL=http%3A%2F%2Fblog.fuktommy.com%2F

  • 第17回 検索と入力の素敵な関係 | WIRED VISION

    第17回 検索と入力の素敵な関係 2008年1月11日 IT コメント: トラックバック (0) (これまでの増井俊之の「界面潮流」はこちら) 「入力システム」という言葉を聞くとキーボードやかな漢字変換システムのことを連想するでしょうし、「検索システム」という言葉を聞くとGoogleのような検索サイトやSpotlightのようなデスクトップ検索システムのことを連想するもので、入力と検索は全く別物と考えられているのが普通です。一方、辞書やWebで検索した単語や例文を自分の文章にコピペしたり、面白いサイトのURLをメールに貼り付けたり、検索結果を自分の文章作成に利用することは広く行なわれています。実は検索と入力はほとんど一体のものであると考えると両者の関係がすっきりします。 ■検索と入力の関係 検索結果を自分の文章にコピペするだけで文章を作ろうとは普通は考えないかもしれませんが、POBoxのよ

    fuktommy
    fuktommy 2008/01/13
  • 圧縮新聞

    圧縮新聞はその日の最新ニュースをマルコフ連鎖でまとめて圧縮したものです。 ざっと眺めるだけでその日起こった事件が何となくわかる可能性がありますが保証はしません。 リロードするたび文章は変わります。 Twitter版もできました。 インタビュー特集や、映画『虹色デイズ』に出演する佐野玲於・中川大志・高杉真宙・横浜流星の座談会なども掲載。 詳しい観測が必要だと皮肉った。 長期間にわたり血糖値がコントロールできない状態が続くと、毛細血管がダメージを受けます。やがて目(網膜)や腎臓の毛細血管に障害が起き、網膜症や腎臓病などの合併症を発症することが理想だ。

    fuktommy
    fuktommy 2007/11/24
  • 自伝的記憶としてのWEB日記一内容と文体の性差の検討一 - REV's blog

    http://www.interaction-ipsj.org/archives/paper2000/pdf2000/paper00-143.pdf

    自伝的記憶としてのWEB日記一内容と文体の性差の検討一 - REV's blog
    fuktommy
    fuktommy 2007/11/16
    自動で男女を判別する研究を見たような。
  • ここギコ!: Google翻訳の結果がすごすぎる件だけど

    Posted by nene2001 at 12:57 / Tag(Edit): google translation / 7 Comments: Post / View / 1 TrackBack / Google Maps Googleすげえwwww :F速VIP(・ω・)y- 1 :以下、名無しにかわりましてVIPがお送りします。 :2007/11/14(水) 17:35:37.33 ID:xzd5Ss1m0 http://www.google.co.jp/translate_t?hl=ja ここで日語⇒英語で、「魔女の宅急便」って入れてみろ。 Google翻訳SUGEEEEEEE 5 :以下、名無しにかわりましてVIPがお送りします。 :2007/11/14(水) 17:39:43.20 ID:xzd5Ss1m0 千と千尋の神隠し ⇒  Spirited A

    fuktommy
    fuktommy 2007/11/15
    英語⇔仏語とかと違って日本語⇔英語は、文単位だとこの方法論では難しいみたいだからなあ。
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
    fuktommy
    fuktommy 2007/11/02
    こないだ学会でアンケート取ってたやつかー http://blog.fuktommy.com/1174398181
  • ここギコ!: Googleさんの技術でアイヌ語訳ができないだろうか

    Posted by nene2001 at 11:15 / Tag(Edit): ainu language translate google / 0 Comments: Post / View / 6 TrackBack / Google Maps ゆうきまさみさんのブログ経由で知りました。 アイヌの遺産「金成マツノート」の翻訳打ち切りへ -asahi.com- アイヌ民族の英雄叙事詩・ユーカラが大量に書き残され、貴重な遺産とされる「金成(かんなり)マツノート」の翻訳が打ち切りの危機にある。言語学者の故・金田一京助氏と5月に亡くなった萱野茂氏が約40年間に33話を訳した。さらに49話が残っているが、事業を続けてきた北海道は「一定の成果が出た」として、文化庁などに07年度で終了する意思を伝えている。 ......... これまでのペースでは、全訳するのに50年程度かかりか

    fuktommy
    fuktommy 2007/03/31
    Googleの機械翻訳は英語-仏語のように、文法の似た言語間に強いと聞く。日本語-アイヌ語、日本語-琉球語には効果ありそう。
  • 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

    第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 はてなブックマークでも話題になっているGoogleの大規模日語データ公開に関する特別セッション@NLP2007に,家が近いこともあり参加してきましたので,その詳細を書きます. セッション概要と要旨 Googleは日語の言語処理研究のためにW

    聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
  • Google: 大規模日本語データ公開に関する特別セッション

    グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 講演終了後お疲れのところとは存じますが、是非ディスカッションに参加頂き、忌憚の無い御意見をお聞かせ願いたいと存じ上げます。

    fuktommy
    fuktommy 2007/03/14
    おお、ちょうどこの学会に参加するんだ。http://blog.fuktommy.com/1174398181
  • 自分のやっていることの社会的認知度を無視した科学者。 - IHARA Note

    先日、情報処理学会の全国大会に行ってきた*1。大会というのは普段様々な小規模の研究会で活動している人々が一堂に会して発表をするお祭りである。ただし、普段の研究会よりも内容のレベルが低く閑散としていることが多い。 その大会で私もレベルの低い発表をさせていただいた。内容は「いろいろなブログの記事を寄せ集めて引用して週刊誌っぽいブログを作ってみたらそこそこ反応が集まったので紹介します」というものである。詳細はこちらである(http://recognition.web.fc2.com/trend/)。今回は、私たちの試みがネット社会にどのように捉えられたかということを軸に発表を進めた。そして、最後に「珍しさと便利さと不快感をネット社会にわずかに与えたようだ」「文章要約という技術はあまり認知されていないようだ」とまとめた*2。 そして、問題は発表後の質疑応答である。コメントが一つだけしか来ず、また、

    自分のやっていることの社会的認知度を無視した科学者。 - IHARA Note
  • コピペトレンド

    コピペトレンドを紹介するページ 2006年8月14日から2007年1月5日まで、 文章は機械が自動的にほかのブログの文を切り貼りして作成しています(現在はリンク先にブログがありません) というブログを更新していました。 ある標題について一文単位でほかのブログから文を引用して、 記事を作成しようというものです。 (旧名は「コピペトレンド」です) もう更新を終えてしまったのですが、 どういう仕組みなのかを訊く人がそれなりにいるので、 中身を公開します。 なお、このブログについては、 2007年3月に、情報処理学会の全国大会というところで、 報告しました。 予稿とスライドとスクリプト そのときの予稿の一部 そのときのスライドの全部 使っていたスクリプト(zip) PerlとJUMANが必要です。 データとの相性で処理が途中で止まることがあります。 スクリプトはBSDライセンスというのに基づいてい