タグ

自然言語処理に関するYMZのブックマーク (40)

  • ATOK の辞書をつくる - 武蔵野日記

    @klmquasi さんのお勧めで 電脳日語論 作者: 篠原一出版社/メーカー: 作品社発売日: 2003/03/01メディア: 単行購入: 1人 クリック: 8回この商品を含むブログ (11件) を見るを読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめたであり、日本語入力や計算機上の日語処理に興味のある人が読むと、とてもおもしろいだろう(2003年ので新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。 Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かと

    ATOK の辞書をつくる - 武蔵野日記
    YMZ
    YMZ 2009/12/24
    「精神を痛めつけるその作業」
  • Engadget | Technology News & Reviews

    How to watch NASA's first Boeing Starliner crewed flight launch today (scrubbed)

    Engadget | Technology News & Reviews
  • 「Google日本語入力」開発者が語る、その狙い

    Google法人が公開した新日本語入力システム(IME)「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。 同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP/Vista/7(それぞれ32ビット版)とMac OS X(Leopard以降)に対応し、無料で利用できる。 エンジニアの情熱の成果 開発は、ソフトウェアエンジニアの工藤拓さんと

    「Google日本語入力」開発者が語る、その狙い
    YMZ
    YMZ 2009/12/07
    「「IMEが誤用を出すのは問題だと思っているが、何を持って誤用とするのか考えが出せないでいる」とも話す。Webは生きた言葉の最前線だ。IMEが“言葉の裁判官”を買って出るべきなのか、ここは思想の問題と言えそうだ」
  • Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記

    Google IME がリリースされたそうで、Twitter でも #googleime というハッシュタグで祭りになっているようである。リリース文を見ると @taku910 さんと @komatsuh さんが主に関わっているようである。 以前Google サジェストのローマ字検索機能 = Google IME でも書いたことがあるのだが、これが出る予兆はいろいろあって、 2007年秋に Google語 N グラムが出る(もっと言えば2007年3月に言語処理学会で「N グラムデータを出すならどういう形がいいか、どういう用途で使うか」という特別セッションがあった)ときから想像できたことであり、taku さんや komatsuh さんくらいのエンジニアであればエンジンを作るのには数日もかからないであろう。 Social IME 開発者の nokuno さんもGoogle IMEという可能

    Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記
    YMZ
    YMZ 2009/12/07
    日本語のスペルチェッカ
  • 「ひとがご→人がゴミのようだ」 桁違いの語彙力、Googleが日本語入力ソフト(無料)発表…ATOKどうなる? : 痛いニュース(ノ∀`)

    「ひとがご→人がゴミのようだ」 桁違いの語彙力、Google日本語入力ソフト(無料)発表…ATOKどうなる? 1 名前:☆ばぐた☆ ◆JSGFLSFOXQ @☆ばぐ太☆φ ★ :2009/12/03(木) 15:07:34 ID:???0 グーグル法人は3日、日本語入力ソフト(ベータ版)の提供を始めた。ネット上から自動的に単語を収集して辞書をつくり、新しい言葉や専門用語、著名人の名前なども収録されているという。ソフトをダウンロードして使う。同社の検索で、入力間違いを類推して指摘する「もしかして機能」の担当技術者らが開発。単語を入力すると、同社の検索エンジンで単語を入力した時に表示される候補と似た変換候補がリスト表示され、必要な言葉を選ぶ。 http://mainichi.jp/select/biz/news/20091203mog00020019000c.html 「ぱんつじゃ」まで

    「ひとがご→人がゴミのようだ」 桁違いの語彙力、Googleが日本語入力ソフト(無料)発表…ATOKどうなる? : 痛いニュース(ノ∀`)
    YMZ
    YMZ 2009/12/03
    はんにんはw 「語彙力」
  • 思いどおりの日本語入力 - Google 日本語入力

    日、Google 日本語入力 (ベータ) をリリースしました。 Google 日本語入力Windows (現時点では 32 ビットのみ) および Mac に対応した日本語入力ソフトウェア (インプットメソッド) です。豊富な語彙と強力なサジェスト機能で思いどおりの日本語入力をサポートします。 Google 日本語入力は桁違いの語彙力を持っています。Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます (この辞書および統計的言語モデルの作成は Google の大規模分散処理システム MapReduce を用いて、数千台規模

    思いどおりの日本語入力 - Google 日本語入力
  • 類語.jp 言語工学研究所類語辞書検索サイト

  • 増井 / 類語をみつける方法

    というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したい たとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい 「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

    YMZ
    YMZ 2009/09/29
    「類語」と「同位語」って全然違う気がするーーー。
  • http://haikers-depression.appspot.com/

    YMZ
    YMZ 2009/08/22
    「対象のユーザが最近ポストした内容を数件読み、ポジティブな発言にプラス値を、ネガティブな発言にマイナス値をつけて鬱度を算出しています」
  • べた書きかな文の分かち書き再考 - 武蔵野日記

    最近仕事の行き帰り、片道自転車が40分あるので、研究というかなんというかいろいろ頭の体操をしながら自転車を漕いでいるのだが、今日は @sassano さんに教えてもらって文節をどう区切るかを再読する。いや、N文節最長一致法というヒューリスティックがどういうものだったか(アルゴリズム的にはなにをしていることに相当するのか)考え始めてしまって、なんなんだろうなぁ、と思って……。(もしかしてこのヒューリスティックを統計的な手法で説明できたらおもしろそうだな、と考えたのが事の発端) 基文献としては以下の3点。いずれも(かな漢字交じり文ではなく)かなだけからなる入力をいかに分かち書きするか、という問題に取り組んでいる。前読んだ気がするのだがすっかり忘れていた。かな漢字交じり文であれば漢字からひらがなやカタカナになったり、数字になったりするという、字種の切れ目の情報が使えるのだが、べた書きかな文は字

    べた書きかな文の分かち書き再考 - 武蔵野日記
    YMZ
    YMZ 2009/07/18
    自然言語処理屋さんと「文節」について話していると、ものすごい断絶があってくらっとするときがある。例えば「、」があったら絶対文節区切りとか。
  • 棒読みちゃん - ダウンロード(音声合成で日本語文章を読み上げ)

    ニコニコ実況が2020/12/16にリニューアルし、ニコ生の機能を利用する形式に変わりました。 旧APIの廃止に伴い棒読みちゃんに添付していたプラグインからは接続できなくなりました。 ニコ生用には棒読みちゃんと連携できるコメントビューアが色々ありますので、そちらと連携してご利用ください。 ■概要 漢字を含む日語の文章を音声合成で読み上げるツール。 IMEで漢字をひらがなに変換し、AquesTalkで音声合成します。 SAPI5やSpeech Platform音声合成エンジンにも対応しています。 ■動作環境 Microsoft Windows 2000以上(7の64bit版のみ確認) Microsoft .NET Framework 2.0以上(3.5のみ確認) ■カンパのお願い フリーウェアなので無料でご利用いただけますが、気に入ってくださった方は、ご支援いただければ幸いです。 Ama

  • フリック入力の特許と予測入力の話 - 武蔵野日記

    mowamowa くんの現状の Android の良い点と良くない点を見て、 それに、使っていてもっさりしているのもいただけない。特に困るのが日本語入力。デフォルトのiWnnは辞書の品質は良いのだが何より遅いため、3GSなどと比較されるとどうしても白旗を上げたくなってしまう。実際には、3GSもHTC magic(GDD phoneとかのアレ)も、どちらもハードな日語記事を書いたりするのには向かないので、その程度のレスポンスの違いなどそんなに重要ではないのだが、どうしても見た目遅く見えるとダメなのは否定できない。 (中略) 参考のため、しめじも試してみた。入力は快適に感じられるが、辞書が弱い。私の直感ではiWnnの重さは辞書引きの部分にあり、しめじはそこらへんがいい加減だから速いだけ、だ。「とこ」と入力したらiWnnのように「ところが」「ところで」と出てきてわざわざ入力する手間を省くのが携

    フリック入力の特許と予測入力の話 - 武蔵野日記
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    YMZ
    YMZ 2009/05/31
    単位を考えずに辞書にどーんと放り込んじゃうとかえって精度が落ちることもあると思うけど、どうかな。
  • NHK「2ちゃんねる」を分析、研究 番組制作に役に立つ?

    インターネットへの進出が目立っているNHKが、今度は巨大ネット掲示板2ちゃんねる」など、インターネット上のコメント(書き込み)の分析・研究を進めている。番組が「どの時間に盛り上がっているのか」「どういった内容が話題になっているのか」を探り、番組制作に役立てる。 「2ちゃんねる」などの書き込み8000件で実験 こうした分析を可能にするのが、「情報還流システム」。NHK放送技術研究所が2009年5月24日まで開催していた「技研公開2009」の中で、研究段階の試みのひとつとして展示された。NHKが番組を放送し、視聴者がネット上にコメントを書き込む。そのコメントをNHKが解析し、解析結果を番組制作に役立てたり、さらにはその情報を基に感想を共有するコミュニティのような、視聴者参加型のサービスを形成したりするため開発されているシステムだ。 ネットには雑多なコメントがあふれている。それをどのように解析

    NHK「2ちゃんねる」を分析、研究 番組制作に役に立つ?
  • ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 - 武蔵野日記

    5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告の発表原稿 PDF。 小町守, 牧慎平 (Yahoo!), 内海慶 (Yahoo!), 颯々野学 (Yahoo!). ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得. 情報処理学会第191回自然言語処理研究会. Vol.2009-NL-191, No.9, May 2009. 情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない

    ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 - 武蔵野日記
    YMZ
    YMZ 2009/05/22
    「形態素解析(正確には分かち書き)が難しい例として複合名詞をとりあげ,これの高度な解析を実現する方法を議論する」面白そう。
  • 社会:ZAKZAK 津軽弁「うっと」は難しい? 音声システム識別不能か

    津軽弁「うっと」は難しい? 音声システム識別不能か 21日の裁判員制度開始を前に、法廷での被告人質問や証人尋問のやりとりを自動的に文字化して記録する「音声認識システム」が、「うっと(とても)」など一部の津軽弁を識別しない可能性の高いことが19日、分かった。 音声認識システムは、証言台の前に設置したカメラやマイクで法廷のやりとりを映像と音声で記録。発言内容を自動的に文字化し、評議の際に録画映像とあわせ、裁判員が確認できる。 最高裁が約4億円をかけて開発した自信作で、全国の約160法廷に導入。関西弁に対応できるバージョンもある。 青森地裁でも一号法廷に設置されたが、同地裁総務課によると「じぇんこ(銭)」など津軽弁の難解な方言はシステムでの認識が難しいほか、独特のイントネーションもあるため、どの程度対応できるか分からないとしている。 システムには地名や人名など頻繁に使用する言葉の事前登録が可能。

  • Ajax - ケブンッリジだがいくのけゅきんうのけっか : 404 Blog Not Found

    2009年05月08日15:00 カテゴリLightweight LanguagesLogos Ajax - ケブンッリジだがいくのけゅきんうのけっか とういけわで、じうどかしみてた。 ねとらぼ:確かに“読めてしまう”コピペに2ch住人が「人間すげー」と驚く - ITmedia News Use YJParse こんにちは。皆さんお元気ですか?私は元気です。 この文章は、イギリスのケンブリッジ大学の研究の結果 人間は文字を認識するとき、その最初と最後の文字さえ合っていれば 順番は滅茶苦茶でもちゃんと読めるという研究に基づいて わざと文字の順番を入れ替えてあります。 どうです?ちゃんと読めちゃうでしょ? ちゃんと読めたら反応よろしく。 こんにちは。皆さんお元気ですか?私は元気です。 この文章は、イギリスのケンブリッジ大学の研究の結果 人間は文字を認識するとき、その最初と最後の文字さえ合ってい

    Ajax - ケブンッリジだがいくのけゅきんうのけっか : 404 Blog Not Found
    YMZ
    YMZ 2009/05/09
    Yahoo!日本語形態素解析は単位が小さいよねえ。2chにあったコピペと違い文節っぽい(付属語を含む)単位で順序を入れ替えてるから読みにくくなっている。
  • yto

    yto

    yto
  • 誠信書房―書籍情報: 人文・社会科学のためのテキストマイニング

    テキストマイニングを、“分かりやすく”、そして“タダ”で、行うことを可能にする一冊。著者が開発したフリーソフト「TinyTextMiner」をはじめとする各種ソフトウェアの活用方から、自然言語処理、統計解析、データマイニングの分野を幅広くカバーした。人文・社会学分野の学部学生、大学院生・研究者の入門書として最適な内容である。 第1章 序 1.1 テキストマイニングがもたらすブレイクスルー 1.2 タダで格的なテキストマイニング 1.3 書の構成 第2章 TTMと関連ソフトウェアのインストール 2.1 テキストマイニングの準備 2.2 TTMのダウンロードとインストール 2.3 TTM関連のツールの準備 2.4 分析用各種ソフトウェアのインストール 第3章 TTMによるテキストデータの分析 3.1 TTMの基的な使い方 3.2 テキストマイニングで知る経済情勢の時

  • 教師なし形態素解析 - mots quotidiens.

    LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

    YMZ
    YMZ 2009/04/11
    「何も教えていないのに充分うまく切れているなあ, という気がします」教師データが必要なら提供したいくらい。評価にも関連するが単位をどう見ているのかがどうしても気になってしまう。