タグ

NLPに関するttpoohのブックマーク (68)

  • 文体診断ロゴーン

     文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。

    ttpooh
    ttpooh 2010/04/10
    おお。後で試してみよう。計量言語学。
  • Bayesian Modeling for Language Tutorial Reading at I Love Natural Language Processing

    I LOVE NLPThis is reprint from Sharon Goldwater’s “Reading list on Bayesian modeling for language“. People often ask me what they can read to learn more about recent Bayesian modeling techniques and their applications to language learning. Here is a list of the papers I have found to be most useful and relevant to my own research. I try to emphasize the papers aimed at a slightly less technical/mo

    ttpooh
    ttpooh 2010/01/31
    ノンパラベイズをメインに、言語系への応用あれこれ。
  • mots quotidiens.

    NAACL/HLT 2009に出る予定の論文, "Global Models of Document Structure Using Latent Permutations" [pdf] [code] が面白そうだったので, 読んでみた。 若干仮定が強すぎたりする面はありますが, 興味深い話で, 理解を深めるためにこの場所を使って整理。 これは一言で言うと, 潜在トピックの表れる順序に一般化Mallows Modelを 仮定して文書構造を表現する, という話で, 実は自然言語処理一般に 有益な可能性がある話だと思う。 Mallows Modelが順序の確率分布だということは前から知っていたものの, ランキングの研究をしているわけではないので, 自分にはとりあえず関係ないと思ってこれまでスルーしていた。 Barzilayのグループは以前から文書構造の研究をしていますが, 今回は新しい話で,

  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
    ttpooh
    ttpooh 2009/03/25
    資料だけでも激しく勉強になった。
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
    ttpooh
    ttpooh 2009/02/19
    SVDよりお得なCURの紹介。要チェック。
  • お知らせ » 『機械はどれだけ人間に近づけるのか』 ~第2回 チームラボアルゴリズムコンテスト~ - チームラボ株式会社

    2009/02/05: 『機械はどれだけ人間に近づけるのか』 ~第2回 チームラボアルゴリズムコンテスト~ 『機械はどれだけ人間に近づけるのか』 ~第2回 チームラボアルゴリズムコンテスト~ 情報があふれてる。 人間の手で一つ一つ情報を見て取捨選択することは不可能だ。 もし人間の手に代わるロボットがいたら世の中がちょっと変わるかもしれない。 人間が持つ見えないルールや思考をプログラムで実現してみたいと思わないだろうか。 それはきっと使う者を感動させ、未来をわくわくさせるだろう。 我々チームラボも常にそこに挑戦し続けたいと思っている。 そこで純粋なこの思いを満たせる場をコンテストという形で提供し、プログラマーの皆さんを応援したいと思う。 このアルゴリズムコンテストは、機械はどれだけ人間に近づけるのかというお題を通して、皆さんが日ごろ持っているアイデアを、様々な要素技術(例えば、自然言語処理

    ttpooh
    ttpooh 2009/02/07
    SPYSEEとかそれ系が期待されてるのかな。どんぐらいみんなのアイディアが広がってくのか要注目。
  • IDEA * IDEA

    ドットインストール代表のライフハックブログ

    IDEA * IDEA
    ttpooh
    ttpooh 2009/02/07
    ダンプはできないのかな?できれば超一級のコーパスになりそうだけど。
  • 予測変換APIを公開しました! - nokunoの日記

    Social IMEではWeb APIを公開していますが、昨年11月に公開したかな漢字変換APIに続き、予測変換APIを公開しました。 このAPIを使うと、たとえば次のような予測変換ができます。「はてな」で予測変換はてな はてなブックマーク はてなブック はてなダイアリー (以下略) ローマ字入力の途中での予測を行うと、このように展開されます。「わt」で予測変換私 私は 私の 私も 私が(以下略) また、長文を入力したときのかな漢字変換候補との統合にも対応しています。「きょうのてんきはは」で予測変換今日の天気は晴れ予測変換にはWebから抽出された大規模な統計量(Google提供)が用いられています。APIを活用したクライアントを開発されている方は、ぜひご利用ください。

    ttpooh
    ttpooh 2009/01/26
    Googleのn-gramを利用。
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    ttpooh
    ttpooh 2008/12/20
    すごい!エンジニアリングで批評でアートだ。/id:itaなるほど、そこがまさに「あたし彼女」がメディアとして新しいところか。
  • kizasi.jp

    This domain may be for sale!

    ttpooh
    ttpooh 2008/10/13
    マニアブロガー判別&評判分析。
  • Google翻訳が面白すぎる件 - Cozy Ozy

    Google翻訳が面白すぎる件 市販ソフトである「コリャ英和!…」を中心に翻訳性能を分析しようと思ってたのですが、Google翻訳が面白すぎるので少し脱線です。前のエントリ(http://d.hatena.ne.jp/Ozy/20080915#p2)をご覧頂いただけでると思いますが、進めていけばいくほどかわいそうになってきたので、もうちょっと文章が複雑になったところで評価対象から外そうと思います(;´д`) Mary has a guitar. コリャ英和 2009 メアリーはギターを持っています。 Google メアリーには、ギターです。 Yahoo メアリーは、ギターを持っています。 Excite メアリはギターを持っています。 ですよねー。 We played baseball. コリャ英和 2009 我々は野球をしました。 Google 私たちの野球です。 Yahoo 我々は、野球

    Google翻訳が面白すぎる件 - Cozy Ozy
    ttpooh
    ttpooh 2008/09/17
    ネタ系は知ってたが、まっとう系も酷いw/構文解析すらせず大量の対訳コーパス+パターンマッチ、とかか?forgetに"パスワード"とか着いてきちゃうのがお茶目。
  • Expired

    Expired:掲載期限切れです この記事は,ダウ・ジョーンズ・ジャパンとの契約の掲載期限(90日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

    ttpooh
    ttpooh 2008/09/11
    NY証券取引所の1/4が自動取引!見出し内の単語で判断したりするのか?さすがにそれだけだと危ういか・・・どこまで高度なことやってるのか気になる。
  • ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

    ヤフーの日語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日形態素解析Webサービス」[2007-06-18-1] で試すことができ

    ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
    ttpooh
    ttpooh 2008/08/23
    構文解析もAPIに!
  • ヤフー、かな漢字変換Webサービスを公開--MS-DOS時代に全盛の「VJE」をAPI化:ニュース - CNET Japan

    ヤフーは5月27日、「Yahoo!デベロッパーネットワーク」で「かな漢字変換Webサービス」を公開した。 Yahoo!デベロッパーネットワークは、インターネット関連の開発者向けにYahoo! JAPANの技術仕様を公開し、一部のサービスやデータベースへ無料(1日当たり5万リクエストまで)でアクセスできるサービスだ。これを使うことによって、外部の開発者はYahoo! JAPANのデータベースを活用したサービスやソフトウェアを開発することができ、ウェブ検索をはじめ、現在10分野のWebサービスを公開している。 今回公開されたかな漢字変換Webサービスは、日本語入力プログラム「VJE」(VACS Japanese Entry)をAPI化した。VJEは、もともとバックスが開発したプログラムで、MS-DOS全盛の時代には強い支持を受けたプログラムだ。バックス社は2006年6月に休眠しているが、それ以

    ヤフー、かな漢字変換Webサービスを公開--MS-DOS時代に全盛の「VJE」をAPI化:ニュース - CNET Japan
    ttpooh
    ttpooh 2008/05/28
    VJE(の人)はYahoo!に取り込まれてたんだ。/こちらも>http://ajaxime.chasen.org/
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
    ttpooh
    ttpooh 2008/05/11
    作者は東大辻井研のD3の方。/オンライン学習はほとんど知らんのでポインタとしてもうれしい。
  • TechCrunch Japanese アーカイブ » キーワードサーチは限界に到達しようとしているのか?

    Arati Prabhakar, profiled as part of TechCrunch’s Women in AI series, is director of the White House Office of Science and Technology Policy.

    TechCrunch Japanese アーカイブ » キーワードサーチは限界に到達しようとしているのか?
    ttpooh
    ttpooh 2008/04/27
    比較的primitive(かつ高精度)な技術群のハイブリッドしかないと思うけど・・・/GoogleがSBMを買収すると一気にことが進むような。
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    ttpooh
    ttpooh 2008/02/16
    あのn-gramの形態素解析自体は1日って・・・・・・・・・・。
  • Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

    This domain has expired. If you owned this domain, contact your domain registration service provider for further assistance. If you need help identifying your provider, visit https://www.tucowsdomains.com/

    ttpooh
    ttpooh 2008/02/16
    Senの改良版。
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    ttpooh
    ttpooh 2008/02/08
    文字種やそのn-gramなどをfeatureとして、Boostingによる形態素解析(と呼ばないのは品詞をつけないからか)。/Boostingだとここまでコンパクトになるのか。
  • Social IME ~みんなで育てる日本語入力~

    Xoi Lac TV – Xem Bóng Đá Trực Tiếp Hôm Nay – Xoilac TV Trực Tuyến Xoilac TV là kênh phát sóng trực tiếp các trận đấu thể thao lớn trên thế giới hoàn toàn miễn phí. Đến với Xoilac, khán giả được thỏa sức lựa chọn và theo dõi những trận đấu mà bản thân yêu thích. Ngoài ra, Xôi Lạc TV cũng cung cấp những thông tin hữu ích liên quan đến trận đấu để các bet thủ có thể dễ dàng đưa ra những nhận định chí

    ttpooh
    ttpooh 2008/01/23
    ライフログ機能はちょっと怖いな・・・