タグ

nlpに関するmonolithのブックマーク (24)

  • C2cube、文脈分析するブログ検索のAPIを公開へ - CNET Japan

    C2cubeはブログでの好感度を判別できる検索エンジンのAPIを公開し、12月22日から企業向けに提供する。企業はブログの書き込み内容に合致した広告を配信するサービスなどを、独自に開発できるようになる。 独自開発のブログ検索は検索結果の精度が高く、ビジネス展開できると判断したためで、ブログの内容に合わせた情報を提供することでビジネス展開したいと考える企業に対し、その中核機能として提案する。 これまで、ブログの内容に合わせた情報提供サービスが検討される一方、書き込みの文脈に合致しない情報が反映される問題があり、ビジネス展開が格化しないという側面があった。 ブログの書き込みなどの文章解析はこれまで、「形態素解析」と呼ばれる単語の意味をベースとする解析手法が主流だった。同社はこれとは別に、助詞を軸に単語の“係り受け”を重視して文脈を解析する「機能素解析」を開発。C2cubeの独自開発である「B

    C2cube、文脈分析するブログ検索のAPIを公開へ - CNET Japan
  • zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

    エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム 適当な文章を入力してください。 注意点 サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に

  • 図録▽世界の言語別インターネット人口

    世界のインターネット人口(online population)を使用言語別に再集計したデータをGlobal Reachのホームページから紹介する。実生活上の世界の言語人口ランキングは図録9453。 世界のインターネット人口は、2003年末に、世界人口の11.5%にあたる7億3千万人だったが、そのうち、英語圏が2億9千万人と約4割を占めていた。総人口に占める比率は、英語圏では、56.6%であった。 この段階で、すでに、インターネット人口が次ぎに多いのは中国語であり、人口比率(普及率)は11.7%とまだ低いが母数が大きいので、オンライン人口は1億人を越えた。 少し驚くのは、第3位の言語は、日語だということだ。普及率が英語圏並みなのでオンライン人口は7千万人に達し、スペインの他、中南米諸国など言語使用国が多く、人口も多いが普及率がそれほどでないスペイン語圏を上回っている。 対象となった言語は、

  • コンテンツ連動広告で稼ぐ人々(1) - MFAサイトとは?:渡辺隆広のサーチエンジン情報館 - CNET Japan

    コンテンツ連動広告で稼ぐ人々(1) - MFAサイトとは? 公開日時: 2006/11/13 13:01 著者: 渡辺隆広 ここ最近、Googleがアドワーズ広告(検索ネットワーク/コンテンツネットワーク)における広告主の最小入札価格を決める「品質スコア(Quality Score)」に、ランディングページ評価判断の要素を加えて、かつ、その品質評価を改善しています。ほとんどの広告主にとって実質的な影響はないのですが、そもそもなぜ、Googleはランディングページの品質判断を行っているのでしょうか。それはMFA(Make for Adsense)サイトの排除に関係があると言われています。今回はこのMFAについて解説をします。 MFAとは、Googleアドセンス広告(あるいは、その他コンテンツに連動するクリック課金方広告)で稼ぐこと「のみ」を目的に開設されたサイトを指します。サイトに

  • アメリカ歴代大統領のスピーチをタグクラウド化

    範囲は1776年から2006年まで。例えば今のブッシュ大統領のスピーチをタグクラウド化すると、最も頻出の単語は「terrorists」だというのが一目瞭然。非常に世相を反映した結果が出てきます。 詳細は以下の通り。 US Presidential Speeches Tag Cloud - Chirag Mehta : chir.ag 右上のスライダーを動かすと年代を移動できます。これは初期状態。 クリントン大統領の場合。 ブッシュ大統領のお父さんの場合 レーガン大統領の場合 ジョンソン大統領の場合……なるほど。 ケネディ大統領はこうなります ルーズベルト大統領の場合 もうちょっと前だと同じ大統領のスピーチでも違ってきます 誰かこれの日の歴代首相版とか作ってくれませんか……。

    アメリカ歴代大統領のスピーチをタグクラウド化
  • Ajax IME ブックマークレット

    Ajax IME ブックマークレットを作ってみました.右クリックしてブックマークに登録してみてください. Ajax IME ブックマークにアクセスするだけで現在表示しているページにある textarea と inputbox が Ajax IME 経由で入力可能になるはずです.成功すれば2秒ほどで textarea の色が変わって Ajax IME 入力状態になります.Alt-O で元に戻ります. たいていはうまくいくようですが,まだまだ完璧ではなくて CSS がらみから入力のカーソル位置が激しくずれたり,javascript のイベントがフックできなくて変化なしといったことが頻発します.気長に修正していくつもりですが,みなさんのフィードバックお待ちしております. Mixi の日記投稿や Movable Type の投稿も若干癖がありますが問題なかったです.海外からの日記更新がかなり楽にな

  • Ajax IME: Web-based Japanese Input Method

    Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日語を入力す ることができます。 特別なソフトは必要ありません。 使い方 お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。 再度 Alt-o (Ctrl-9)で直接入力に戻ります 海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が 無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま

  • [を] MECAPI (MeCab API) 暫定版を公開

    MECAPI (MeCab API) 暫定版を公開 2006-09-18-1 [WebTool][NLP][MECAPI] taku-ku 氏による日形態素解析器 MeCab の Web Service を 作ってみたので公開します。その名も MECAPI (メカピ)! - MECAPI - MeCab Web Service (MeCab API) http://mimitako.net/api/mecapi.cgi Perl の MeCab モジュールを使っています[2006-02-25-4]。 仕様は今後変わっていく可能性あり。 また、サーバ負荷によっては予告なく止めることもあり。 同一 IP からの回数制限とかするかも。 とりあえずしばらく様子を見て、落ち着いたらソースを公開します。 でもって、余裕のあるサーバに置いてもらいたいと思っています。 現段階で、

  • [を] 裏で形態素解析器を使い長い文をそのままキーとしてWeb検索する

    裏で形態素解析器を使い長い文をそのままキーとしてWeb検索する 2006-09-17-1 [YahooHacks][NLP] 今回の YahooHacks は、 長い文を検索キーとしてWeb検索をするというハックです。 一年前の検索会議[2005-09-30-3]で紹介しましたが、 今回ゼロから書き直しました。 サンプルコードが長くなってしまってすいません…。 (一時的にデモを置いておきます。そのうち消えます。ご了承下さい。 http://nais.to/~yto/tmp/yahoohacks-samp/hack_sentence.cgi 検索例:SEOの10ステップと...←うろ覚えタイトル ) ■■■長い文をそのまま検索キーとして Web 検索する どこかからコピペしてきた長い文をそのまま Yahoo! で検索しても ヒットしないことが多いです。 そういう場合

  • PENTAX 製品紹介:音声ソリューション

    いつも「ペンタックス音声合成ソフトウェア」のWEBサイトを ご利用いただきまして誠にありがとうございます。 WEBサイトのアドレスが変更となりましたのでお知らせ致します。 大変お手数ですが、下記の新アドレスからのご利用をお願い致します。 新アドレス 「 http://voice.pentax.jp/ 」 今後とも「ペンタックス音声合成ソフトウェア」を宜しくお願い致します。

    monolith
    monolith 2006/08/28
    すばらしい!
  • 羊堂本舗 脳ざらし紀行 (2006-08-17)

    _ 日語と n-gram でも Zipf の法則は成り立つか Zipf の法則というのは以下のようなものです。英語で書かれた長編小説を用意します(小説でなくてもいいんだけど)。そして、文中に出てくる英単語を頻度順に並べます。すると、第2位の単語の頻度は第1位の単語の頻度の半分になります。第10位の単語の頻度は第1位の単語の頻度の1/10です。第100位の単語の頻度は第1位の単語の頻度の1/100です。そんな感じの法則です。リンク先にもあるように対数グラフにプロットするときれいな直線になります。 さて、Zipf の法則は日語に対して当てはまるでしょうか。とはいっても、日語は英語みたいに単語毎に区切ることが簡単ではないので、ここでは n-gram を使います。2文字毎に文を区切って、その2文字を単語だと思って頻度を数えます。ひらがなと漢字だけを対象にしました。日語のデータとしてはこの

  • 統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発

    語意味解析エンジンを開発するSematicsは6月15日、統計的確率論を用いた言語解析エンジン「Perceptron Engine」を開発したと発表した。統計的確率論を用いた日語解析エンジンは「世界初」(同社)という。 Perceptron Engineは「形態素解析」、「構文解析」、「文脈解析」、「意味解析」の4つの解析処理によって構成される。従来の言語解析技術は、辞書によるデータのマッチングにより処理されていたため、データ容量が膨大で、その処理に多大な時間を要した。一方、Perceptron Enginesは大規模な辞書を用いないため、少ないメモリやディスク容量でも高速処理が可能で、500文を1秒で解析できるという。 形態素解析とは、文章を形態素と呼ばれる、意味を持つ語句の最小単位まで分割して解析するもの。各語句を品詞単位、動詞や形容詞といった活用語句の場合はその活用形ごとに解析

    統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発
  • http://www.newswatch.co.jp/consul/textmining.htm

  • http://staff.aist.go.jp/tanaka-akira/textprocess/

  • http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/suri-GJK/syllabus.html

  • MeCabとPythonでマルコフ連鎖を書いてみる(連鎖数2) ― Weboo! Returns.

    This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

    MeCabとPythonでマルコフ連鎖を書いてみる(連鎖数2) ― Weboo! Returns.
    monolith
    monolith 2006/05/09
  • きまぐれ日記: MeCab を使って N-gram を取り出す。

    Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなってきました。正確には文字 n-gram ですが、(単語 n-gramとの対比) ようするに、テキスト中の n 以下までのすべての部分文字列を取り出して index に使う処理のことを言います。 n-gram の取り出しは、すごく簡単で、プログラミングしてもたいした量にはなりませんが、ここはあえて MeCab だけでやってみたいと思います。 まず、mecab-0.91 (src/tokenizer.cpp) に以下のパッチを当てます。(もしくは最新の CSVからソースを拾ってきます) 実際この記事を書くにあたって見つけたバグです。 4c4 < $Id: tokenizer.cpp,v 1.13 2006/05/03 07:56:28 taku-ku Exp $; --

    monolith
    monolith 2006/05/03
  • [を] キーワード抽出モジュール Lingua-JA-Summarize

    キーワード抽出モジュール Lingua-JA-Summarize 2006-04-26-2 [Programming][NLP] Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php サイボウズラボの奥一穂さんによるキーワード抽出を行うPerlモジュール。 形態素辞書にある単語コスト(解析に使用するやつ)を TF-IDF っぽく使っ てキーワード抽出する手法。手軽にさくっと使えて非常に良い感じです! これを使っていろいろアサマシいことなどもやってみようかと思います! 以下、コピペしたら動くサンプルです。threshold がデフォルトのまま の値だとキーワードが抽出されないことがあるので、1 にしています。 #!/

  • NOT FOUND 404 - JT生命誌研究館

    大変申し訳ございません。 お客様がアクセスしようとしたページが見つかりませんでした。URLが変更または削除されたか、もしくは使われていない可能性があります。 お使いのブラウザの「更新」、「再読み込み」などのボタンを使用して再度ページの読み込みを行ってもこのページが表示される場合は、お手数ですが次のいずれかの方法でお探しください。

  • GREE Labs -オープンソーステクノロジー勉強会 第2回 ―開催のご報告―

    404 お探しのページは見つかりません GREE Engineering トップへ戻る

    GREE Labs -オープンソーステクノロジー勉強会 第2回 ―開催のご報告―