タグ

apiとtextに関するk_37toのブックマーク (5)

  • Yahoo! のキーフレーズ抽出 API の使い道を軽く考えてみた

    先日ですが Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出 なる API が公開されました。 この API を駆使すれば個人でも Google AdSense のようなコンテンツマッチ広告すらできちゃいそうなシロモノです。この手の技術に興味がある僕からすれば、コンテンツマッチ技術の根幹の技術を、よくもまぁ無料の API で公開したものだなぁ〜 Yahoo! って太っ腹だなぁ〜と唯々感心するばかりです。 さて、どうせなので、コンテンツマッチの技術についてもう少ししゃべってみます。 基的に”とあるページ”にコンテンツマッチの”何か”を表示するロジックはこんな感じ。 ”とあるページ"(解析対象)”の html を取得 html 全体から文抽出 特徴語抽出(キーフレーズ抽出) 特徴語をベースに”表示する何か”を類似度順にソート(例えばコサイン距離とか) ”とあるペ

  • ツッコめ!全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな

    みんな、[Senna-dev 884]のメールは読んだかな!? 全文検索エンジンSennaの新しいAPIについての素案がついに公開されました。 今までのAPIのほとんどを刷新するという 大改造!劇的ビフォーアフター的API群です(APIの匠)。 んで、この新しいAPI群で何ができるようになるのでしょうか。 簡単に言うと、 「Sennaは、データベースになります!」 といいつつも、全文検索機能を充実させるために、 データベース的機能を強化した、という感じになっておりますぞ。 データベース機能 新しいSennaでは、複数のテーブルというものを持つことができます。 テーブルは、複数のレコードを持つことができます。 レコードは、複数のカラムを持つことができます。 カラムは、ある型のデータを保持します。 一般的なRDBMSの2次元表をまずはイメージしてください。 ポイント1. レコードごとにカラムが

    ツッコめ!全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな
  • Yahoo!のAPIを利用してマルコフ連鎖で文章生成(php)

    形態素解析→マルコフ連鎖で文章生成のサンプル2007です。 前に書いたやつはchasenを使ってましたが、今回はYahoo!APIの 日形態素解析Webサービスを利用するサンプルコードです。 幅広い環境で使えるようにPEARのライブラリとかバージョン依存する関数とか使ってません(多分) あと、応用しやすいように冗長に書いてる部分とか、Errorチェックが抜けてる部分がありますが気にしないで下さいw 実行結果が見れるサンプルもおいときますね // 解析したい文章 $text = "はじめまして、こんにちは、わたしはLanタソです\nこんにちはこんにちは!!ぼくはまちちゃん!"; $text = str_replace("\n", "。", $text); //改行を適当に。にでも変換しる //API用パラメーター $params = array( 'appid' => '**

  • api.satoru.net

    ホームCodereaderLIbre softwarekatyushaシンガポ問合せ 東京ノースサイドブログ東京ノースサイドブログへようこそMore PostsKeePass2とSeaFileOSMFJ社員総会OmegaTで英辞郎辞書をつかう(最新情報)OpenStreetMap WikiをOmegaTで効率的に翻訳する方法HikingでOpenStreetMapを活用なんという事でしょう!!投稿のしかたすら忘れた・・・のか??放置している間に何をしてたかというと別のサイト作ってましたFilezilla on UbuntuがFTPSでエラー/パッチ投稿あなたの活動レベルはどんなレベル? 最高のチーム ×要求されたテームは見つかりませんでした。

  • [を] 指定した URL へのリンクのアンカーテキストを収集する

    指定した URL へのリンクのアンカーテキストを収集する 2006-09-12-1 [YahooHacks] 今回の YahooHacks は「アンカーテキストの収集」です。 とはいえ、文字コードにはまったー! 「./hack_anchor.pl http://www.yahoo.co.jp/」を実行すると、 「UTF-16LE:Malformed LO surrogate dab3 at /usr/lib/perl/...」 などと怒られて落ちるのですが(環境によって異なるみたい…)、 これを skip するにはどうしたら良いのでしょうか? とりあえず、decode のところを eval してみました…。 ■■■あるページへのリンクのアンカーテキストを収集する 同じページを指すハイパーリンクのアンカーテキストにはいろいろと バリエーションがあります。 例えば、 ht

  • 1