タグ

ブックマーク / www.drk7.jp (2)

  • JavaScript で Windows 機種依存文字を置換するスクリプト

    仕事Windows の機種依存文字を代替文字へ置換するスクリプトを書くことになりました。 そんなの書くの面倒くさいのでとりあえずググって見たんだけど、イマイチこれが見つかりません。文字コードの変換じゃぁなくて代替文字への置換なんて要求はそもそも皆無に等しいのか・・・と感じてしまったけど、まぁいいや。 しかも当は Perl 側でやりたかったんだけど、正規表現でパパッとやってしまおうとしたら、余計なところまでマッチングされてしまって、どうにもうまくいかない・・・。真面目に1byteずつ比較するしかないの?これ? あぁ・・・よく考えたら perl のスクリプトを euc で書いてたからだ。今 utf8 で保存し直したら上手くいったわ。 まぁ考えるのも面倒くさかったので JavaScript で実装してブラウザ側で処理させちゃうことにしました。JavaScript は内部処理が unicod

  • Yahoo! のキーフレーズ抽出 API の使い道を軽く考えてみた

    先日ですが Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出 なる API が公開されました。 この API を駆使すれば個人でも Google AdSense のようなコンテンツマッチ広告すらできちゃいそうなシロモノです。この手の技術に興味がある僕からすれば、コンテンツマッチ技術の根幹の技術を、よくもまぁ無料の API で公開したものだなぁ〜 Yahoo! って太っ腹だなぁ〜と唯々感心するばかりです。 さて、どうせなので、コンテンツマッチの技術についてもう少ししゃべってみます。 基的に”とあるページ”にコンテンツマッチの”何か”を表示するロジックはこんな感じ。 ”とあるページ"(解析対象)”の html を取得 html 全体から文抽出 特徴語抽出(キーフレーズ抽出) 特徴語をベースに”表示する何か”を類似度順にソート(例えばコサイン距離とか) ”とあるペ

  • 1