タグ

apiと自然言語処理に関するbasiのブックマーク (4)

  • キーフレーズ抽出API の紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、日語処理技術部の阿久津剛之です。 Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。 キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。 例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、 「東京ミッドタウン」「青山一丁目駅」「15分」 という結果が返ってきます。 ここで、「青山一丁目駅」に注目してみましょう。 「青山一丁目駅」は、日形態素解析APIを用いて解析すると、 青山 / 一 / 丁目 / 駅

    キーフレーズ抽出API の紹介
  • twitter検索/ジャンル推定API

    使い方: テキストのジャンル推定してラベリングする。500文字以降削除、twitterログから学習。ラベルは予告無く更新される。 ラベル一覧 API: JSON,JSONPによる出力に対応しています。回数制限はありません。興味をもたれた方は常識的な範囲で使ってください。 JSON : http://pcod.no-ip.org/genre?...&json JSONP : http://pcod.no-ip.org/genre?...&json=handler

  • ohmm(オンラインEMによるHMM学習)をリリースしました - DO++

    Ohmm-0.01をリリースしました [Ohmm 日語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。 使う場合は、単語(アクセス履歴とかなんでもよい)に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報(DNA)といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。 ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法(スケーリング、スパースな期待値情報の管理)もいれているので、そこそこ高速に動きます 速度的には100万語、隠れ状

    ohmm(オンラインEMによるHMM学習)をリリースしました - DO++
  • ルビ振りAPIで漢字混じり日本語文をひらがな文に変換

    ルビ振りAPIで漢字混じり日語文をひらがな文に変換 2008-11-19-2 [Programming][NLP] Yahoo!デベロッパーネットワークの「ルビ振りAPI」の簡単な解説とサンプルプログラムの紹介を、先日の記事[2008-10-11-2]で行いました。 今回は、別なサンプルプログラムとして、漢字混じりの日語文を平仮名だけの文に変換するプログラムを紹介します。 - Yahoo!デベロッパーネットワーク - テキスト解析 - ルビ振り http://developer.yahoo.co.jp/jlp/FuriganaService/V1/furigana.html ルビ振りWebサービス 漢字かな交じり文に、ひらがなとローマ字のふりがな(ルビ)を付けます。 で、詳細ははぶいていきなりコードです。 言語は Perl です。 XML::Simple の性質上、若干バッドノウハウが

    ルビ振りAPIで漢字混じり日本語文をひらがな文に変換
  • 1