タグ

自然言語処理に関するe-kurodaのブックマーク (2)

  • ブログを記事で結ぶブログパーツ『シムエントリ』をリリース | こえむの編集後記

    ブログの記事同士を結ぶブログパーツ『シムエントリ』を作りました。 このブログでも20日の未明から各エントリの文末で稼動しています。 【シムエントリ】http://se.koemu.com/ ■どんなサービスか? このサービスに登録いただいたブログを対象に、自ブログの記事と近い内容の記事を、エントリごとにリストアップするブログパーツです。 基はブログパーツとしての提供ですが、JSON形式のデータを返すAPIもあわせて実装しています。 ■用途の例 「自分の書いたエントリは、ほかの人はどのように書いているのかを知りたい。」 「自分のブログへ、同じ興味を持った方により多くを訪ねてもらえるようにしたい。」 「読者として、類似のエントリをたどってより知識や興味を深めていきたい。」 主に上記の用途を想定しています。 これから、サブタイトルを『記事同士でブログをむすぶブログパーツ』としました。 ■システ

    ブログを記事で結ぶブログパーツ『シムエントリ』をリリース | こえむの編集後記
  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
  • 1