タグ

自然言語処理に関するundersteerのブックマーク (8)

  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • Information Retrieval

    ■概要 インターネットの普及と商取引の電子化,および記憶メディアの発達に伴い,蓄積されるデータは指数関数的に増加してきている.これらの大規模データベースから意図する情報を適切に抽出するために検索エンジンの利用が欠かせなくなってきている. そこで,講義では検索エンジンの活用方法から,その実現に用いられているハッシングや2分木などのデータ構造を用いた情報検索技術を学ぶ.現在,検索エンジンには属性ごとの分類が行われたディレクトリ型とキーワードによる全文検索を行うキーワード型に分類される.これらの活用方法の違いや,各々のデータベースがどのようにして構築されているのか,実際の運用方法についても述べる.データベースの更新や分散管理技術を通して,インターネット検索エンジンだけではなく,より一般的な大容量の情報検索に求められる必要条件を理解する. 更に,消費者の属性情報と嗜好傾向となどのように,項目間

  • ベクトル空間モデルで類似記事を探して表示するブログパーツ「シムエントリ」

    ベクトル空間モデルで類似記事を探して表示するブログパーツ「シムエントリ」 2008-02-22-3 [WebTool][NLP] 類似記事を表示してくれるブログパーツが公開されています。 - 【シムエントリ】記事同士でブログをむすぶブログパーツ http://se.koemu.com/ - こえむの編集後記 > ブログを記事で結ぶブログパーツ『シムエントリ』をリリース http://www.koemu.com/blog/2008/02/21/sim-entries/ ベクトル空間モデル (Vector Space Model) で、 類似文書を検索。単語の重み (term weight) は TF-IDF。 JSON API もあり。 登録したブログの RSS に含まれるエントリのみが表示対象だそうです。 まだサービス開始から間もないので、 しばらくは偏ったブログのエントリしか出てこないか

    ベクトル空間モデルで類似記事を探して表示するブログパーツ「シムエントリ」
  • ブログを類似記事で結ぶパーツ「シムエントリ」

    ブログ記事の内容を分析し、関連した話題を取り上げた別のブログの記事を表示するブログパーツ「シムエントリ」を「こえむ」さんが開発し、公開した。 ブログのRSSフィードを登録し、パーツを貼り付ければ利用できる。ベクトル空間モデルを利用し、記事中に含まれる単語について、他のブログ記事に多く含まれている順に抽出するなどして関連性・類似度を計算。元記事に内容が近い別の記事をパーツ上に表示する。 記事の関連性のみを参照するため、アクセス数や人気度などに関係なくピックアップするのが特徴。こえむさんは「『アルファブロガー』の陰に隠れつつ、良質な記事を執筆しているブロガーにもチャンスを作りたいという気持ちから開発した」と説明している。

    ブログを類似記事で結ぶパーツ「シムエントリ」
  • SLOBSERVER - L'actualité de Second Life

    VPL stands for visual programming; it is a type of language that uses graphical components such as icons, buttons, and symbols in the form of coding. This programming language allows visual illustration of the coding concept generated by the computer. This type of programming language helps non-technical users explain charts and processes in a way that most beginners can comprehend. The visual pro

    SLOBSERVER - L'actualité de Second Life
  • テキストの類似度を測る- livedoor キーワード

    1車椅子ユーザー様「伊是名夏子さんが叩かれて唖然、無人駅を無...オレ的ゲーム速報@... 2車椅子ユーザーが苦言 「伊是名夏子さんが叩かれて唖然。無人...痛いニュース(ノ∀`... 3【悲報】小泉進次郎さんの野望、ワールドクラスだった……!!...NEWSまとめもりー|... 4【悲報】令和納豆、閉店へ不思議.net 5【こまち闘病記1】ある日こまちに異変が起きたまめきちまめこニー... 6マッチングアプリのプロ「男性は面倒でもがんばって彼女に連絡...はちま起稿 7メンヘラ女とデキ婚して10年経ったハムスター速報 8おまえらの墓場まで持って行く秘密哲学ニュースnwk 9大山悠輔(神).280317打点OPS.801なんじぇいスタジア... 102年間毎日4のエナジードリンクを飲み続けた英学生のヤバすぎ...【2ch】ニュー速ク... 11【愕然】ワイの勤めてる会社やばい・・・・・

    テキストの類似度を測る- livedoor キーワード
  • http://japan.internet.com/webtech/20070523/6.html

  • [を] テキストマイニングを使う技術/作る技術

    テキストマイニングを使う技術/作る技術 2006-12-28-3 [書評・感想] テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。 全編具体的で分かりやすい。 ■那須川哲哉 / テキストマイニングを使う技術/作る技術 ―基礎技術と適用事例から導く質と活用法 テキストマイニングというと、ブログや掲示板での特定の何かの評判情報 検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって 来ている。 このはテキストマイニングを支える技術、事例紹介、技術以外の側面 (運用など)はもちろん、「テキストマイニングとは何か」ということ についても初心者にも分かりやすいよう、かなり丁寧に解説されている。 一番重要なポイントが最初の方で述べられてる。これ、大切。 [...]テキストマイニングというものは、あくまで人間が膨大な文書データ を有効活用するた

  • 1