タグ

自然言語処理に関するkyuu3908のブックマーク (7)

  • 自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei

    自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―質を見抜いたアルゴリズムとデータ構造 まずはこれ。有名ななので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか?最小の労力で解決するにはどこをいじればよいのか?などが書いてある。「webサービスで自然言語処理だ!」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(

    自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei
  • 403 Forbidden

    \閉鎖予定のサイトも売れるかも?/ アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう

  • 自然言語処理 悪魔の辞典

    言い換え (paraphrase) 都合の悪いことを別の表現でごまかすこと。物は言い様。 例: 「わがまま→自分の意思をしっかり持っている人」 「不潔→ワイルド系」「くだらない研究→興味深い研究」 「役に立たない研究→基礎研究」 意味論 (semantics) 意味論の意味は意味論の意味論によって定義される。 SVM (support vector machine) ポスト決定木の最右翼。決定木を参照のこと。 エラー率 (error rate) 精度の向上が芳しくないときに用いる。精度が 0.01 % 上がりま した、と言わずに、エラー率が 5%下がりました、と言うとよい。 機械学習 (machine learning) 自己の学習をあきらめた人間の最後のよりどころ。 形態素解析 (morphological analysis) 文を形態素に分割すること。形態素が何であるかは永遠の謎。 決

  • TTM: TinyTextMiner β version

    はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。 また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。 インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。

  • 文書クラスタリングの基礎

    文書クラスタリングの基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report No. 20070913004 2007年 4月 24日 Abstract 文書クラスタリングでは,文書の定義,クラスタリングに用いる類似度の定義,クラスタリング手法などに特徴的な点がある.そこで報告ではそれらをまとめ,文書クラスタリングに対する理解を深める. 1  はじめに 知的システムデザイン研究室では,ISDLレポートと呼ばれる研究報告を現在までに1300以上Web上に公開している.多くのレポートが存在するが,レポートの分類は行われていないため,クラスタリングにより自動的にレポートのグループ化を行うことを目指している.しかしISDLレポートのような文書に対するクラスタリングではいくつか特徴的な事項があり,それらを考慮する必要がある.そこで報告では文書クラスタリングに関する特徴点をまと

  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究

  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 1