[B! 自然言語処理] tvskのブックマーク

なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか？ - あんちべ！

件名：主人がオオアリクイに殺されて1年が過ぎました。差出人：久光いきなりのメール失礼します。久光さやか、29歳の未亡人です。お互いのニーズに合致しそうだと思い、連絡してみました。自分のことを少し語ります。昨年の夏、わけあって主人を亡くしました。自分は…主人のことを…死ぬまで何も理解していなかったのがとても悔やまれます。主人はシンガポールに頻繁に旅行に向っていたのですが、それは遊びの為の旅行ではなかったのです。収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。一年が経過して、ようやく主人の死から立ち直ってきました。ですが、お恥ずかしい話ですが、毎日の孤独な夜に、身体の火照りが止まらなくなる時間も増えてきました。主人の残した財産は莫大な額です。つまり、謝礼は幾らでも出きますので、私の性欲を満たして欲しいのです。お返事を頂けましたら、もっと詳

tvsk 2014/06/16

スパムフィルター

リンク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。

tvsk 2014/03/13

KhCoderのプラグインとしてパッケージされている。専門用語の自動抽出

自然言語処理

リンク

[連載]フリーソフトによるデータ解析・マイニング第61回統計的テキスト解析(6)～語のネットワーク分析～

[連載]　フリーソフトによるデータ解析・マイニング　第61回統計的テキスト解析(6)～語のネットワーク分析～ 1．ネットワーク分析とはネットワーク分析は、社会学や通信ネットワークなどの分野で多く用いられている。数学のグラフ(Graph)理論に基礎を置いている。したがって、分野によってはグラフ分析とも呼ぶ。ネットワークは、頂点(V: Vertex)と辺(E: Edge)を基本構成要素とする。頂点を「点」「ノード」、辺を「線」とも呼ぶ。ネットワークは、線で点と点の関係を示す。線が方向性を持つグラフを有向グラフ(Directed Graph)、線が方向性を持たないグラフを無向グラフ(Undirected Graph)と呼ぶ。図１に、有向グラフと無向グラフの例を示す。

tvsk 2014/03/12

グラフの概念とハンドリングの初歩から、指標の解説まで。

リンク

統計ソフトRのブログ共起性尺度

共起尺度について説明します。共起とは、まさにある一組の「共に起きる」程度を表したものです。例えば、 amazonで本を検索するときに、この商品を買っている人は、この本も買っていますと紹介されますが、それは、過去の購買データから、共起が高い商品を勧めているのです。共起尺度として、主なものは、共起頻度、Jaccard係数、Simpson係数、コサイン距離があります。これらの指標について、「X」と「Y」という一組の共起性がどう測られるか示します「X」と「Y」の単独での出現数を|X|、|Y|、どちらか一方が出現した回数を|X∪Y|、両方が出現した回数を|X∩Y|とします。 A)共起頻度共起の回数であり、 |X∩Y|で計算される。 B)Jaccard係数どちらかが出現したうち、何回同時に出現するかで、 |X∩Y|/|X∪Y|で計算される C)Simpson係数 Jacc

tvsk 2014/03/12

単語の共起に関する各種指標の解説とサンプルコード。Jaccard係数、Simpson係数、コサイン距離

自然言語処理

リンク

自然言語処理ツール

自然言語処理の研究で役立つツールを集めてみました。音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法（Knese

tvsk 2013/03/15

地図、一覧

自然言語処理

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

tvsk 2013/03/15

jeitaでPOSタギングするコードサンプル。python

リンク

NLTKで日本語コーパスを扱う方法 - nokunoの日記

オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています．Python による日本語自然言語処理というわけで，NLTKで日本語でコーパスを扱う環境を整えました． NLTKのインストール公式サイトを見ながらインストールする．最新版はNLTK2.0で，オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています．Download - Natural Language Toolkit Mac OSXの場合はPortでもインストールできるらしいのですが，うまくいかなかったのでパッケージをダウンロードしました．コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします．$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注

tvsk 2013/03/15

jeitad

自然言語処理

リンク

形態素解析の茶筅

ChaSen -- 形態素解析器はじめに形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布ダウンロードあらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書（奈良先端大より公開予定） NAIST-Chinese-dic 中国語語辞書（奈良先端大より公開予定）著作権および仕様条件について茶筌システムは，広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである．茶筌の著作権は，奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する．本ソフ

tvsk 2012/07/28

chasen. 形態素解析ツール。奈良先端技術大学大学院. 増井本で紹介あり

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

自然言語処理に関するtvskのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス