[B! 自然言語処理] oichのブックマーク

oich id:oich

自然言語処理に関するoichのブックマーク (22)

日本語 Wordnet
oich 2019/07/08
日本語

自然言語処理

NLP

resource

データ
リンク
[Python]機械学習などでテキストデータを特徴量にする際のソースコード集 – かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストテキストデータの特徴量化について仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。（2019/08/18 追記）Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。アプローチテキストデータを特
oich 2019/06/24
テキスト

自然言語処理

python

NLP

データ
リンク
素人の言語処理100本ノック:まとめ - Qiita
言語処理100本ノック 2015の挑戦記録のまとめです。これは言語処理100本ノック 2020の挑戦記録ではありません。古い2015年版が対象です。ご注意ください挑戦した環境 Ubuntu 16.04 LTS ＋ Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。（問題00と問題01だけはPython 2.7です。）第1章: 準備運動テキストや文字列を扱う題材に取り組みながら，プログラミング言語のやや高度なトピックを復習します．投稿へのリンク主に学んだこと、コメントで教えていただいたことなど
oich 2017/05/19
自然言語処理

python
リンク
言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
oich 2017/05/19
データ

データ分析

自然言語処理

機械学習

python

プログラミング
リンク
自然言語処理における前処理の種類とその威力 - Qiita
自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ
oich 2017/04/17
前処理

自然言語処理

プログラミング

テキスト
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
oich 2014/11/04
python

日本語

自然言語処理

NLP
リンク
R言語で自然言語処理〜第2次安倍内閣施政方針演説 - Qiita
- 5 users
- qiita.com
- 学び
(1) 準備: MeCabのダウンロード & インストールを済ませておく。 (URL) https://code.google.com/p/mecab/downloads/list ※ 2014年5月19日現在 (2) テキストデータ準備:（歴代内閣施政方針演説）首相官邸サイトから、手でエディタにコピー&ペースト (URL)http://www.kantei.go.jp/jp/noda/statement2/index.html" class="autolink">http://www.kantei.go.jp/jp/noda/statement2/index.html">http://www.kantei.go.jp/jp/noda/statement2/index.html ※ 節番号や、節の表題、冒頭の空白文字を削除【ファイル名】 siseihousin.AbeCabine
oich 2014/07/18
R

MeCab

自然言語処理

テキスト
リンク
都立大自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍
自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。（概要）自然言語処理（放送大学出版）（理論）言語処理のための機械学習入門＋深層学習による自然言語処理（実装）Python 機械学習プログラミング第3版自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。（数式なし）自然言語処理の基本と技術（数式あり）自然言語処理（放送大学出版）オライリーから出ている「入門自然言語処理」は特殊な本（詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない）で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。（それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応
oich 2014/02/22
自然言語処理

テキストマイニング

本

まとめ
リンク
LinuxBuildInstructions - mozc - How to build Mozc on Linux - Project Hosting on Google Code
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
oich 2012/01/27
google

自然言語処理

IME

日本語入力
リンク
自然言語処理にはやっぱりPythonがいちばん - nokunoの日記
Quoraで「自然言語処理に適したプログラミング言語はどれか？」という質問をしたところ，やっぱりPythonが一番人気のようです．What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ（re）が強力だからnumpyとscipyがあるからスクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるからまた，機械学習のライブラリを言語別にまとめた質問もありました．こちらもJava, Python, Rが多いですね．Which programming language has the best repository of ma
oich 2011/08/20
自然言語処理

python

ライブラリ
リンク
自然言語処理
oich 2011/03/01
自然言語処理

資料
リンク
Catalogue of Language Resources and Tools in Japan
[形態素解析器] [パーザ] [ツール(その他)] 新聞記事毎日新聞CD-ROM 毎日新聞CD-ROM (1991年) 毎日新聞CD-ROM (1992年) 毎日新聞CD-ROM (1993年) 毎日新聞CD-ROM (1994年) 毎日新聞CD-ROM (1995年) 日経新聞CD-ROM 日経産業・金融・流通新聞CD-ROM 読売新聞CD-ROM (邦文記事) 読売新聞CD-ROM (英文記事) 朝日新聞CD-ROM 注釈付きコーパス RWCテキストデータベース RWC-DB-TEXT-94-1 RWC-DB-TEXT-94-2 RWC-DB-TEXT-95-3 RWC-DB-TEXT-96-2 RWC-DB-TEXT-97-1 CRL-DB-TEXT-97-1 EDR日本語コーパス EDR英語コーパス京都テキストコーパス JEITAマルチモーダル対話コーパス
oich 2011/01/13
自然言語処理

まとめ
リンク
言語情報処理ポータル
IWSLT 2008 (International Workshop on Spoken Language Translation) (2008/10/20-21, Hawai'i, USA) AMTA 2008 (The 8th Biennial Conference of the Association for Machine Translation in the Americas) (2008/10/21-25, Hawai'i, USA) JEITA 知識情報処理技術に関するシンポジウム「先端Web技術は企業を変えるか」 (2008/10/23, ベルサール神保町, 東京) EM NLP 2008 (Conference on Empirical Methods in Natural Language Processing) (2008/10/25-27, Hawai'i, USA
oich 2011/01/12
自然言語処理

まとめ
リンク
MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)
本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)
oich 2011/01/07
自然言語処理

tfidf

sql
リンク
「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。（アドレナリンの放出音）数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。も
oich 2008/11/25
テキストマイニング

自然言語処理
リンク
言語工学研究所
言語工学研究所のホームページです。日本語処理、PDF関連製品
oich 2008/11/07
自然言語処理

形態素解析
リンク
http://www.gengokk.co.jp/koubun/
oich 2008/11/07
自然言語処理

形態素解析
リンク
ツールの紹介
LinuxまたはWindows上で動く自然言語処理のツールや，Web上で実際にすぐに試せるツールを紹介しています．実際に触ってみてくださいね．紹介するツールは随時増やしていきます． Web上ですぐに試せるツールここで紹介するツールはどれも，インストール作業不要でWeb上ですぐに試せるツールばかりです．気軽に試してみてください． Ajax IME, Sumibi.org 海外でインターネットカフェに行ったとき，メールを読むことはできても，日本語を入力することができなくて困ったことはありませんか？こんなときは，どちらかのサイトを使ってみてください．Webの技術を利用することにより，仮名漢字変換のソフトが入っていなくても日本語を入力できます．専門用語（キーワード）自動抽出サービス「言選Web」専門的な文書から専門用語をピックアップしてくれます．東京大学の中川裕志先生の開発
oich 2008/10/03
自然言語処理

テキストマイニング
リンク
TreeTagger
The TreeTagger can also be used as a chunker for English, German, French, and Spanish. The tagger is described in the following two papers: Helmut Schmid (1995): Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland. Helmut Schmid (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International C
oich 2008/10/03
自然言語処理

ツール

テキストマイニング
リンク
テキスト解析:日本語係り受け解析API - Yahoo!デベロッパーネットワーク
指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
oich 2008/08/21
形態素解析

自然言語処理

webサービス

yahoo
リンク
1 2 次のページ