[B! NLP] ma_koのブックマーク

GitHub - naoa/docker-termextract

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

ma_ko 2014/07/12

docker
NLP

リンク

word2vecによる自然言語処理

Tomas Mikolovらによって提案されたニューラルネットワーク（CBOW, Skip-gram）のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。著者の西尾さんによる本書の解題[リンク] はじめに 1章　word2vecを使ってみる書き換えてみよう 2章　コーパスを変えてみる text8 単語に分割する（MeCab） CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出しまとめ 3章　word2vecの生まれた理由文章の表現 4章　word2vecの仕組

ma_ko 2014/05/17

NLP

リンク

N-gramで文字列の類似度を測る

とある2つの文字列がどれぐらい似ているのかを比較するにはどうすればいいのかを調べる必要があったので、ネットで検索してみました。 perlにはString::Trigramというモジュールがあるようです。 String::Trigram でテキストの類似度を測る rubyで同じようなものが見つからなかったので、取り急ぎ作って見ました。 #!/usr/bin/ruby #類似度の比較 class String def ngram(string, part_len = 3) string = string.dup.gsub(/[\s\n　]+/u, "") strlen = string.split(//u).length points = [] source = self.gsub(/[\s\n　]+/u, "") srcarr = source.split(//u) sourcelen =

ma_ko 2013/06/14

ruby
NLP

リンク

SIGIL - R for Corpus Data

Statistical Analysis of Corpus Data with R A Gentle Introduction for Computational Linguists and Similar Creatures Course Materials – Data Sets – Exercises – SIGIL Main Page Statistical Analysis of Corpus Data with R is an online course by Marco Baroni and Stefan Evert. It is based on a number of previous courses on similar topics taught together by the authors, in particular the course on R Prog

ma_ko 2011/04/10

NLP
R

リンク

AI Ruby Plugins

AI Related Ruby Extensions This page will maintain list of AI related libraries for the Ruby programming language. Please contact me if you know something I missed. (I plan to migrate this to a wiki soon). While maintaining this list, I have induced* a theory: If a project's first public appearance is documentation without code, code will not appear before the heat death of the universe. * Induc

ma_ko 2009/10/29

リンク

増井 / 類語をみつける方法

というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したいたとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

ma_ko 2009/09/28

NLP

リンク

TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

ma_ko 2009/09/18

NLP

リンク

Tutorial Web page

チュートリアル資料茶器関連のチュートリアルの資料置場です。 2009-09-30,2009-10-01「自然言語処理技術」講習会実施内容 2009-09-30 『Mecab/CaboChaを用いた形態素解析・係り受け解析』『「茶器」によるコーパス管理・検索』松本裕治、岩立将和、工藤拓講習会資料 2009-09-30.zip zip ファイル 2009-09-30/ ディレクトリ（2009-09-30.zipの個別のファイルが見られます） 2008-09-08,09,10「自然言語処理技術」講習会実施内容 2008-09-09 『「茶器」によるコーパス管理・検索』岩立将和講習会資料 2008-09-09.zip zip ファイル 2008-09-09/ ディレクトリ（個別のファイルが見られます） 2007-09-03,04,05「自然言語処理技術」講習会実施内容 2007

ma_ko 2009/09/16

NLP

リンク

株式会社Yostar

最新情報プレスリリース2019.08.01 『アズールレーン』が第３回全国エンタメまつり「ぜんため」に初出展いたしますプレスリリース2019.07.12 『コミックマーケット96』企業ブースに出展決定！プレスリリース2019.04.25 対戦型麻雀ゲーム『雀魂』WEB版のサービスを開始いたしました MORE

ma_ko 2009/08/30

naist-jdic以外にも、はてなキーワード、Wikipedia日本語タイトルをいれてる

NLP
MeCab

リンク

マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

ma_ko 2009/07/02

リンク

Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な