[B! *algorithm][*program][NLP] [2ページ] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとprogramとNLPに関するsh19910711のブックマーク (39)

日本語評価極性辞書を利用したPython用Sentiment Analysisライブラリ oseti を公開しました - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
sh19910711 2021/03/20
*algorithm

NLP

*program

python
リンク
日本語単語ベクトル"chiVe"をgensimやMagnitudeで使う
TL;DR chiVe (チャイブ): 日本語単語分散表現形態素解析器「Sudachi」と 258億語規模コーパス「NWJC」 Apache-2.0, 商用利用可 gensimやMagnitude形式でもデータ公開 Magnitude: 分散表現を使うPythonライブラリ「gensim」のシンプルで速い代替ライブラリ未知語のベクトル作成 HTTP上でのリモートロードやストリーミング from pymagnitude import Magnitude, MagnitudeUtils # ダウンロード # デフォルトのダウンロード先: `~/.magnitude/` vectors = Magnitude(MagnitudeUtils.download_model("chive-1.1-mc90-aunit", remote_path="https://sudachi.s3-ap-n
sh19910711 2021/03/10
*algorithm

NLP

rep

*program

python
リンク
Domain error
Domain error Failed to resolve DNS path for this host
sh19910711 2021/03/06
*algorithm

NLP

*program

python
リンク
何もない所から一瞬で、自然言語処理と係り受け解析をライブコーディングする手品を、LTでやってみた話 - Qiita
要約超高精度自然言語処理＆係り受け解析を実施するGiNZAがすごくて、 Colaboratoryにより環境構築不要でブラウザだけでサクッと使える。そのサクッと感を強調すべく、LT（ライトニングトーク）の最中にその場で環境構築＆コードを書いて自然言語処理、しかも高精度＆高機能ができるよ、という「手品」をやってみた。一見スゴイが「手品」にはタネがあって・・・。という話をする。最後まで読むと、以下の二つのノウハウが分かる・GiNZAで、ゼロから３分で高精度自然言語処理する方法・LTでライブコーディングする手品のタネ背景①： GiNZAすごいっ！ 2019年4月に発表された「GiNZA」という、日本語自然言語処理オープンソースライブラリを動かしてみたら、簡単に高精度で（超重要）、係り受けやベクトル化なども含めた、自然言語処理全般が実施出来たので驚いた。ご参考： https
sh19910711 2021/01/31
*program

python

*algorithm

NLP
リンク
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
sh19910711 2020/09/26
*data

*algorithm

NLP

*program

python

機械学習
リンク
SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika（スイカ）とした。使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:
sh19910711 2020/07/05
*book

*algorithm

NLP

*program

ruby
リンク
自動要約プログラムshucaを使ってニ郎コピペを要約した - soy-curd's blog
はじめに 2chまとめを読んでいたら、"長い"みたいなレスを投げられていた二郎コピペがあった。せっかく名文なのに長いの一言で一蹴されては報われないので、日本語の自動要約をしてくれるshucaを用いて短く要約してみた。 shucaとは? github.com python2系で動く自動要約プログラム。shuca単体では動作せず、他に京大で開発されているjuman（形態素解析プログラム）とknp（構文解析プログラム）が必要。実際に要約してみるまずはコピペを以下から拾ってくる。 fullopen.blog.jp ■その50 今日、ついに二郎デビューしたんでレポっす！川崎店に行ったらすごい行列でまずびっくり！すっげえな！と思って店の中を見て、みんなが食ってるラーメンのボリュームを見てまたびっくり！これが二郎・・・と、思わずヨダレが出る。待つ事２０分、やっと席につくことができた。「ヤ
sh19910711 2020/06/20
hitoshin/shuca

*algorithm

NLP

*program

python
リンク
文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
SCDVのコードはGithubで公開されている(https://github.com/dheeraj7596/SCDV )ほか、ベンチマークとなるデータセットに対する適用方法がそのままあるので、今回のデータセットを使うにあたっては資産をほとんどそのまま使うことができました。python2だった部分をpython3に対応させるのがちょっと手間でしたが... リポジトリ全体はこちら: fufufukakaka/SCDV python3に対応させて20newsgroupを実行しているのがこちら livedoorニュースコーパスで実験しているのがこちらノートブック、雑にやってしまったので適宜必要なところはコードを貼っていきながら解説します。まずはword2vecを学習させる+単語ベクトル空間を可視化まずはword2vecを学習させていきます。livedoorニュースコーパスはテキストファイル
sh19910711 2018/06/17
*program

python

*algorithm

NLP
リンク
機械学習手法を用いてブログの文章を分析・可視化（テキストマイニング） - karaage. [からあげ]
自分のブログのテキストを分析・可視化してみたい以前自分のブログの分析を「内部リンク」や「はてブ情報」の観点で行ってみました。ただ、目的無く分析してしまったので、結局イマイチどう活用してよいかよく分からない結果しか得られませんでした。そんな前回の反省を全く活かすことなく、また何の目的もなくブログを分析してみることにしました。今回は以前から興味のあった機械学習を用いたブログの文章の分析・可視化（テキストマイニングと呼ばれるらしいです）にチャレンジしてみることにしました。どちらかというとテキストマイニングが主で、使用する素材（学習データ）に困ったので仕方なく自分のブログを使ってみたというのが正直なところです。ネットでコピペすりゃ簡単にできるだろと思っていたのですが、自分のやりたいことするのはそれなりに大変だったので、知見としてやり方とどんなことが分かるのかを残しておきます。ブログのテキ
sh19910711 2018/05/03
TensorBoardに単語埋め込み可視化するやつが入ってるのか

*algorithm

機械学習

NLP

*program

python
リンク
Spark3分クッキング HBaseで作る100万通りの文書分類器 - astamuse Lab
こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。私たちの身の周りは、様々なデータで溢れています。ある２つの異なるデータ集合を互いに紐付けたいこともよくあります。どのように紐付けられるでしょうか。一方のデータ集合から分類器をつくることができれば、分類結果を媒介として他のデータ集合とのマッチングができるかもしれません。では、どうやって分類できるでしょう。ここではSparkとHBaseを使って実装がシンプルで、文書分類でよく使われるナイーブベイズの分類器を実装してみます。材料と調理器具材料特許の要約と分類のデータ簡単のため以下のように正規化されたテーブル構造のデータがあるとします。特許出願（appln）を親として、要約テキスト（appln_abstr）と、分類コード（appln_ipc）がぶら下がっています。今回使うのは右側の2つのデータのみで
sh19910711 2017/11/14
*data

*program

s*

bigdata

*algorithm

NLP
リンク
HyperLogLogで遊ぶ - Negative/Positive Thinking
はじめに「さぁ、お前の罪の異なり数を数えろ！」と言われたときに使えそうな「HyperLogLog」という異なり数をカウントする方法を教えてもらったので、遊んでみた。いつもながら論文ちゃんと読んでないので、条件やコード間違ってるかも。。。 HyperLogLogとは cardinalityと呼ばれる、要素の異なり数を決定する問題かなり省メモリで精度のよい異なり数を推定できる方法要素をそのまま保存せず、ハッシュ値に変換したものをうまくレジスタに保存しておくので、レジスタサイズ程度しかメモリを使わない並列化もできて、最近のbigdataとかで注目されているまた、googleが並列計算用に改善したHyperLogLogを提案してるみたい http://blog.aggregateknowledge.com/2013/01/24/hyperloglog-googles-take-on-
sh19910711 2017/05/27
*algorithm

近似

NLP

*program

c*
リンク
KGR_2: Rによるテキストマイニング
Statistics Favorites 4 Downloads 11 Comments 0 Embed Views 1,120 Views on SlideShare 997 Total Views 2,117 KGR_2: Rによるテキストマイニング — Presentation Transcript Rによるテキストマイニング小林雄一郎（日本学術振興会） KG.R #22012年6月16日（土）、関西学院大学 1 自己紹介• 小林雄一郎（こばやしゆういちろう） – 言語学と言語処理と言語教育の挟間をふらふら – 最近の研究テーマは、「パターン認識と自然言語処理の技術を用いた習熟度判定」など 2 パターン認識技術を用いた英作文の自動評価レベル別英作文の自動分類レベル判定に寄与する要因の特定* 6月23日（土）電子情報通信学会思考と言語研究会＠早稲田大学で発表 3
sh19910711 2013/11/23
*program

R言語

*algorithm

NLP
リンク
ナイーブベイズ分類器の実装とか〜畑さん/こだまさん問題〜 - naoya_t@hatenablog
スパム判定などでお馴染みのナイーブベイズ分類器。構造が比較的単純なのに割といい感じに分類できるので重宝がられています。ナイーブベイズ分類器で用いる文書モデルとして、「言語処理のための機械学習入門」（奥村学著）では多変数ベルヌーイモデル (multivariate Bernoulli model) 多項モデル (multinomial model) がそれぞれ最尤（ML*1）推定、最大事後確率（MAP*2）推定の場合について説明されていて、まあ例題を追っていけば高校生でも文系の子でもわかる感じ*3なんだけど、そういえばちゃんと自分で書いたことなかったなあと思って、寒いのにソイあずき抹茶フラペチーノをすすりながらやってみたのでした。 # -*- coding: utf-8 -*- from math import log # # 多変数ベルヌーイモデル multivariate Ber
sh19910711 2013/11/21
*program

python

*algorithm

NLP
リンク
Clojure/kuromojiでテキストマイニング入門　～形態素解析からワードカウントまで～ - あんちべ！
[テキストマイニング] Clojureでテキストマイニングをしたい！という方がTLにいらっしゃったので、 Clojureという言語とkuromojiという形態素解析器を用いたテキストマイニング入門の記事を書きます。この記事の通り手を動かすと、様々なテキスト、例えばアンケートの自由記述やブログ、twitterなどの文章に形態素解析を掛け、ワードカウントと呼ばれる、ある単語が何回出現しているのかを解析する手法を使えるようになります。これを利用し、出現単語を頻度順に並べてランキングを作るなどして、その文書の特徴を明らかにするなどが出来るようになります。ある程度コンピュータを使えることは求めますが、プログラミングの前提知識はさほど求めていません。そのため、所々天下りなところ（ここはとりあえずこうやってください！と説明無しの記述）もありますが、ご容赦ください。形態素解析とは？形態素解析とは、
sh19910711 2013/11/21
*program

lisp*

tokenizer

*algorithm

NLP
リンク
ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー
あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。なにをするものなのか、ちょっと分かりにくいので、例で説明します。２ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する例として、２ちゃんねるに投稿されたデータから、投稿（レス）がどのスレッドのレスか判定するライブラリを生成してみます。準備まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。環境は、ここではUbuntuを想定しますが、Windowsでも使えます。（WindowsXP, ruby 1.9.3p0で確認）
sh19910711 2013/11/21
*algorithm

NLP

機械学習

*program

ruby
リンク
Latent Dirichlet Allocations の Python 実装 - 木曜不足
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
sh19910711 2013/11/18
*algorithm

NLP

機械学習

*program

python
リンク
CRF++: Yet Another CRF toolkit
sh19910711 2013/11/18
*program

c*

*algorithm

NLP
リンク
ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類（Text Classification, Text Categorization）の技法たちを試していきたいと思います。テキスト分類は文書分類（Document Classification）という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。テキスト分類とはテキスト分類とは、与えられた文書（Webページとか）をあらかじめ与えられたいくつかのカテゴリ（クラス）に自動分類するタス
sh19910711 2013/11/10
*algorithm

機械学習

NLP

*program

python
リンク
「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足
第２回自然言語処理勉強会＠東京が 9/25 に行われます。前回よりキャパの大きい会場＆週末に参加募集が始まったばかりですが、早くもほぼ定員。自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。今度の第２回でも出しゃばって発表させてもらう予定だが、第１回も「Web本文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの本文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:
sh19910711 2013/11/10
*algorithm

NLP

*program

python
リンク
前のページ 1 2