[B! text_mining] nfunatoのブックマーク

nfunato id:nfunato

text_miningに関するnfunatoのブックマーク (11)

fastTextでesaに書かれた文章を分類する - Qiita
最近、機械学習が流行っていますが、画像解析系が多くてあまり興味が出ませんでした。しかし、Word2vecやseq2seqなどを使ってテキスト処理も機械学習で色々遊べることに最近気がついたので、まずは簡単な所から試してみることにしました。この文章はトレタ Advent Calendar 2017 (紹介ブログ)の一環で書いてみました。よければ他の日の記事も見てください。なにをしよう？トレタでは社内ドキュメントの管理にesaを使っています。こういうドキュメント管理で難しいのは文章が散らばることですよね。同じ「プロジェクトA」の文章でも開発や営業など、部署毎にドキュメントがまとめられていたりします。しかも同じような単語があちらこちらで使われているため、全文検索だとノイズが多くなり利便性が低くなります。解決策としては文書毎に正しくタグ付けすることですが、それを徹底するのも現実的で
nfunato 2017/12/04
machinelearning

text_mining
リンク
How to do text classification with CNNs, TensorFlow and word embedding
Suppose I gave you the title of an article “Amazing Flat version of Twitter Bootstrap” and asked you which publication that article appeared in: the New York Times, TechCrunch, or GitHub. What would be your guess? How about an article titled “Supreme Court to Hear Major Case on Partisan Districts”? Did you guess GitHub and New York Times? Why? Words like Twitter and Major are likely to occur in an
nfunato 2017/07/14
neuralnet

text_mining

nlp
リンク
Text Classifier Algorithms in Machine Learning | by Roman Trusov | Cube Dev
One of the main ML probl ems is text classification, which is used, for example, to detect spam, define the topic of a news article, or choose the correct mining of a multi-valued word. The Statsbot team has already written how to train your own model for detecting spam em ails, spam messages, and spam user comments. For this article, we asked a data scientist, Roman Trusov, to go deeper with machin
nfunato 2017/07/13
machinelearning

text_mining
リンク
Text Analytics Basics: Using Words As Data
Google's worldwide search empire is built on artful leverage of text analytics fundamentals. (AP... [+] Photo/Virginia Mayo, File) When business people talk Big Data, they often focus on the complexity of dealing with enormous data volume, but that’s changing. Volume alone does not pose the challenge it once did. For example, the Panama Papers leaked data was about 2.6 Terabytes. You could buy a h
nfunato 2016/05/28
text_mining
リンク
MySQL-5.6.4からの新機能「InnoDB FullText Search」を用いた全文検索エンジンのベンチマークLTをしました。#mysqlcasual - Y-Ken Studio
2013年4月17日にオラクルで開催された「MySQL Casual Talks Vol.4」に初参加してきました。さらにライトニングトーク（LT）もさせて頂けましたのでレポートしたいと思います。前夜開催前日の夜に「MySQL Casual Talks Vol.4」のイベント告知をTwitterで見つけました。この手の勉強会は気づいたときには満席で参加を諦める事が多かったのですが、今回は「事前登録不要/先着順受付」という新しい試みのお陰もあり、参加することが出来ました。どうやらLT枠がまだあるようなので、ここはチャンスとネタ探しを始めました。空き狙いでLT発表したいMySQL-5.6ネタがあるのだけれど、スライドを明日までに用意できるだろうか… #mysqlcasual— Y.Kentaro (@yoshi_ken) April 16, 2013 @yoshi_ken まだま
nfunato 2015/07/19
mysql

text_mining
リンク
Google
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。
nfunato 2015/07/19
"mysql full text search japanese"

text_mining

database
リンク
Google
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。
nfunato 2015/07/19
haskell

text_mining
リンク
高速かつ省メモリで文字列を扱うデータ構造「wavelet tree」
はじめに大規模なデータを扱うアプリケーションでは、速度とともに作業領域量も大きな問題となります。作業領域がメインメモリに収まらない場合、スワッピングが発生し、大幅な速度低下につながります。そのため近年、データ構造は高速なだけでなく、作業領域量が小さいことも求められています。今回紹介するのは2003年に提案されたデータ構造、wavelet tree（以下「WT」と表記）です。WTは圧縮索引やSuccinct Data Structureなど、データをコンパクトに表現する際に重要なデータ構造です。WTは文字列T[0...n-1]が与えられた時、次の2つの操作を定数時間でサポートします。 rank(p, c)――T[0...p]中のcの出現回数を返す select(i, c)――(i+1)番目のcの位置を返す WTの作業領域量は、文字列をそのまま保存した時の約2倍程度です。対象読者 C++の
nfunato 2013/01/12
algorithm

data structure

text_mining
リンク
「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei
「高速文字列解析の世界」という大変すばらしい本が発売された。わりと敷居が高い本ではあるので読む前に知っておくとよさそうなことを書いておく。「高速文字列解析」とは本書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。キーワードは3つオビにも書いてあるけれど、本書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基本的な道具として本書の色々なところで出て
nfunato 2013/01/09
algorithm

data structure

text_mining

compression
リンク
"高速文字列解析の世界"を読んだ - 射撃しつつ前転改
高速文字列解析の世界というタイトルからは、どんな中身なのかあまり伝わってこないので、どんなことが書いてある本なのか、中身をちょっと紹介してみる。 1章、2章は概観や準備であり、3章からが本番なのだが、Burrows Wheeler Transf orm、簡潔データ構造、ウェーブレットツリー、データ圧縮、全文検索、テキストマイニングのためのデータ構造、という章題になっている。何に使うのかという目的ベースで考えると、この本に載っているのは、データ圧縮、情報検索とテキストマイニングの基盤技術である（データ圧縮については基盤と言うよりはそのものだが）。ただ、この本には本当に基盤技術の話しか載っていないので、「この本で情報検索はバッチリだぜ！！」というような訳にはいかない。テキストマイニングに関しても同様である。別途入門書を読むなりしないと、より高次元（ここでの高低は技術の積み重ねの高低であり、難し
nfunato 2013/01/08
compression

text_mining

algorithm

data structure
リンク
高速文字列解析の世界が素晴らしかった
丸4日かけて8章（最終章）以外を読んだ。正月休みの後半の時間をこの本を読むのに費やしたのは正解だった。新年開始早々、知的な満足感が得られた。本書を読めば、BWT、簡潔データ構造、ウェーブレット木、FM-Indexが理解できる。 LF-mappingのところ(p.28の補題3.4)を理解するのに時間がかかったが、これを理解できればFM-Indexのアルゴリズムが理解できる。ついでにWavelet Matrixも理解できた。ひとつひとつ丁寧に読み進めていけば理解できるようになっていたので良かった。本や論文で書いてあるなら、まず読んで知っているのが必要条件(slide 24)と著者のスライドに書いてあるように、BWT、簡潔データ構造、ウェーブレット木、FM-Indexは知らないといけない知識になるんだろうなぁと。 pubmed調べたら、bioinformatics用途でしかみつからないのでc
nfunato 2013/01/08
compression

text_mining

algorithm

data structure
リンク
1