[B! Corpus][corpus] beth321のブックマーク

beth321 id:beth321

Corpusとcorpusに関するbeth321のブックマーク (6)

http://bonten.ninjal.ac.jp/
beth321 2017/03/07
Corpus

形態素解析

日本語

検索

コーパス

ネット

*コーパス

nlp
リンク
258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
beth321 2017/03/07
database

あとで読む

データ

日本語

自然言語処理

言語

webサービス

corpus

nlp

機械学習
リンク
意識高すぎて休日にword2vecをいじるしかやることなかった - 驚異のアニヲタ社会復帰の予備
word2vecという、ニューラルネットワーク的なことを用いて文書集合からコーパスを構築して、単語のベクトル演算ができるようになる手法があるらしい。艦これ加賀さんから乳を引いてみるという話を聞いてスゲー!!ってなったので、Twitterでやってみたとか英辞郎でやってみたとかMagic: The Gatheringとかwikipediaいろいろあるなか、何番煎じだよｿﾚｪ…って思われそうだけれどもやってみる。こちらを参考にword2vecをインストールする。今回はPythonではなくターミナルでカチャカチャやることにする。 demo-word.sh の中にtext8というデータがあるが、これは100MBほどのコーパスで、 anarchism originated as a term of abuse first used against early working class radic
beth321 2015/01/08
!!

Corpus

word2vec

*あとで

自然言語処理

テキストマイニング

NLP

データ

python

分析
リンク
ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
beth321 2014/03/12
データマイニング

Corpus

自然言語処理

機械学習

twitter

statistics

テキストマイニング

word2vec

NLP

データ分析
リンク
Twitter、学術研究にツイートデータを無料で提供する「Twitter Grants」を発表
米Twitterは2月5日（現地時間）、公開されているTwitterデータ（いわゆる「Firehose」）を学術研究者に無償で提供する試験的なプロジェクト「Twitter Grants」を発表した。参加を希望する非営利の学術研究機関はエントリーページから申し込める。締め切りは3月15日。選考後、一部の参加希望者がFirehoseに無償でアクセスできるようになる。公開ツイートは1日当たり5億件以上投稿されており、累計すると膨大な量になる。Twitterは米Microsoftなどの企業には有償でこのデータへのアクセスを提供している。Twitterが同日発表した2013年10～12月期の決算によると、データライセンスなどの売り上げは2300万ドルだった。 Twitterは社内のエンジニアリングチームで開発したツイートデータを使った幾つかの視覚化動画を発表している。また、これまで一部の学術機関
beth321 2014/02/07
ニュース

CogLing

data mining

twitter

NLP

Corpus

研究

ITmedia

SNS

webサービス
リンク
Googleのヒット件数は当てにならない - アスペ日記
（2013/11/08: 補足を書きました。Googleのヒット件数について（続き））「Googleの検索件数は当てにならない」と言うと、多くの人は「何をいまさら」という反応かもしれません。当てにならないことぐらいわかってるよ、と。でも、「当てにならない」でイメージするものがどの程度かは人によって違うと思います。結果が2倍ぐらい違ったりする、程度に思っている人もいるかもしれません。しかし、実際はそんなレベルでの話ではありません。「本当は50件なのに500,000件と返ってくる」ようなことも珍しくありません。たとえば、ツイッターで見たネタなのですが、"無い内定式" というキーワードで検索してみます。 267,000件。多いですね。ここで、10ページ目をクリックすると、次のようになります。「59 件中 6 ページ目」*1 一気に4桁も減ってしまいました。どちらが本当の数字
beth321 2013/11/07
Google

Google

統計

検索

Corpus

CogLing

SearchEngine

*あとで読む

NLP
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx