[B! ツール][データ] t-murachiのブックマーク

t-murachi id:t-murachi

ツールとデータに関するt-murachiのブックマーク (2)

Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
t-murachi 2020/09/27
WikipediaをWikiと言ってのけるサイエンス系最右翼(´・ω・`)

データ

ツール

ネタ

分析
リンク
データの集計は、ExcelよりPython使ったほうが100倍早い（pandas-profiling, pixiedust） - Qiita
データの集計は、ExcelよりPython使ったほうが100倍早い（pandas-profiling, pixiedust）Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります（誇張ではなく） Pythonで爆速でデータ集計する方法（体感所要時間：5分）前提：以下の環境が整備されていることは、前提とします。 Pythonのインストール（約30分）データ分析に必要な各種ライブラリのインストール（約30分） →numpy, matplotlib, pandas, jupyter など →Anac
t-murachi 2019/04/28
分析だけやるならRの方が向いてると思う。Pythonはクローリングや深層学習、形態素解析などとのパイプに優れてて、Pandas、Numpyはその流れの中でのちょっとしたデータいじりとDB/ExcelとのI/Oに便利という印象。

Python

ツール

解析

データ

プログラミング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx