サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。
# !wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ja.300.vec.gzで落とせます model = gensim.models.KeyedVectors.load_word2vec_format('cc.ja.300.vec.gz', binary=False) repat = re.compile(r'^[あ-ん\u30A1-\u30F4\u4E00-\u9FD0]+$') vocab_list = [w for w in list(model.vocab.keys())[10000:50000] if len(w) > 2 and repat.fullmatch(w) and w[-1] != 'っ' and w not in list(ww_df.word) and w not in list(sw
概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan
米GitHubは6月29日(現地時間)、関数名とコメントから、関数のコードを丸ごと自動補完するAIプログラミング機能「GitHub Copilot」(コパイロット、副操縦士の意)を発表した。専用ページから登録すると、テクニカルプレビュー版の招待を順次受けられる。 米Microsoftのコードエディター「Visual Studio Code」と、Visual Studio Codeベースのクラウド開発環境「GitHub Codespaces」向けの拡張機能として提供する。 例えば、コメントとして「// Get average runtime of successful runs in seconds」(成功した実行の平均実行時間を秒の形式で取得する)と書いておき、その下に「func averageRuntimeInSeconds」と関数を書き始めると、Copilotがその先を自動補完。必要な
StreamlitはPythonだけでwebアプリを作ることができるツール(ライブラリ)です。フロントに関する知識がほとんど不要なため、簡単なダッシュボードやデモアプリを作るのに適しています。公式のページでは様々なサンプルアプリが公開されています。 ところで機械学習(特に深層学習)モデルでは、例えば画像1枚あたり数秒の推論時間がかかることもあります。Streamlitは機械学習のデモアプリ用途としても適していると思いますが、推論に時間がかかる場合にいちいち推論完了を待つのは退屈かもしれません。ここではPythonのwebフレームワークであるFastAPIを組み合わせることで、推論を非同期で行う画像認識アプリケーションを作ります。 コードはこちらに配置しました。 アプリ内容 StreamlitによるGUIは以下のようになります。画像をアップロードし、「Submit」ボタンを押すことで画像認識
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
[1] 本サイトでは、「PyTorch 公式チュートリアル(英語版 version 1.8.0)」を日本語に翻訳してお届けします。 [2] 公式チュートリアルは、①解説ページ、②解説ページと同じ内容のGoogle Colaboratoryファイル、の2つから構成されています。 両者は基本的には同じ内容です。本サイトでは 「Google Colaboratoryファイル」で、チュートリアルの日本語訳を用意しております(未完成分は順次公開いたします)。 [3] 本サイトのチュートリアルの閲覧および実行は、Google Colaboratory環境を前提とします。 (本サイトのライセンスはこちらとなります) [4] 本サイトに掲載している、日本語チュートリアルをまとめて配置したGitHubはこちらとなります。 [0] 目次(table of contents) 日本語解説へ [1] テンソル(T
時系列モデルを扱う上でデファクトスタンダードになりそうなPythonライブラリが出てきました。 時系列モデルを扱うPythonライブラリは、 scikit-learn のようなデファクトスタンダードなものがありません。そのため時系列モデルを用いて実装を行うためには、様々なライブラリのAPIなどの仕様を理解しつつ、それに合わせてデータ整形を行い、評価する必要があり、これはなかなか辛い作業でした。 スイスの企業 Unit8 が今年(2020年)6月末に公開した Darts はまさにこういった課題を解決するライブラリです。時系列に関する様々なモデルを scikit-learn ベースのAPIで統一的に扱うことができます。 github.com Darts は現在、下記のモデルに対応しています。内側では statsmodels 、 Prophet(stan) 、 Pytorch などを使っていて、
概要 Google翻訳APIをPythonで実行するでは、四苦八苦しながらも、Google翻訳APIにより、テキストファイルに書かれた英文を日本語に翻訳するPythonスクリプトを書いた。 元々の動機は論文の翻訳する際に、ちまちまGoogle翻訳にコピペするのが面倒くさいということであった。 そこで今回は、Pythonスクリプトを拡張し、PDFの論文を一気に翻訳するようにしたので共有したい。 そもそもなんで日本語に翻訳して論文を読むの? もちろん、細かい内容は原文を精読する必要がある。そりゃそうだ。 日本語で読む理由はなんといっても、論文の内容を俯瞰的に把握できるということに尽きる。 俯瞰的に把握できることで、以下のメリットがある。 俯瞰的に把握した上で原文を読むことになるため、より早く理解することができる。 俯瞰的に把握できるため、原文を読む前に、自分にとって読む必要がある論文かどうかか
こんにちは、あんどう(@t_andou)です。 少し前ですが、こんなニュースが話題になっていました。 詳細は深追いしていませんが、ニュースキャスターの人物モデルをコンピューターで再現して音声も読み上げさせているようです。 japan.cnet.com また、政治やエロ方面で問題になっていましたが、deepfakesと言う「顔をすごくリアルに入れ替えることができる技術」も話題になっています。 japanese.engadget.com 去年は3Dモデルを使った『Vtuber』が流行りましたが、今後はこう言ったリアルなアバター?がいろんな方面で出てくるんでしょうね。 と言うことで、今回からその基礎になるようなものを作ってみたいと思います。*1 とは言え、ただリアルな見た目・リアルな声のYoutuberだとしたら、実写で良いのでは?と突っ込まれそうですので、 生身だと出来ないこと…具体的には『2
How to watch Polaris Dawn astronauts attempt the first commercial spacewalk
機械学習とif文が地続きであることを解説しました。 ver.2 質問への回答を追加し、顧客価値の小問に図を追加してわかりやすくかみ砕きました。Read less
スペクトラム・テクノロジーは、Raspberry Pi 3 model Bを使い、Googleの機械学習ライブラリー「Tensorflow(テンソルフロー)」や、プログラミング言語Pythonの基礎を学習できる「AIプログラム学習キット」を発売する。 本キットは、初心者向けに、プラットフォームとしてRaspberry Piを採用、あとはインターネットに接続できるPC環境があれば、AI学習ができるように構成されている。学習に必要なプログラムもすべてインストール済だ。 まず、基本的なPythonプログラミングを練習問題100題を使って学び(標準時間30時間)し、Tensorflowの使い方を習得する。そして次のステップで、文字認識(MNIST)、画像認識(CIFAR-10、IRIS)、自然言語処理(word2vec)などのディープラーニングで有名なプログラムを使った応用学習ができる。 キット内
2015/04/14 初期バージョン 2015/04/16 ver1.4(参考資料追加、k平均法の解説追加など) 2015/04/20 ver1.5(最大対数尤度関数の評価、混合分布によるクラスタリングを追加) 2015/04/21 ver1.6(EM法のアルゴリズム説明を追加) 2015/04/24 ver1.7(その他の性能指標を追加) 2015/05/19 ver1.8(ギリシャ文字ベクトルフォントの修正、その他リファクタリング) 2015/05/25 ver1.9(EM法の初期データ画像を追加) 2015/06/07 ver2.1(セミナー用に修正) 2015/06/24 ver2.2(EM法の説明を追加) 2016/09/01 ver2.3(誤字修正) 2016/12/27 ver1.0 タイトルを変更 2016/07/07 ver1.4 UpdateRead less
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く