【Python】MeCab(形態素解析器)を使用して文章をカテゴリー分類する Python 投稿日 2019年12月9日 >> 更新日 2023年3月2日 今回は文章などを形態素(単語区切り)にして解析を行えるMeCabを使って、入力された文章がどのカテゴリーに属するのかを分類し出力するような実装を行っていきたいと思います。 この記事ではMeCabの導入については触れないので、インストールから簡単な実装についてはこちら「【Python】形態素解析器のMeCabを使って自然言語処理の実装」をご参照ください。 実装のイメージとしては、予め「カテゴリー1」と「カテゴリー2」の情報を格納した「辞書」を用意し、人が入力した文章(テキスト)を単語に区切って1つ1つを各カテゴリーでチェックを行い、その文章の内容が最も多く一致したカテゴリーであれば「文章の内容はカテゴリー〇です」と出力されます。 また、分
前提・実現したいこと djangoをインストールする前に、pip最新版をインストールしようとしたところ、 下記のようなエラーが出てしまいました。 このエラーを解決し、djangoをインストールする方法を教えていただければ有難いです。 よろしくお願いいたします。 発生している問題・エラーメッセージ $ python -m pip install --upgrade pip pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available. Cache entry deserialization failed, entry ignored Retrying (Retry(total=4, connect=None, read=None, redirec
在宅勤務、週末の外出自粛と、何かと家にいることが多くなりました。 厳しい状況が続きますが、まとまった時間を確保して、新しく何かを身に着けるにはいい機会と言えるかもしれません。 そこで、在宅の時間を活用して、Pythonの使い方やゲームプログラミングを覚えたいという方に向けて、最新版に対応したレトロゲームエンジンPyxelの紹介記事を再作成してみました。 古い紹介記事を読んで、以前のインストール方法を試して詰まっている方もたまに見かけますので、こちらの最新版の紹介記事を参考にしていただければと思います。 Pyxelとは Pyxel(ピクセル)は、昔ながらのドット絵タイプのゲームを簡単に作れる「レトロゲームエンジン」です。 GitHubでオープンソースとして公開されており、2018年7月30日のリリース後4日で、GitHubのデイリーランキングで1億プロジェクト中1位を獲得。現在は6800スタ
2019年9月16日/17日に開催されたPyCon JP 2019で自分が直接/YouTubeで聴講したセッションについてのまとめです。主に下記の内容を書いています。 スピーカーURL 配信動画 スライド 発表内で出てきたライブラリなどのURL 自分の感想 「あのセッションで話していたライブラリなんだっけ」と思い出したい方やざっくり内容が知りたい方に読んでいただければ幸いです。PyCon JPに自分も発表者としても参加し、スタッフとして参加し、Webサイトの開発もしたので、それについては改めて書きたいと思います。 pycon.jp PythonとAutoML / 芝田 将 スピーカー: https://twitter.com/c_bata_ 動画: https://www.youtube.com/watch?v=Whkwu46DgBs スライド: https://www.slideshar
Unverified details These details have not been verified by PyPI Project links Homepage Meta License: Freeware (MIT) Author: SuHun Han Tags google, translate, translator Googletrans is a free and unlimited python library that implemented Google Translate API. This uses the Google Translate Ajax API to make calls to such methods as detect and translate. Compatible with Python 3.6+. For details refer
機械学習Podcast「TWiML&AI」で先週取り上げられた可視化ライブラリ「Yellowbrick」が非常に便利だったので紹介します!ちなみにPodcastには作者の1人であるRebecca Bilbroさんが出演しているので興味持った方は是非聞いてみてください。 twimlai.com www.scikit-yb.org Yellowbrickとは 一言で言うと、機械学習に特化した可視化ライブラリです。実装的な面で言うと(こちらの方がわかりやすいかもしれません)、scikit-learnとmatplotlibをラップして、scikit-learnライクなAPIで使うことができるものです。 例えば相関行列のヒートマップをプロットしたい場合は次のように書くだけでグラフを作ることができます。 visualizer = Rank2D(features=features, algorithm=
1.一般的なチャート (1)RAWGraphs RAWGraphs はクラウド型、オープンソースのデータ視覚化ツールであり、 Excelのデータを処理するためによく使われます。RAWGraphsにデータをアップロードし、ほしいグラフを設計して、 SVGかPNGの画像に出力すれば済みます。RAWGraphsにアップロードされたデータは Web側でのみ処理されるので、 データの安全を保証できます。 (2)ChartBlocks ChartBlocks はグラフ作成のオンラインツールであり、スマートデータインポートガイドに従えば、データのインポートとグラフの設計を簡単に完了します。グラフを SVG、PNG、JPEGの画像や PDFへの出力が可能です。また、 Facebook やTwitter などのSNSで作ったグラフを共有するだけではなく、生成したグラフのソースコードを Webサイトに埋め込む
去年の記事において,連番のQRコード画像を一括作成するSwiftコードの例を示しました。 doratex.hatenablog.jp このSwiftコードをちょっと改変すれば,「コマンドライン引数に与えられた文字列からQRコード画像を生成する」コマンドラインツールは簡単に作れます。もちろん,Homebrewなどを用いて qrencode のような専用ツールをインストールしてもよいでしょう。ただし,自分一人で使う環境ならば何でもいいのですが,広く配布するスクリプトなどを想定する場合,デプロイ時の可搬性という観点で考えると,追加のプログラム/ライブラリの事前インストールを必要とせず,macOS環境であればどこでもシェルから1行で呼び出せるコマンドが存在する嬉しいですよね。 「macOSのAPIをコマンドラインから直接呼び出す」ためには,PyObjC が有効な手立てとなります。この手法は以前のP
By Pythonistas at Netflix, coordinated by Amjith Ramanujam and edited by Ellen Livengood As many of us prepare to go to PyCon, we wanted to share a sampling of how Python is used at Netflix. We use Python through the full content lifecycle, from deciding which content to fund all the way to operating the CDN that serves the final video to 148 million members. We use and contribute to many open-sou
Over the past few months, I have been collecting AI cheat sheets. From time to time I share them with friends and colleagues and recently I have been getting asked a lot, so I decided to organize and share the entire collection. To make things more interesting and give context, I added descriptions and/or excerpts for each major topic. This is the most complete list and the Big-O is at the very en
データ解析コンペの初期段階では、データを可視化して眺め、特徴を探すという探索的データ分析(EDA)が行われます。 Pythonでデータ分析している場合、可視化にはpandasのプロット機能、もしくはmatplotlibを使うことが多いでしょう。 今回はヒストグラムに絞って、僕が良く使っている書き方を紹介したいと思います。 題材とするデータにはKaggleのTitanicコンペのデータを使うことにしましょう。一部を抜き出してくるとこんな感じのデータになっています。今回はこのAgeの列を可視化してみたいと思います。 data = pd.read_csv('input/train.csv') data[['Name', 'Age']].head() Name Age 0 Braund, Mr. Owen Harris 22.0 1 Cumings, Mrs. John Bradley (Flor
こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ??」 ってなること、ありませんか?僕は10分に1回程度なります。 いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。 物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ~以外を表すやつ andとor inf弾く リストをdfにサクッと変換 datetimeとして読み込み 読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins
Pythonにおける並行処理の行い方 ここからはPythonのパフォーマンスチューニングに話題を移そう。最近では「Pythonが遅いのでマルチスレッドやマルチプロセスにしたい」という問い合わせが増えてきていると言う。 石本氏は「近年のパソコンはマルチCPUなので気持ちは分からなくない」と同情しつつも、「ぶっちゃけ、マルチスレッドやマルチプロセスにしただけではそう速くならない。ある程度は工夫できるが、成果はあまり期待しないこと。数倍速くなることはない。せいぜい数割。処理を速くしたければ、計算量やデータ量を削減するのが基本」と断じる。 一般的には並行処理にはthreadingモジュールやmultiprocessingモジュールを思い浮かべるかもしれないが、石本氏はPython 3.2で追加されたconcurrent.futuresのほうが「より便利なので、できるだけこれを使ってほしい」とおすす
砲撃する自走砲(PzH2000自走榴弾砲)。自走砲は戦車によく似ていますが、戦車ではありません。*本編とは関係ありません。 こんにちは、エムスリー基盤開発チーム小本です。 Pythonのパッケージ管理周りでは、 「setup.pyでrequirements.txtを読み込むのが普通なんですよね?」 「pipenv があれば venv はオワコンなんですね?」 「pyenvは要らないんですよね!?」 「Pythonは歴史が古い分、Rubyなどに比べてカオス」 みたいな混乱をよく目にします。 実際、複数のツールがあって(一見)複雑です。また「なぜこうした状況にあるのか」がドキュメント化されているわけでもありません。 なので、私なりに整理してみることにしました。 ※「追伸」を追加しました。この記事では汎用プログラミング言語としてPythonを使うケース(Webアプリとか、CLIツールとか、ライブ
この記事はKaggle Advent Calendar 2018の20日目の記事です。当初の予定ではPLAsTiCCコンペの振り返りをするはずだったのですが、時空の狭間に吸い込まれた結果0サブミットでフィニッシュしてしまいました。何ででしょうね。 そこで、代わりにKaggleで使える便利なスニペットまとめを書くことにします。 ちなみにもうひとネタあったのでいつか書きたいですが、修論があるのでいったん見送り…… LINEに通知を送る 処理にかかる時間を計測する Jupyter Notebookの場合 Pythonスクリプトの場合 LightGBMの学習結果をログに出す Google Spreadsheetに結果を記録する Google Spreadsheet側の設定 Pythonからアクセスする Notebook上でライブラリを毎回再読込する DataFrameのメモリを節約する まとめ L
はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。 そこで、この方を始め、来春(2019年4月)にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。 この記事は今後も内容を充実させるために、Tipsを追加していきます。 この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。 その結果、1日中実行し続けなければな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く