タグ

2019年1月18日のブックマーク (5件)

  • WordCloudで単語頻度図を作る | ブログ一覧 | DATUM STUDIO株式会社

    技術ブログの目的 こんにちは。DATUM STUDIOの岩城です。技術ブログでは、テキスト中の単語頻度を可視化するためにWordCloundを用いた単語頻度図の作成を行います。WordCloudはテキストデータを頻度の高い単語ほど大きな文字で表示した単語頻度図を生成するライブラリです。自然言語処理において対象とするテキスト中の単語頻度を調べることは極めて重要で、WordCloudによる単語頻度図はそれらの直感的な理解に役立ちます。 今回は馴染み深い(?)「日国憲法」を題材にPythonからWordCloudの単語頻度図の描画を目指します。 描画までの流れ 描画までの流れは下記の通りです。 (1) テキストデータの準備 (2) MeCabによるテキストのわかちがき (3) WordCloudによる描画 上記に示す様に、テキストデータをWordCloudに投入するだけでは単語頻度図が得ら

    WordCloudで単語頻度図を作る | ブログ一覧 | DATUM STUDIO株式会社
  • 【特別連載】 さぁ、自然言語処理を始めよう!(最終回: 機械学習によるテキストマイニング)

    みなさまこんにちは。 前回の連載 【特別連載】 さぁ、自然言語処理を始めよう!(第2回: 単純集計によるテキストマイニング) では TF-IDF を用いて Twitter Streaming API 経由で取得した日語 Tweet データから、ある日の特徴語を抽出する方法を紹介しました。 今回は機械学習を用いたテキストマイニングを行いたいと思います。機械学習とは「経験により自動的に改善していく」コンピュータープログラムの構築方法に関わる分野です。 具体的には Python機械学習用ライブラリである scikit-learn を用いて、集めた Tweet データを「ポジティブ」、「ネガティブ」なものに自動で分類する方法を紹介します。 処理の流れ今回行う処理は次のような流れになります。学習用データの作成データの前処理手法の選択モデルの学習未知要素の分類実行環境は前回、前々回で使用した A

    【特別連載】 さぁ、自然言語処理を始めよう!(最終回: 機械学習によるテキストマイニング)
  • pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社

    はじめにこんにちは。DATUM STUDIOの安達です。 最近社内で日語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、記事では社内共有の意味も込めて前処理に関して用いてきた&用いれそうな手法を列挙します。 比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。 自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ 記事における使用言語、環境は以下の通りです。 ・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理 ・文字表現の正規化 ・URLテキストの除外 ・Mecab + neologd 辞書による形態素解析 ・形

    pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社
  • pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

    こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ??」 ってなること、ありませんか?僕は10分に1回程度なります。 いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。 物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ~以外を表すやつ andとor inf弾く リストをdfにサクッと変換 datetimeとして読み込み 読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins

    pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト
  • Slackが使ってるロゴ(ブランド資産)管理サービス「Brandfolder」が気になった - LOGzeudon

    今日、Slackのロゴリニューアルが発表されましたね! slackhq.com アプリアイコンやブランドガイドラインもしっかりアップデートされています。 さて、個人的に興味を持ったのはロゴのダウンロードページです。 brandfolder.com 自社サイトではなく、Brandfolderというサービスを利用してロゴ画像を管理・公開しているのが気になり、軽く調べてみました。 Brandfolder とは brandfolder.com 一言にすると「ブランド資産の管理に特化したクラウドストレージ」とのこと。 クラウドストレージならではの一元管理によるメリットはもちろん、それらの「共有」に特化した特徴的な機能を備えています。 画像形式と縦横のサイズを指定してダウンロード可能。 画像URLも発行でき、用途次第ではダウンロード&アップロードの手間も省ける。 必要なアセットをまとめて特定の相手に共

    Slackが使ってるロゴ(ブランド資産)管理サービス「Brandfolder」が気になった - LOGzeudon
    yukiyan_w
    yukiyan_w 2019/01/18