タグ

ブックマーク / datumstudio.jp (2)

  • pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社

    はじめにこんにちは。DATUM STUDIOの安達です。 最近社内で日語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、記事では社内共有の意味も込めて前処理に関して用いてきた&用いれそうな手法を列挙します。 比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。 自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ 記事における使用言語、環境は以下の通りです。 ・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理 ・文字表現の正規化 ・URLテキストの除外 ・Mecab + neologd 辞書による形態素解析 ・形

    pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社
  • Excel ファイルをPythonで読み込んで整理されたデータフレームにする

    はじめに 公的機関が出しているパブリックデータは、Excelファイル(xls, xlsx)が含まれていることが多く、このようなデータを使って分析をする機会もあることと思います。 この記事では、そのようなExcelブック形式でまとめられているデータをPythonで読み込み、余計な行や列を取り除いたり成形して、pandasのデータフレームとして扱いやすくする方法についてまとめたいと思います。 以下のpandasのドキュメントを参考にしています。 pandas.ExcelFile.parse https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html pandasを使ったExcel ファイルの参照方法 今回は、Excel形式のファイル(xls, xlsx)をPythonで読み込むやり方として、ライブラリとしてp

    Excel ファイルをPythonで読み込んで整理されたデータフレームにする
  • 1