タグ

2020年5月23日のブックマーク (2件)

  • pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社

    はじめにこんにちは。DATUM STUDIOの安達です。 最近社内で日語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、記事では社内共有の意味も込めて前処理に関して用いてきた&用いれそうな手法を列挙します。 比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。 自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ 記事における使用言語、環境は以下の通りです。 ・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理 ・文字表現の正規化 ・URLテキストの除外 ・Mecab + neologd 辞書による形態素解析 ・形

    pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社
  • pandas.DataFrameの構造とその作成方法 | note.nkmk.me

    pandas.DataFrameは二次元の表形式のデータ(テーブルデータ)を表す、pandasの基的な型。 DataFrame — pandas 2.0.3 documentation pandas.DataFrame — pandas 2.0.3 documentation ここでは、はじめにpandas.DataFrameの構造と基操作について説明し、そのあとでコンストラクタpandas.DataFrame()による作成方法およびファイルからの読み込み方法について説明する。 一次元データであるpandas.Seriesからpandas.DataFrameを生成する方法については以下の記事を参照。 関連記事: pandas.DataFrameとSeriesを相互に変換 記事のサンプルコードのpandasのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。N

    pandas.DataFrameの構造とその作成方法 | note.nkmk.me