タグ

pythonと自然言語処理に関するbraitomのブックマーク (2)

  • pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社

    はじめにこんにちは。DATUM STUDIOの安達です。 最近社内で日語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、記事では社内共有の意味も込めて前処理に関して用いてきた&用いれそうな手法を列挙します。 比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。 自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ 記事における使用言語、環境は以下の通りです。 ・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理 ・文字表現の正規化 ・URLテキストの除外 ・Mecab + neologd 辞書による形態素解析 ・形

    pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社
  • 機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳

    皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。記事では、過去の

  • 1