タグ

ブックマーク / yukinoi.hatenablog.com (3)

  • 自然言語処理の前処理・素性いろいろ - Debug me

    ちゃお・・・† 舞い降り・・・† 先日、前処理大全というを読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

    自然言語処理の前処理・素性いろいろ - Debug me
    shinyorke
    shinyorke 2018/05/29
    圧倒的に欲しかったノウハウだ、都度調べてた故に助かる(真顔)
  • 制約充足問題として最強のボジョレーを求める - Debug me

    ちゃお......舞いおりん......† 今回は#ajiting Advent Calendar 2015の8日目ということでVOYAGE GROUPの多目的スペースAjitoにむりやり絡めて話そうと思います。 はじめに 先月の話になってしまいますが、今年もボジョレーヌーボーが解禁されました。 解禁日はAjitoでも終業後に飲んでる人がちらほらいたそうです (私はその日体調悪くて家に直帰しました...†) さてボジョレーヌーボーといえば、毎年公開されるキャッチコピーが話題ですね。Wikipediaに年ごとのものが載っているのでちょっと挙げてみますとこんな感じです。 1995年「ここ数年で一番出来が良い」 1996年「10年に1度の逸品」 1997年「まろやかで濃厚。近年まれにみるワインの出来で過去10年間でトップクラス」 1998年「例年のようにおいしく、フレッシュな口当たり」 1999

    制約充足問題として最強のボジョレーを求める - Debug me
    shinyorke
    shinyorke 2015/12/09
    テーマとオチがいい
  • PyLadies Tokyoで機械学習のアルゴリズム選択とハイパーパラメーター最適化について話しました - Debug me

    舞い降り...† 10/24のPyLadies Tokyo一周年パーティーで機械学習の自動化についてLTしました。 所属してる会社以外の人の前でLTするのははじめてだったのでちょっと緊張。 Pythonで自動機械学習 auto sklearn from Yukino Ikegami www.slideshare.net 元となるauto-sklearnの論文はこちら 一週間前まで別の話をしようと思ってたけど、LTで話すには地味かなーと思ったりPyLadiesってことで多様性のある感じにしたいと思ったので急遽auto-sklearnの話に。。。ソルバーについての説明が雑なのはそういうことです (間に合わなかった...💧) 実はauto-sklearn自体にそれほど愛着はありません。論文の内容を再現できるようにと公開したものだと思うので、実用的に使えるフェーズのものではないです (ソルバーが

    PyLadies Tokyoで機械学習のアルゴリズム選択とハイパーパラメーター最適化について話しました - Debug me
    shinyorke
    shinyorke 2015/10/26
    実際生で聞いて面白かった&ちゃんと手順を自動化してるあたりが素晴らしい
  • 1