タグ

2015年5月31日のブックマーク (3件)

  • 機械学習ライブラリ scikit-learn で簡単ツイート分類 - ぱろすけ's website

    皆様こんにちは。今日も元気に自分を見つめ直していますか? 自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。 Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。記事では、過

  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

    zyxwv
    zyxwv 2015/05/31
    encode が unicode->str、decode が str->unicode
  • インデントコミットで真犯人がわからなくなった場合の git blame

    config_param :queued_chunk_flush_interval, :time, :default => 1 を追加したコミットがどれかを探したいとします。 しかし、git blame を見るとこんなかんじに、インデントコミットによってほぼ全ての履歴が上塗りされていてどれだかわからない、みたいな状況にどうやって真犯人を探そうかという話です。 1. git blame -w を使う インデントコミットを無視したいだけであれば git blame の -w オプションが使える。-w は比較の際に whitespace を無視してくれるオプション。git diff にもあるよね。 $ git blame -w lib/fluent/output.rb ... (省略) 14d01c71 (Masahiro Nakagawa 2013-03-27 03:56:51 +0900 1

    インデントコミットで真犯人がわからなくなった場合の git blame
    zyxwv
    zyxwv 2015/05/31
    git blame -w