2019年5月22日のブックマーク (2件)

  • Unicode, UTF-8, UTF-16 - Qiita

    先日会社で PR 書くときに Unicode ってなんなんだっけ…? UTF-8 と UTF-16 ってなんだ…?となってその場はごまかしたんですが、さすがにぼんやりとでもわかっておいた方がいいのかなと思って調べてみました。 おそらく間違っていたりするので、訂正などいただければ… 書くにあたって色々読んだんですが、 Unicode および文字コードは魔境ということがわかりました。 Unicodeとは(はじめに) 符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格 Unicode - https://ja.wikipedia.org/wiki/Unicode つまりどういうことかと言うと、(1)符号化文字集合 と (2)文字符号化方式 などを定めた文字コードの業界規格ということらしいです。 符号化文字集合というのは、あ、い、う、え………などの文字の単なる集合のことを指していて、

    Unicode, UTF-8, UTF-16 - Qiita
    Appakun
    Appakun 2019/05/22
  • 形態素解析前の日本語文書の前処理 (Python) - け日記

    語の文書を扱っていますと、モデルやパラメータよりも、前処理を改善する方が精度が改善し、かつ、頑健になることがしばしばあります。 投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。 お題 少し極端な例ですが、題材として架空のレビュー文を使います。 お友達の紹介で、女子2人で三時のティータイムに利用しました。 2人用のソファに並んでいただきま〜す v(^^)v なかよし(笑) 最後に出された,モンブランのケーキ。 やばっっっ!!これはうまーーーい!! とってもDeliciousで、サービスもGoodでした😀 これで2,500円はとってもお得です☆ http://hogehoge.nantoka.blog/example/link.html 前処理のポイントがいくつかありますね。いずれも、どちらかに統一したり除外したりするほうが

    形態素解析前の日本語文書の前処理 (Python) - け日記
    Appakun
    Appakun 2019/05/22