[B! unicode] manboubirdのブックマーク

Python自然言語処理テクニック集【基礎編】

自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。環境はPython3系、Google Colaboratory（Ubuntu）で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。機械学習、ディープラーニングは出てきません！テキストデータの前処理が中心です。前処理系大文字小文字日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角日本語だとこちらのほうが大事。全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

manboubird 2021/04/04

リンク

Mac の iTerm2 と Vim の全角記号の問題について

長い連休を利用して、Elixir入門のために分散kVSを自作しました。前書き動機は以下の2点です。 Elixirに入門したかった何か自分で手を動かしたかった Erlangが書けるので同じErlangVM上の言語であるElixirが前から気になっていました。丁度いい機会だし、入門してみるかな、くらいの気持ちで始めました。初めてだったので、株式会社gumiが連載している Elixir入門の連載を開始(Elixir入門もくじ) - DEV Community 👩‍💻👨‍💻 を参考にしました。単純な日本語翻訳ではなく、適宜加筆修正をしているようです。(後半に行くに連れて雑な文が増えているのが少しだけ残念でした。) 自分は集中力が無いので通読は苦手なのですが、23個の記事に全て目を通してから次を考えることにしました。Erlangと同じErlangVMで動くので、他の全く知らない言語

manboubird 2016/08/17

リンク

文字が特定のエンコーディングで変換可能かどうかを確認する - CLOVER🍀

Java 7以前のJDKには、 sun.io.ByteToCharConverter sun.io.CharToByteConverter というクラスがあり、ここから以下のようにConverterを取得することで CharToByteConverter ascii = CharToByteConverter.getConverter("ASCII"); CharToByteConverter jis0201 = CharToByteConverter.getConverter("JIS0201"); CharToByteConverter jis0208 = CharToByteConverter.getConverter("JIS0208"); CharToByteConverter ms932 = CharToByteConverter.getConverter("MS932");

manboubird 2015/03/09

リンク

Javaにおける文字コードまわりの話(2) - あしのあしあと

「Javaにおける文字コードまわりの話 - あしのあしあと」は、もう少しブラッシュアップしたい。その前に、検証用のプログラムを少しだけ整理しておきたい。ここでは、次のような用語を用いることにする。文字と文字の識別子の集合を「文字集合」と呼び、文字の識別子を「コードポイント」と呼ぶ。コードポイントからバイト列（バイト配列）へ変換する処理を「エンコード」と呼び、その逆を「デコード」と呼ぶ。エンコード、デコードの方法を「エンコード方式」や「文字エンコーディング」と呼ぶ。 Javaでは、文字集合と文字エンコーディングを組み合わせた「エンコーディングセット」という概念が用いられる。「エンコーディングセット」って用語、正直、あまり使わない*1。。 http://java.sun.com/javase/ja/6/docs/ja/technotes/guides/intl/encoding.doc

manboubird 2015/03/09

リンク

Unicode正規化

正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

manboubird 2011/11/06

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

manboubird 2010/10/31

リンク

/var/log/stone» ブログアーカイブ » UTF-8の文字列を指定の「幅」で切り取る

manboubird 2009/04/15

リンク

perl - Encode 中級 : 404 Blog Not Found

2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級以前書いた 404 Blog Not Found:perl - Encode 入門は大好評でしたが、ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。という時代に完全対応するには、入門以上の知識がちょっと必要になります。例えば、本 blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ

manboubird 2008/05/11

unicode
perl

リンク

Unicode - 似た文字同士にご用心 : 404 Blog Not Found

2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだで、元のテキストファイルの全角ハイフンを「od -t x1」で見てみると「ef bc 8d」と「e2 88 92」の２種類が混じっていました。前者は「\p{Hyphen}」にマッチするのですが後者はダメ。まあ原因は分かったので、前処理でバイナリ置換して解決しました。で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

manboubird 2008/05/03

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

manboubird 2007/10/27

リンク

GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー！古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

manboubird 2007/09/05

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

unicodeに関するmanboubirdのブックマーク (11)

お知らせ

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

今週のはてなブックマーク数ランキング（2025年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス