sconvictのブックマーク / 2011年3月29日

久保木：Python文字の取り扱い - 長岡技科大自然言語処理研究室

[編集] ここでの説明基本的にPerlを少し使った事のある人がPythonを勉強した時に作ったメモを整理した物です。文字を取り扱う処理におけるよく利用する基本的な処理をまとめてあります。 [編集] オブジェクト（変数） Pythonでも変数の型定義のような原則行いません。Perlでいう「use strict」を使わない状態と考えてください。変数の定義は、以下のように行います。変数名=""#文字列変数名=[]#リスト変数名={}#ディクショナリ代入例 >>>mojirestu="文字列" >>>list=[0,1,2,3,4] >>>dic={"key1":"content1","久保木":"武承"} 実行例 >>>print mojiretsu 文字列 >>>print list [0,1,2,3,4] >>>print list[0] 0 >>>dic {'key1

sconvict 2011/03/29

リンク

日本語文字列コード問題まとめ

【1】文字列コード問題との戦い Pythonに限った話ではないのですが、日本語を取り扱うコードを書いているとやっかいなエンコーディングトラブルに遭う事は少なくないでしょう。エンコーディングトラブルとはコンパイラ・インタプリタがソースコードを解釈できない。画面表示が化ける。意図した入力ができない。エンコード・デコード時にエラーがでる。正しいファイル名のつもりなのにファイルが見つからない。出力させたファイルの中身が読めない。などといった現象を基本としていろんな問題を引き起こします。問題のすべては「コード変換」に発生します。実際の文字列が何のエンコーディングで、渡す先が何のエンコーディングを期待しているか？それらを確認して合致させるように変換をするということが基本です。【2】「Python日本語版が必要」というのは誤解 P

sconvict 2011/03/29

リンク

start [R Wiki]

* R is a free software environment for statistical computing and graphics. It runs on a wide variety of UNIX platforms, Windows and MacOS. This R Wiki is dedicated to the collaborative writing of R documentation. For information on browsers, RSS syndication, copyright, ... read usage. R comes with several official manuals and FAQs. These should be your primary source of information. Note also that

sconvict 2011/03/29

R

リンク

R (programming language) - Wikipedia

R is a programming language for statistical computing and data visualization. It has been adopted in the fields of data mining, bioinformatics, and data analysis.[8] The core R language is augmented by a large number of extension packages, containing reusa ble code, documentation, and sample data. R software is open-source and free software. It is licensed by the GNU Project and available under the

sconvict 2011/03/29

R

リンク

GNU Emacs - Guided Tour - GNU Project

The GNU Emacs Manual calls Emacs the extensible, customizable, self-documenting real-time display editor, but this description tells beginners little about what Emacs is capable of. To give you an idea, here is a sampling of the things you can do with Emacs: Beyond just being able to edit plain text files, Emacs includes special features to help you write in many different human languages and prog

sconvict 2011/03/29

Emacs
elisp

リンク

Emacs Lispでスクリプト処理 — ありえるえりあ

今回はこのバッチモードでのEmacs Lispに焦点を当てて，テキストを処理するスクリプトやサーバーデーモンを書くためのテクニックを紹介したいと思います． ■■ バッチモードでの標準入出力バッチモードでは一部の関数が標準入出力を扱うための関数に変化します．早速おきまりのスクリプトを書いてみましょう(リスト1)． ------------------ <リスト1> hello.el (princ "Hello, world.\n") ------------------ princ関数は第一引数を標準出力に出力する関数です．このスクリプトを実行するにはターミナル上でEmacsを起動します(リスト2)． ------------------ <リスト2> % emacs --script hello.el Loading subst-ksc... oading subst-gb2312...

sconvict 2011/03/29

リンク

Batch-mode of Emacs

Emacs のバッチモード Emacs は対話的なエディタというのが本来の使い方ですが、シェルコマンドライン等から非対話的に使うためのバッチモードがあります。バッチモードの基本コマンドライン引数コマンドライン引数に関する注意あまり使われなさそうなスイッチバッチモードと Emacs-Lisp コマンドライン引数の使い方標準入出力エラーと終了標準の (主な) バッチモード専用関数なおここでは GNU Emacs のことを単に Emacs と書いています。バージョン 21.3 で確認していますがバージョン 19 以降ではだいたい同じではないかと思います。 XEmacs についてはよく調べていません。ごめんなさい。バッチモードの基本 Emacs をバッチモードで使う時にはコマンドラインスイッチ (オプション) -batch を使用します。このスイッチはコマンドラインの一番最初の

sconvict 2011/03/29

リンク

Electronic Genome - nkfとiconvによる文字コード・改行コード変換

UTF-8に対応しているnkfとiconvで文字コードや改行コードを変換するメモ。実行はUbuntu7.10で、ロケールは以下のようにja_JP.UTF-8。 $ echo $LANG ja_JP.UTF-8 ■インストール nkfのインストール $ sudo apt-get install nkf パッケージリストを読み込んでいます... 依存関係ツリーを作成しています... Reading state information... 以下のパッケージが新たにインストールされます: nkf アップグレード: 0 個、新規インストール: 1 個、削除: 0 個、保留: 8 個。 116kB のアーカイブを取得する必要があります。展開後に追加で 295kB のディスク容量が消費されます。取得:1 http://jp.archive.ubuntu.com gutsy/universe nkf

sconvict 2011/03/29

nkfによる文字コード判定

リンク

nkf Network Kanji Filter プロジェクト日本語トップページ - OSDN

インストール Makefile があるので、 CC CFLAGS PERL が正しいかどうかを確認して、make してください。Linux, Solaris, Mac OS X で動作確認しています。 mkstemp がない場合は、config.h の #define OVERWRITE をコメントア... インストール方法を見る使い方 nkf - ネットワーク用漢字コード変換フィルタ SYNOPSISnkf B<[-butjnesliohrTVvwWJESZxXFfmMBOcdILg]> B<[>I<file ...>B<]> DESCRIPTIONnkf はネットワークでメールやニュースの読み書き... 使い方を見る

sconvict 2011/03/29

リンク

Ubuntu日本語フォーラム

利用規約を守って投稿してください。また、よくある質問および投稿の手引きも参照してください。メッセージの投稿にはアカウントが必要です。未登録の方は、ユーザ登録ページからアカウントを作成することができます。

sconvict 2011/03/29

Ubuntu

リンク

期間限定（3/22〜6/30）無料PDF版公開！海賊の経済学 - 見えざるフックの秘密｜NTT出版

※無料公開版は、目次、序章と謝辞、第1章の約40ページ分を収録しています。海賊の経済学 - 見えざるフックの秘密 3月22日（火）発売ピーター・T・リーソン山形浩生訳定価1,995円（本体1,900円＋税）四六判上製　328ページ「海賊は合理的な経済人だった！面白くてしかもためになる。レヴィットらの『ヤバい経済学』に続くひさびさに痛快な経済書だ。」早稲田大学政治経済学術院教授　若田部昌澄氏絶賛！本の詳細はこちら ※ダウンロードは、3/22（火）午前11時より開始となります。 ※ダウンロードできる期間は、2011/6/30（木）午後6時までです。 ※PDFをご覧になるには、Adobe Readerを推奨しております。Adobe社のサイトより無償でダウンロードできます。・・・海賊は通俗イメージの中でもかなり矛盾した存在だ。そしてその実態を見ても、かれらはとても不思議な集団だった

sconvict 2011/03/29

リンク

Meadow/Emacs memo: 21.6.3 現在の文字コードと異なる文字を置換

URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=meadow&node=input%20method" "MeadowMemo/日本語の入力方法と文字コード"へのコメント(無し) [*****] IME を使うための設定 [*****] 文字の入力手法効率的に日本語を入力できる IME (SKK) SKK の関連サイトへのリンク集漢字をひらがなへ変換する機能の紹介 SKK 辞書サーバの紹介 Ruby で書かれた SKK の辞書サーバの紹介 [*****] 句読点を自動的に認識して設定 [***--] 変換単語に注釈を表示行末に ^M と表示された時の理由と一般的な対処法旧 jis と新 jis を区別する設定句読点の統一などを行う text-adjust 半角カタカナを全角カタカナへ変換するコマンド現在の文字コードと異なる文字を置

sconvict 2011/03/29

リンク

作業協力 - savemuseum @ ウィキ-東日本大地震によるミュージアムの被災情報・救援情報

作業協力のページ現在、更新作業にご協力いただいているのは、以下の方々です。（順不同・敬称略）心より御礼申し上げます。北海道開拓の村　学芸員　細川帯広百年記念館学芸調査員　持田　誠／ sapokachi（twitter）千葉県教育庁文化財課　森田 takeshi mizutani 佐藤　@zabu3(twitter) MAKO @mako_8(twitter) azusacchi(twitter) ryojimrt (twitter) kk_mm(twitter) yamiramira(twitter) ta_niiyan(twitter)：一次情報を入手できる手段はもっていませんが、wikiへの転載や整備などお手伝いできます。ある県を担当して欲しいなどの役割分担を振ってください。 Yoshiyuki Ito(fb) savemuseum 作業フロー　2011．3．23 記入者：

sconvict 2011/03/29

リンク

savemuseum @ ウィキ-東日本大地震によるミュージアムの被災情報・救援情報

SAVE THE MUSEUM は2011年4月12日をもって,saveMLAK 博物館・美術館, 図書館, 文書館, 公民館の被災・救援情報サイトへ移行しました。なお, 情報は今後も引き続きsaveMLAKにて収集・更新して参ります。saveMLAKはどなたでも編集可能です。詳しくはsaveMLAK，およびGoogleグループやTwitterのハッシュタグ #saveMLAK,Twitterをごらんください。みなさまのご理解とご協力をお願いいたします。2011/4/12 18:00 北海道(13)　｜　青森県(5)　｜　岩手県(8)　｜　宮城県(8)　｜　秋田県(1)　｜　山形県(2)　｜　福島県(6)　｜　茨城県(7)　｜　栃木県(5)　｜　群馬県(8)　｜　千葉県(18)　｜　埼玉県(1)　｜　東京都(21)　｜　神奈川県(2)　｜　新潟県(4)　｜　長野県(0)　｜　静岡県(1)｜

sconvict 2011/03/29

リンク

Pythonで unicodedata.normalize を使って全角半角を正規化する方法

（この記事は 2008年03月14日に別のブログに投稿した記事を移動・編集したものです。）インターネット上の日本語を扱っていると、全角半角が統一されていない事による表記揺れをなんとかしたい場面に出くわします。半角で書かれた iPod も、全角で書かれたｉＰｏｄも同じものとして扱いたいときや、あるいは単に見た目がきれいになるように、英数字は半角に、カタカナは全角にそろえたい、という場合です。 Python では setomitsさんによる zenhan.py を使うと、文字種ごとに全角半角を選択して変換することができ、除外文字も設定できるので便利です。ただ、そこまで柔軟でなくても良く、単に表記揺れがなくなれば良い、という場合も多いかと思います。その場合はPythonの標準ライブラリに含まれる unicodedata モジュールの normalize 関数を使うと便利です。 >>> impo

sconvict 2011/03/29

unicodedata.normalize

リンク

http://homepage.mac.com/sdkfz164/terminal/sed.html

sconvict 2011/03/29

sed

リンク

はてなブックマーク

タグ

2011年3月29日のブックマーク (16件)

久保木：Python文字の取り扱い - 長岡技科大自然言語処理研究室

日本語文字列コード問題まとめ

start [R Wiki]

R (programming language) - Wikipedia

GNU Emacs - Guided Tour - GNU Project

Emacs Lispでスクリプト処理 — ありえるえりあ

Batch-mode of Emacs

Electronic Genome - nkfとiconvによる文字コード・改行コード変換

nkf Network Kanji Filter プロジェクト日本語トップページ - OSDN

Ubuntu日本語フォーラム

期間限定（3/22〜6/30）無料PDF版公開！海賊の経済学 - 見えざるフックの秘密｜NTT出版

Meadow/Emacs memo: 21.6.3 現在の文字コードと異なる文字を置換

作業協力 - savemuseum @ ウィキ-東日本大地震によるミュージアムの被災情報・救援情報

savemuseum @ ウィキ-東日本大地震によるミュージアムの被災情報・救援情報

Pythonで unicodedata.normalize を使って全角半角を正規化する方法

http://homepage.mac.com/sdkfz164/terminal/sed.html

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス