タグ

ブックマーク / chalow.net (62)

  • Perl の正規表現の「名前付き捕捉」がとても便利

    Perl の正規表現の「名前付き捕捉」がとても便利 2014-08-07-1 [Programming] Perlの正規表現で「名前付き捕捉」を使うと、マッチした部分に名前をつけておけるのであとから参照するときに便利。 「(?<name>...)」でマッチさせると、ハッシュ「%+」に保存されて、「$+{name}」でアクセスできるのです。同じ正規表現内では「\g{name}」など。 サンプルプログラムです。日付表現にマッチしたら、年、月、日をそれぞれ別途格納。そしてそれを正規化して出力。 サンプルプログラム: #!/usr/bin/env perl use strict; use warnings; while (<DATA>) { chomp; if (m{ (?<Y>[0-9]{4})\s?年\s? (?<m>[01]?[0-9])\s?月\s? (?<d>[0-3]?[0-9])\s

    Perl の正規表現の「名前付き捕捉」がとても便利
  • テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)

    テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programming][NLP] 機械学習のデータ加工用のスクリプト。辞書によりテキストから素性を抽出する簡単なプログラムです。先日ちょっと需要がありまして、Pure Perl で動くものを作りました。 あらかじめ用意された辞書(文字列とIDのペア)があり、テキスト中にその辞書の文字列が存在したら対応するIDを出力する、というタスクです。 辞書マッチは最長一致のみではなく、一部重なりや内包含むすべて。最長一致のみならば辞書エントリを長い順にならべてORでつなげた正規表現を作れば一発なのですが、すべて欲しいというわけで(疑似)TRIEを採用。ハッシュで TRIE という懐かしい実装です(初期のJUMAN風)。 ■辞書の例 (fepp-dic.txt)。フォーマットは「^エントリ

    テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)
  • 指定した確率分布に従った乱数発生を効率的に行う「別名法 (alias method)」を Perl で実装してみた

    指定した確率分布に従った乱数発生を効率的に行う「別名法 (alias method)」を Perl で実装してみた 2014-04-16-3 [Algorithm][Programming][学び] 取りうる値の個数が有限個の任意の離散分布に従う乱数を発生させる「別名法 (alias method)」を Perl で実装してみました。ロジックは下記参考文献に載っていたのそのままで、ソース中のコメントは引用となっています。 ■東京大学教養学部統計学教室 (編集), "自然科学の統計学", 東京大学出版会, 1992. 別名法は、例えば「大吉15%、中吉30%、吉30%、凶20%、大凶5%」の割合でランダムにおみくじを出すプログラムを書くときの効率的なアルゴリズムです。 深く考えない実装だと、 $r = rand(1) if ($r < 0.15) { return "大吉"; } elsif

    指定した確率分布に従った乱数発生を効率的に行う「別名法 (alias method)」を Perl で実装してみた
  • 正論を言うから嫌われると思っている人の勘違い思考

    正論を言うから嫌われると思っている人の勘違い思考 2014-03-07-1 [Opinion] ちょっと前のサッカーコラムで、辛口評論家についての話がありました。これは多くの分野でもあてはまると思うので引用しておきます。 - 「辛口評論家」はなぜ好まれないか?│サッカーコラム J3 Plus+ http://llabtooflatot.blog102.fc2.com/blog-entry-4286.html 「人に対しては厳しいけれども、自分に対してはめちゃくちゃ甘い。」という人が信頼を集めるのは無理である。ただ、「辛口」を自認している人に限って、このあたりのことには気が付いておらず、「自分は正論をバシバシ言うから好かれていない。」と勘違いしている。 ネットだとこういう「正論を言うから嫌われると思っている人」はよく見かけます。頭が凝り固まっちゃって、問題を分離できない人が多いですよね。 と

    正論を言うから嫌われると思っている人の勘違い思考
  • サラリーマン川柳2014

    サラリーマン川柳2014 2014-02-24-2 毎年恒例、第一生命の「サラリーマン川柳」、今年もやってきました。 - 第27回私が選ぶサラ川ベスト10 投票受付中!|サラリーマン川柳|第一生命保険株式会社 http://event.dai-ichi-life.co.jp/company/senryu/sp/index.html 投票締め切りは3月19日です。 サラ川、このブログでは2002年から言及しています。2008年以来書いてなかったのですが、6年ぶりに書いてみました。 過去の「サラ川」言及記事: - 2008年の記事[2008-02-20-3] - 2007年[2007-02-13-3] - 2006年[2006-02-07-5] - 2005年[2005-02-08-2] - 2004年[2004-02-18-3] - 2003年[2003-02-18-4] - 2002年[2

    サラリーマン川柳2014
  • BOSE QuietComfort 20i - インイヤータイプのノイズキャンセリング・ヘッドホン

    BOSE QuietComfort 20i - インイヤータイプのノイズキャンセリング・ヘッドホン 2014-02-22-2 [Gadget][iPhone] インイヤータイプのノイズキャンセリング・ヘッドホン「ボーズ クワイアットコンフォート20i」を使い始めたのですが、ほんとびっくりするくらい静かになります、これ。 とはいえ、ノイズキャンセリング機能をオンにしたまま外を歩くのはちょっと怖いので、屋内や車内限定で使うことにします。リモコンにあるボタンでノイズキャンセリングのオンオフが可能で、誰かに話しかけられたときにすぐにオフにして聞き取ることができて便利ですよ。 ■ 【国内正規流通品】BOSE QuietComfort20i ノイズキャンセリング・ヘッドホン(インイヤータイプ) 格サウンドをあらゆる場面で楽しむことができる、ボーズ初のインイヤータイプのノイズキャンセリング・ヘッドホン

    BOSE QuietComfort 20i - インイヤータイプのノイズキャンセリング・ヘッドホン
  • 曲突徙薪(きょくとつししん)

    曲突徙薪(きょくとつししん) 2004-06-13-2 「曲突徙薪無恩沢 焦頭爛額為上客耶」 曲突(きょくとつ)、薪を移すは恩沢なく、 焦頭爛額(しょうとうらんがく)、上客となすや 〔漢書{霍光伝}〕火災の予防策を献ずる者は賞を与えられず、 火災が起きた時に頭を焦がし額をただれさせて救った者は賞を与えられるということ。 根を忘れて瑣末(サマツ)なことだけを重視することのたとえ。 (改訂新版 ことわざ・名言の泉 曲突徙薪に恩沢なし) ストーリー → <http://www.uvas.ne.jp/u_communica/com112.htm> 地道な予防よりも起こった後の対処の方が目立つしかっこいいしありがたがられた、という話。これを読むと 「こういうパターンは良くない。やはり起こる前に対処するぞ!」 と思うよりも、 「そうか、焦頭爛額人間になってうまく立ち回ろう!」 と思いがち。まあ、こん

    曲突徙薪(きょくとつししん)
  • ちょっと考えさせられた看板や張り紙

    ちょっと考えさせられた看板や張り紙 2009-11-12-4 [Neta] 最近見かけてちょっと考えさせられた看板や張り紙など。 一日一組 一日一組しか客をとらないレストランや宿などがあるが、これは葬儀場。 交通量の激しい道路沿いにあった看板。 「いったいなんだろう」と目をひく。 だれでもトイレ だれでも使えるトイレ、という意味。 しかし、人間はだれでもトイレなのか、と一瞬悩んでしまった。 人間とはなにか?トイレとはなにか? いろいろ考えさせられる哲学的なトイレであった。 年齢不当 アルバイト募集の張り紙なんだけど、「年齢不当」とのこと。 これじゃどの年齢もダメっぽい。 たぶん年齢不問だと思う。

    ちょっと考えさせられた看板や張り紙
  • Twitter のストリーミング API を試す

    Twitter のストリーミング API を試す 2010-04-15-2 [WebAPI][Programming] 今日から始まった謎のツイッタードラマ(?)を横目に、ツイッターの Streaming API を試してみました。このを参考にしました。 ■辻村浩 / Twitter API プログラミング (ref. [2010-04-14-1]) ストリーミングAPIって何かというと、タイムラインがひたすらだらだらと流れ続けるAPIです。 以下紹介するのは契約無しで自由に使えるバージョンで、タイムラインから適当に間引いて全体の5%くらいが取得できるみたい。 噂では億単位のお金を払えばほぼ100%取れたりするみたいだけどよく分からない。 使い方を curl コマンドで説明。 JSONで欲しい場合はこう(U=アカウント名、P=パスワード): curl -uU:P http://strea

    Twitter のストリーミング API を試す
  • 巨大なテキストファイルをブラウザで覗き見するための簡単な CGI

    巨大なテキストファイルをブラウザで覗き見するための簡単な CGI 2011-03-08-2 [Programming] 何かのタスクの出力結果として巨大なテキストファイルが得られたとします。これが手元の UNIX 環境に置いてあるだけなら less コマンドや head, tail コマンドでさらっと中身を覗けます。 しかし、他の何人かで共有して中身を軽く確認してもらいたいという場面があります。IT系でない人に見てもらいときなどはいろいろと大変です: (1) データの置いてあるサーバにログインしてもらう→「アカウントない」「コマンドわからない」 (2) イントラのファイル共有→「ファイルが大きすぎて開けない」 (3) イントラWebサイトにアップロードしてブラウザで見てもらう→「IEが固まる」「PCが激重」 こういうときには100行くらいのページごとに表示するCGIが役に立ちます。昔からよ

    巨大なテキストファイルをブラウザで覗き見するための簡単な CGI
    hiromark
    hiromark 2011/03/08
    あ、さくっと確認してほしいときにこれいいかも。
  • 【書評・感想】その数学が戦略を決める

    書評・感想】その数学が戦略を決める 2011-02-22-2 [BookReview] 統計学の入門前の読み物。 ビジネスなどでの応用例が広く紹介されています。 最近(といっても去年の6月)出た文庫版を買って読みました。 ■イアン・エアーズ / その数学が戦略を決める ワインの将来の価値を予測する。症状の統計から病気を診断する。脚段階で興行収入を最大化する。そしてあなたに最適な結婚相手まで決めることも、「絶対計算」が可能にする!IT時代の兆単位のデータがもたらす新世界ビジネス戦略。イェール大学気鋭の計量経済学者がわかりやすく書いた知的大興奮の書! 統計学など数学を用いた予測と感覚や雰囲気に基づいた予測の対決の事例が楽しいです。まあ、武器(数学)を持った人と素手の人の戦いみたいな一方的なものだけどね。 書の事例のように直感や経験というものが数学に負けているわけですが、まあ単に大量のデー

    【書評・感想】その数学が戦略を決める
  • 2010年 はてなブックマーク 年間書籍ランキング トップ10

    2010年 はてなブックマーク 年間書籍ランキング トップ10 2010-12-13-1 [Book][Neta] 今年も残すところあと3週間ですね。 少し早いかもしれませんが、「2010年 はてなブックマーク 年間ランキング トップ100」にインスパイアされて、今年ブクマされたホットな10冊の書籍を紹介します。 はてなブックマーカーなら読んでいて当然かも!? 【1位】20歳のときに知っておきたかったこと ブクマ数:251(12月13日現在) はてぶリンク: 発売日:3/10 【2位】[Web開発者のための]大規模サービス技術入門 ブクマ数:176(12月13日現在) はてぶリンク: 発売日:7/7 【3位】これからの「正義」の話をしよう ブクマ数:173(12月13日現在) はてぶリンク: 発売日:5/22 【4位】Webを支える技術 -HTTP、URI、HTML、そしてREST ブクマ

    2010年 はてなブックマーク 年間書籍ランキング トップ10
    hiromark
    hiromark 2010/12/15
    あーそんな気がする、つか半分はオイラ買ってる。。。
  • クラスタリングツール bayon がとてつもなく素晴らしいです!

    クラスタリングツール bayon がとてつもなく素晴らしいです! 2009-06-10-5 [Algorithm][Software] mixi の fujisawa さんによる、C++ で書かれたクラスタリングツール bayon がシンプルイナフで猛烈に素晴らしくてクールです。 - 軽量データクラスタリングツールbayon (mixi Engineers' Blog) http://alpha.mixi.co.jp/blog/?p=1049 - チュートリアル(Tutorial_ja - bayon) http://code.google.com/p/bayon/wiki/Tutorial_ja 詳細は上記URLを見てもらうとして、 たまたま手元に250万件のデータ(ラベル+特徴語リスト)があったのでさっそく試してみました。 ドキュメント数250万件。 各ドキュメントの特徴を現すキーの平

    クラスタリングツール bayon がとてつもなく素晴らしいです!
    hiromark
    hiromark 2010/12/15
    これつかえるかなあ。
  • JavaScript のセレクターの定番イディオム

    JavaScript のセレクターの定番イディオム 2010-08-30-2 [Programming] わざわざ記事にするまでもないことですが将来のためにあえて記事化。 JavaScript の定番イディオム。 function $(id) {return document.getElementById(id)} document.getElementById() の省略記法として $() を使うためのおまじない。 prototype.js でおなじみの「$」の使い方です。 いわゆる「セレクター」。 これが: document.getElementById('foobar').innerHTML = '<hr>'; こう書けます: $('foobar').innerHTML = '<hr>'; いちいち JavaScript フレームワークを用いずにサクッとやるとき用ですね。

    JavaScript のセレクターの定番イディオム
  • Yahoo! JAPAN のウェブ検索と検索連動広告配信システムが Google に変更になります

    Yahoo! JAPAN のウェブ検索と検索連動広告配信システムが Google に変更になります 2010-07-27-5 [News] 現在 Yahoo! JAPAN で使われているウェブ・画像・動画・モバイル検索エンジンと検索連動型広告配信システムが、Yahoo! Inc. のものから Google のものに変更されることになりました。 各方面にいろいろと影響がありそうですね。 変更時期は未定ですが、年内、年度内くらいかなあ、と予想。 - Yahoo! JAPAN の検索サービスにおけるグーグルの検索エンジンと検索連動型広告配信システムの採用、ならびにYahoo! JAPAN からグーグルへのデータ提供について (Yahoo! JAPAN - プレスリリース) http://pr.yahoo.co.jp/release/2010/0727a.html - Yahoo! JAPAN の

    Yahoo! JAPAN のウェブ検索と検索連動広告配信システムが Google に変更になります
    hiromark
    hiromark 2010/07/27
    なかのひとの言及
  • マトリックス図解思考

    マトリックス図解思考 2010-07-19-3 [BookReview] 献いただきました。ありがとうございます。 (ref. [2010-06-30-2]) ■水野俊哉 / 「4分割」ですべてがうまくいく マトリックス図解思考 書では、世の中の複雑な事象を4つの要素に分け、それをマッピングしてブルーオーシャンを発見する「マッピング・マトリックス」と、目標や夢を実現させるために「何をすべきか」を明確にする「シナジー・マトリックス」という2つのマトリックスを取り上げ、成果やスピードを2倍にするシンプルな方法を解説する。 ありそうでなかった、図解思考の決定版! いつのまにか「マトリックス・シンキングの名手」(帯より)になっていた水野俊哉さんの最新刊。 書で解説されているマトリックスは2つ。「シナジー・マトリックス」と「マッピング・マトリックス」。 シナジーマトリックスは、「田」型に四分割

    マトリックス図解思考
    hiromark
    hiromark 2010/07/20
    読んでみるかなあ。
  • 誤り許容カウント法(lossy count method)のサンプルプログラム

    誤り許容カウント法(lossy count method)のサンプルプログラム 2010-05-12-1 [Programming][Algorithm] 1行1ラベル形式で、 1万種類のラベルを持つ、 100万行のデータがあるとします (ラベルの頻度分布はジップの法則にだいたい準拠するとします)。 各ラベルの頻度をハッシュを使ってカウントするとなると、ハッシュエントリ1万個分のメモリ容量が必要になります。(1万じゃたいしたことないな、という人はもっと大きな数に置き換えて読んでください。) しかし、カウント後に高頻度のものしか使わないということも多いと思います。例えば頻度5000以上のもののみ取り出してあとはいらない、とか。 そうなると、全部のラベルのカウントデータを最後まで保持するのは無駄に思えます。 そこで登場するのが「誤り許容カウント法(lossy count method)」。 低

    誤り許容カウント法(lossy count method)のサンプルプログラム
  • つまらない仕事を20して80の収入を稼ぎ…

    つまらない仕事を20して80の収入を稼ぎ… 2010-04-04-4 [Neta][仕事] 80対20の法則(パレートの法則)ってのがある。 それにならって、 つまらない仕事を20して80の収入を稼ぎ、 おもしろい仕事を80して20の収入を稼ぐような働き方をしたい。 で、さらに 80:20 が 90:10、そして 95:5、99:1 くらいになればめでたい。 以上、ふと思いついたので書き留めてみた次第。 ref. - 働き者と怠け者の割合について[2005-08-07-1] - 思いついたことを適当に書き留めてみる[2008-05-18-2]

    つまらない仕事を20して80の収入を稼ぎ…
    hiromark
    hiromark 2010/04/05
    まあ、確かに理想に近い。
  • WEB+DB PRESS Vol.55

    WEB+DB PRESS Vol.55 2010-02-21-4 [Book] WEB+DB PRESS Vol.55 を献いただきました。 いつもありがとうございます! - WEB+DB PRESS Vol.55 (gihyo.jp … 技術評論社) http://gihyo.jp/magazine/wdpress/archive/2010/vol55 ■WEB+DB PRESS Vol.55 特集の一つは「HTML5[実践]入門」。 私にとっては丁度ピンポイントでした。 とりあえず、Web Storage と Canvas はそろそろちゃんとやるか。 (ref. http://www.html5.jp/) 4年に渡った小飼弾氏の連載「ALPHA GEEK」に会いたいは今回が最終回。 スーパーギーク少数精鋭軍団えとらぼ社の面々。よく見かけがちな人たちですが、いつのまにかみんなえとらぼに

    WEB+DB PRESS Vol.55
  • 「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト

    「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト 2010-01-26-2 [NLP][WebAPI][YahooHacks][Programming] 「第一回集合知シンポジウム」でプレゼンしたのですが、そのときデモしたり言及したりしたURLのリストです。 第一部 ウェブサービス(Web API)の基礎知識 - [を] ウェブサービス(Web API)とは?[2009-12-24-1] - [を] ウェブサービス(Web API)をプログラムから使う[2009-12-26-2] - MECAPI - MeCab Web Service (MeCab API) ttp://mimitako.net/api/mecapi.cgi ttp://yapi.ta2o.net/apis/mecapi.cgi (追記180618: 負荷が厳しいため何年か前から停止中) (追記1

    「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト