タグ

ブックマーク / sleepy-yoshi.hatenablog.com (7)

  • 腰痛はアタマで治す - シリコンの谷のゾンビ

    腰痛はアタマで治す (集英社新書) 作者: 伊藤和磨出版社/メーカー: 集英社発売日: 2010/08/17メディア: 新書購入: 5人 クリック: 47回この商品を含むブログ (16件) を見る (2011-01-03読了) 棚に入っていて読んでいなかった.もっと早く読むべきだった…. 著者は「ぎっくり腰」が原因で引退に追い込まれた元プロサッカー選手.最初の方に書かれているが,激しいトレーニングに耐えられたにも関わらず,ふとした瞬間に起こるぎっくり腰が定期的に起こり,その都度リハビリから開始するという症状に悩まされて引退したのだという.単純な筋力増加やスポーツのためのトレーニングでは,腰痛予防にはならないということを示唆している.年初めにトレーニングとかいっていたけれど,ノーぎっくり腰のためにはちゃんと考えなければと思った. 簡単にいうと「腰痛の真の原因を特定するのは難しいし,また,

  • awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ

    今までテキスト処理などでワンライナーを使うときはperlを使っていた.Perlを先に覚えた身としてはawkやsedは過去の産物だと思い込んでいた.awkの方が簡潔に書けるケースに出くわしたことをきっかけにawkを勉強してみたら単なわず嫌いだったことに気が付いたのでポイントをまとめてみる. なおプログラミング言語としてはAWKという表記が正しく (Aho, Weinberger, Kernighanの頭文字! ということだけは以前から知っていた),オリジナル処理系のことをawkと呼ぶのだろうけれど,今回は処理系の違いは気にしないのでawk, nawk, gawkの違いは気にしないことにした.ていうか詳しく知らない. 「awkってなんぞ?」という方が対象読者.スクリプト言語と正規表現の基礎知識が少しでもあれば,たぶんすぐに使えるようになると思う.awkを一度でも使ったことがある人には新しい情

    awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ
  • 情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ

    どの会議や雑誌に投稿すべきかの情報を共有するのは素晴らしい - 発声練習を読んで,そういやIR系のカンファレンスまとめを見たことがないなぁ,と思ったのでIR系の研究を取り扱っているまとめてみることにしました.とはいうものの,自分が通ったことないので,偉そうに語っている部分は全て又聞き情報と妄想によるです. 長らく書いていなかったので,「情報検索ことはじめ」シリーズにしてみました.今回が第3弾です. 過去の情報検索ことはじめシリーズ 情報検索ことはじめ〜研究者編〜 - 睡眠不足?! 情報検索ことはじめ〜教科書編〜 - 睡眠不足?! 何が情報検索 (IR; information retrieval) なの? と言われると明確な定義を説明することができません.愛するIIRから引用します. Information retrieval (IR) is finding material (usual

    情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ
  • お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ

    突然Cでコードを書きたくなったので,なんちゃって転置インデクスを用いた検索プログラムを書いてみた. 転置インデクスとは,索引語と呼ばれる単語が出現する文書情報 (場合によっては位置情報も) を保持したデータ構造のことで,索引語と,それに対応する転置リストによって構成される. # 索引語 -> 転置リスト hoge -> 5: 1,2,3,4,5 fuga -> 3: 1,4,5 piyo -> 2: 4,5これは,hogeという単語が文書1,2,3,4,5に出現し,fugaという単語が文書1,4,5に出現し,piyoという単語が文書4,5に出現する情報を保持している.最初の5,3,2という数字はそれぞれ索引語がいくつの文書に出現したかという文書頻度 (document frequency; DF) を表している. 検索クエリhogeが入力された場合には,文書1,2,3,4,5を検索結果とし

    お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ
  • UNIXネットワークプログラミングのお勉強 (1) - シリコンの谷のゾンビ

    3連休何をしようかと考えていたら,なんとなくデーモンプログラムを書いてみたくなったので,Cによるネットワークプログラミングを勉強することにした. 2年くらい前に文献[1]を購入し,過去に2回ほど勉強しようと思ったけれど,とにかくインクルードする必要があるヘッダーファイルが大量にある時点で嫌気が差して挫折してしまった. ソケットのイメージはわかっているつもりだけれど,実はよくわかっていなかった.なぜかわからないけれど,今日を読みながらてしてしコードを書いていたら色々つながって基的なことを理解することができた. デーモンを作るところまで行きたかったけれど,途中まででいったん中断.サーバプログラム,クライアントプログラムを書く手順をメモしておく. サーバプログラム socketをつくる bindする listenする acceptする いろいろ処理する クライアントプログラム socketを

    UNIXネットワークプログラミングのお勉強 (1) - シリコンの谷のゾンビ
  • [c][unix]UNIXネットワークプログラミングのお勉強 (2) デーモンの作り方 - シリコンの谷のゾンビ

    一晩寝てからデーモンプロセスの作り方を眺めてとても簡単だということに気がついた.自分メモ. デーモンへの道のり fork()して子プロセス (次郎) を生成.親プロセス (太郎) を終了する 次郎プロセスでsetsid()する 次郎プロセスはセッショングループリーダになる この時点で次郎プロセスは制御端末を持たなくなる 次郎プロセスがfork()して孫プロセス (三郎) 生成.次郎プロセス終了 chdir("/")する. shutdown時のumount処理に迷惑をかけないため 標準入力,標準出力,標準エラー出力を閉じる サンプルコード 比較を行うために3つのプログラムを書いた. daemon 全部行う nondaemon 2度目のfork()をしない nondaemon2 setsid()しない #include <stdio.h> #include <stdlib.h> #includ

    [c][unix]UNIXネットワークプログラミングのお勉強 (2) デーモンの作り方 - シリコンの谷のゾンビ
  • 多Byte文字コードの圧縮 - シリコンの谷のゾンビ

    ひょんなことから気になって調べてみたので結果を記録. Shift-JISやEUC-JPは日語を2Byteで表現する.同じテキストをShift-JISで表現しようが,EUC-JPで表現しようがサイズは同じになる. けれど,多バイト文字コードのことなんて考えないASCIIな世界の人たちがLZ法のような辞書式アルゴリズムを実装した場合,1バイト単位で処理するから文字コードの差が出るのではないかとふと思った. そういうときは論よりRun. 同じテキストを異なる文字コードで表現した際の圧縮サイズを比較してみた. 対象テキストは,みんな大好き夏目漱石「こころ」 圧縮アルゴリズムはgzip (LZ77+Huffman) --bestオプション付き 元サイズ kokoro.txt.sjis 368051 byte kokoro.txt.euc 368051 byte 当然同じ. 圧縮後 kokoro.t

    多Byte文字コードの圧縮 - シリコンの谷のゾンビ
    yokochie
    yokochie 2009/04/09
    なかなか興味深い
  • 1