タグ

ブックマーク / www.unixuser.org/~euske (7)

  • Tree-like Constant Database (tcdb)

    Tree-like Constant Database, or tcdb, is an extension to D. J. Bernstein's cdb file format. tcdb is a hash table that can contain a tree structure whose edges and nodes can be represented as key/value pairs. tcdb is suitable to represent directory structures or sparse matrices. tcdb is also suitable for storing a large number of key/value pairs that have common prefix. Like an original cdb file, a

    yass
    yass 2013/10/25
    " Tree-like Constant Database, or tcdb, is an extension to D. J. Bernstein's cdb file format. tcdb is a hash table that can contain a tree structure whose edges and nodes can be represented as key/value pairs. / suitable for storing a large number of key/value pairs that have common prefix "
  • Constant Database (cdb) Internals

    Constant Database, known as cdb, is an elegant data structure proposed by D. J. Bernstein. It is suitable for looking up static data which is associated with arbitrary byte sequences (usually strings). Although DJB already explained this in his cdb page, it is not easy to implement this because his document lacks some important information such as the number of each subtable. Here I tried to illus

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • my bashrc

    状況: いくつものホストに何回もログインする。 いくつかのホストはホームディレクトリを nfs で共有している (がすべてではない)。 ホストによってプロンプトの色を変えている (同じウインドウからあっちこっちにログインすると混乱するので)。 ちなみに emacs -nw のステータスバーの色もホストによって変わるようになっている。 ssh-agent を使っている。 GNU screen を使っている。 文字列処理をすることが異様に多い。 ## .bashrc ## Yusuke Shinyama ## ## 新しく作られたファイルのパーミッションがつねに 644 になるようにする。基。 umask 022 ## core ファイルを作らせないようにする。これも基。 ulimit -c 0 ## 環境変数の設定 # man とかを見るときはいつも less を使う。 export P

  • https://www.unixuser.org/~euske/doc/openssh/jman/

  • 形態素解析ツールの品詞体系

    ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。 いわゆる形容動詞は名詞の形容動詞語幹として含まれ、 形容詞には含まれない。Juman の指示詞という カテゴリは「連体詞」に含まれている。 判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

  • SSH-KEYGEN (1)

    認証用の鍵を生成、管理、および変換する 書式 ssh-keygen [-q ] [-b ビット数 ] -t 鍵の種類 [-N 新しいパスフレーズ ] [-C コメント (訳注:SSH1のみ)] [-f 出力先identityファイル ] ssh-keygen -p [-P 古いパスフレーズ ] [-N 新しいパスフレーズ ] [-f パスフレーズを変更するidentityファイル ] ssh-keygen -i [-f 変換するidentityファイル ] ssh-keygen -e [-f 変換するidentityファイル ] ssh-keygen -y [-f identityファイル ] ssh-keygen -c [-P パスフレーズ ] [-C コメント ] [-f コメントを変更するidentityファイル ] ssh-keygen -l [-f 指紋を表示するidentity

    yass
    yass 2005/09/15
  • 1