タグ

勉強とlinuxに関するhanny986のブックマーク (3)

  • TF-IDF値計算プログラム

    プログラムは,形態素解析済の文書ファイルを格納したディレクトリをコマンドライン引数として,各単語について重み付け手法の1つであるTF-IDF値を計算し,閾値以上の単語を属性ファイルとして出力するものである.出力は単語リスト,C4.5形式,TinySVM形式の3種類を指定できる. TF-IDF値は文書中から重要な索引語を取り出すために使われ,単語の出現頻度(網羅性を表す重み)TF値と文書頻度の逆数(特定性を表す重み)IDF値の積によって与えられる.プログラムでは以下の式で計算する. TF値 IDF値 TF-IDF値 なお,後述のオプションによってTF値を正規化しない(単語の出現回数をそのままTF値とする)ようにできる.また,IDF値の代わりにRIDF値を用いることもできる. 出力ファイル名は"指定したディレクトリ名+出力形式に対応する拡張子"となるが,別の名前に変更することもできる. 動

  • ファイルサイズをチェックするスクリプトのサンプル - bonlife

    「FFTT : はじめましてPython」にすごく簡潔にPythonの特徴がまとまっててビックリしたbonlifeです。Pythonに興味がある人はまずここを読んでみると良いかも。 それはさておき、ファイルサイズをチェックするスクリプトをPythonで書いてる人がいたので、ちょっと真似してみました。 シェルスクリプトメモ ファイルのサイズを判定するpythonプログラム まず、こういう小さなスクリプトの定番のシェルスクリプト。bonlifeっぽい書き方で勝手に書き直してみました。 file_size_check.sh #!/bin/sh SCRIPT_NAME=`basename $0` usage(){ echo $SCRIPT_NAME file [file...] >&2 } if [ $# -lt 1 ] then usage exit 1 fi for f in $* do if

    ファイルサイズをチェックするスクリプトのサンプル - bonlife
  • 『[Linux] 時刻を正確に合わせるためのNTP設定あれこれ』

    サーバーの時刻は、その上位のミドルウェアやアプリケーションでも用いられるため、それが狂うとシステムトラブルを招く恐れがあります。 よくあるのが、サーバーの時刻が進んでいた場合にそれを元に戻すと、アプリケーションで取り扱うデータが過去のものなのに未来の時刻となり、データ自体に矛盾がでてしまうというようなものです。 また、DBシステムでリカバリを行う場合に、サーバー上での時間が前後したがために、DBシステム自体がどの時点にリカバリをすればよいのかわからなくなって正常に復旧できないというような場合もあります。 そのように、たかが時刻といっても大事な設定となるわけですが、定期的に手動で設定するのも面倒なので、自動化してくれるNTPの設定方法をまとめてみたいと思います。 サーバー上でNTPを動かすためには、NTPのパッケージのインストールと設定ファイルをいくつか変更することで簡単に他のサーバーと時刻

    『[Linux] 時刻を正確に合わせるためのNTP設定あれこれ』
  • 1