サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
arupaka-arupaka.hatenadiary.org
名詞をひとまとめにした形態素解析 mecab 一番したのsurface版を使う。 featureだと未知語を無視する問題がある. 複合語について http://kw.kait.jp/opac/kkb-022-021._;jsessionid=227623429A2954BED6FEE927770BEEC4?key=DNHDTD http://www.nihongokyoshi.co.jp/manbow/manbow.php?id=832&TAB=1 より 複合名詞 言語一般<日本語の構造> 統語構造の型は、名詞+動詞連用形(「雨降り」「絵かき」「山越え」など)、動詞連用形+動詞連用形(「建てかけ」「つりだし」「建て売り」など)、形容動詞語幹+動詞連用形(「馬鹿騒ぎ」「にわか仕込み」「無理押し」など)、形容詞語幹+動詞連用形(「浅漬け」「悔し泣き」「悪のり」など)がある。特に、名詞+動詞連用
コマンド、ライブラリインストール編 (1)基本原則 自動インストールは使えない. yum install xxx とかは使えない。 (2)ソースからコンパイルするときは, ./configure --prefix=/home/username/usr とかするとインストールディレクトリを指定できる. ソースは,wgetとかで.tar.gzファイルをもってくる. (3)自分のところやライブラリのコマンドが使えるようにするためにはいくつかの環境変数を 設定する必要がある.~/.bashrc とかに書く. export PATH=/usr/bin:$PATH export LIBRARY_PATH=/usr/lib:/usr/lib64:$LIBARY_PATH export C_INCLUDE_PATH=/usr/include:$C_INCLUDE_PATH libとかbinとかlib64と
Rでファイルからデータを一行ずつ読み取る方法。 C言語でいうと、fopenとfscanfに対応するもの。 意外とどこにも書いていない。 ファイルの3行目まで読み取り。 f<-file("test.txt","r") for(i in 1:3){ a<-readLines(con=f,1) cat(a,"\n") } カンマ区切りの場合は,以下のようにベクトル化。文字列で入っているので注意。 a<-readLines(con=f,1) v<-as.vector(strsplit(a,",")[[1]]) v 全行の読み取り repeat{str=readLines(con=a,1);if(length(str)==0){break;};cat(str,"\n");}
関連texファイルのwordでのスペルチェック。 http://d.hatena.ne.jp/arupaka-_-arupaka/20111119/1321680395 下のほうに論文のとき役立つリンクをまとめていきます。 一つのパラグラフの英文を書く流れ (1)日本語でできる限り無駄がなく論理的に「言いたいこと」を並べる。 その際、主張と根拠を整理する。並べるときはプログラムを設計する イメージで。箇条書きや図示やフローチャートなど好きな方法で。(文章で考えないのがポイント:図→英語) (2)順番がきまったらそれを英語になるような日本語に変換していく このとき無駄がふえなければ順番を変えたり柔軟に。 (3)英語に直す。まず、典型表現の場合、下にあげた本等をみながら表現をさがしていく。また、自分の論文とよく似た論文から探す。それがなかったら「アルク」で検索して例文を探してみる。時間がなかっ
python のnetworkx で複雑ネットワーク解析。 networkxはpythonのグラフライブラリ。とてもよくできている。 各ノード間の経路長も関数一つ。ものすごく便利。。 ほとんどプログラム書かずRっぽく、インタラクティブで ネットワーク解析ができてしまう感じ。ほんとうに便利。 cygwinへの導入例: ソースのインストール。 $ wget http://pypi.python.org/packages/source/n/networkx/networkx-1.1.tar.gz#md 5=f72e260447711ca0fd7b1b1de5a2396d 展開: $ gzip -d networkx-1.1.tar.gz $ tar -xvf networkx-1.1.tar インストール: $ cd networkx-1.1 $ python -install setup.py
http://d.hatena.ne.jp/kamicup/20081002/1222926167 を完全に参照いたしました。 cygwin 日本語用化 .bashrc export LANG=ja_JP.SJIS export TZ=JST-9 export JLESSCHARSET=japanese-sjis #export PATH=$PATH:/cygdrive/c/Program Files/R/R-2.8.1/bin #export PATH=/cygdrive/c/MinGW/bin:$PATH #export PATH=/cygdrive/c/bin:$PATH #export RHOME=/urs/local/lib/R #export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$RHOME/bin alias ls='ls --show-cont
rubyでawkのような一行野郎を作る。 rubyはawkのようにファイルを一行ずつ 読み込む処理が可能である。 起動オプションを変えることで、 簡単に実現できる。 たとえば、 a,b,c e,f,g h,i,j のようなファイルがある場合、 ruby -F, -an 'puts $F[1]' ファイル名 とすると b f i 状況としては まず-aオプションで 一行ずつ読み取るモードをオンにする。 その後-nオプションで一行ずつ$Fに入れる。 そのとき自動的に-Fオプションで指定した 区切り","で分割される。 (一行野郎のことは最近はワンライナー というらしい。) 参考ページ: http://blog.lilyx.net/2007/11/29/writing-one-liner-in-ruby/ http://d.hatena.ne.jp/keita_yamaguchi/2008083
ubuntuのvnc4serverの設定。 デフォルトのvncサーバーのピーノは オンラインのログインできないので、オンラインログインできるvnc4serverを使う。 A)まず、インストール。 次のものをインストール sudo apt-get install vnc4server sudo apt-get install xinetd sudo apt-get install twm http://www.uetyi.mydns.jp/wordpress/colinux-setting/entry-279.html B)次に設定。特に、パスワードファイルと設定ファイルの権限をログインするユーザーができるようにしておくのがポイント。 (1) /etc/services xvnc 5901/tcp # VNC Server の一行を加える。 (2) /etc/xinetd.d/xvnc 引用
linuxの数学とデータ解析環境の整備。 すべてフリーソフトで構成。 (まだ、ネットワーク可視化[グラフ可視化]のソフト がたりない。→ cytoscapeをインストールすると良い。) 外部PCとの接続ソフト #リモートデスクトップ apt-get install vnc4server apt-get install xinetd apt-get install twm #ssh server apt-get install ssh vnc4serverの設定は arupaka-_-arupakaの他の 記事参照。 テキストエディタとwebブラウザ #テキストエディタ apt-get install emacs apt-get install vim ##webブラウザ #apt-get install w3m 日本語の環境(形態素解析と文字コード変換) sudo apt-get inst
このページを最初にブックマークしてみませんか?
『arupaka-_-arupakaの日記』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く