研究に関するdon-quijoteのブックマーク (49)

  • ファイルハンドルと出力 - 2部 Perl言語仕様 - [SMART]

    ファイルテスト演算子の使い方 $file = "/home/httpd/html/index.html"; # ファイルが存在するか確認 if ( -e $file ){ .... } パイプ UNIX 系 OS 全般や、Windows NT といったサーバ OSには、パイプが用意されています。パイプは、プロセス間で通信するために用意された機構で、標準出力と標準入力を経由してデータを受け渡しするためのものです。これによって、一時ファイルなどを経由せずに、ダイレクトにプログラムが標準出力に出力した結果を他のプログラムの標準入力に渡すことができます。 open でパイプ処理 以下では Perl からパイプを使った例を紹介します。ファイル名の先頭に | を付けると、そのファイル名をコマンドとして解釈し、そのコマンドラインへ出力します。 sendmail を使ってメールを送信する例です。 open

  • webbook2

    森北出版 / Webアプリケーション構築入門(第2版) 矢吹太朗『Webアプリケーション構築入門』(森北出版, 第2版, 2011)サポートサイト 書店へのリンク集(版元ドットコム) 正誤表 Dockerを使うウェブアプリケーション開発環境(PHP) 動作を確認したバージョン 解説動画 補足 2章 3章 4章 5章 6章 7章 8章 9章 付録A 付録B ソースコード 図録(PowerPoint) 参考文献とリンク ライセンス Copyright (c) 2022 Taro Yabuki Released under the MIT license

  • PERLの強味、文字列操作をやるぞ

    1-3. PERLの強味、文字列操作をやるぞ PERLの文字列操作は、awkを基としていて非常に便利ですが、はじめての人には 判りにくいかもしれません。まずは、何が出来るのかと、その処理の理解のポイント を説明して、その後例を示して細かく説明します。 1-3-1. 文字列操作で何が出来る? PERLの文字列操作は、主に行単位で行います。これは、前に示したwhile等で 判るように行毎に同じ処理を考えると納得がいくと思います。 それで、できる事は ○文字列の検索 ○文字列の削除 ○文字列の置き換え ○文字列の抽出 これらの処理が、簡単な記述で実現できます。 1行単位の処理だと言う事を頭に入れておくと、非常に考えやすいです。 1-3-2. 文字列検索 まずは、良く使う”文字列の検索”いきます。 以下のプログラムを(pr31.pl)で作って下さい。 #!/usr/local/bin/jperl

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • mecab辞書にwikipediaのタイトル名を追加 - kokotech

    wikipediaのタイトルを追加しようとしたらいくつかハマったので。 環境はFedora10。 まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん!のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい    名詞,一般,*,*,*,*,けい,ケイ,ケイ おん    名詞,一般,*,*,*,*,おん,オン,オン !      記号,一般,*,*,*,*,!,!,! の      助詞,連体化,*,*,*,*,の,ノ,ノ せい    名詞,非自立,一般,*,*,*,せい,セイ,セイ で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t       * w       * i       * t       * t       * e      

  • Excelで自然言語処理: MeCabにユーザ辞書を追加するには?

    「MeCab/CabChaによる言語解析演習」を参考に、MeCab(Windows版)にユーザ辞書を追加しようとしたところ、かなりハマりました。MeCab/CabChaによる言語解析演習http://chasen.naist.jp/chaki/t/2008-09-09/doc/mecab-cabocha-nlp-seminar-enshu-2008.ppt一連の失敗と原因、対処をメモしておきます。【使用したMeCabのバージョン】0.98(Windows用バイナリ)【コマンドラインからの入力】C:\NAIST>mecab-dict-index -f SHIFT-JIS -t SHIFT_JIS –d “C:\Program Files\mecab\dic\ipadic” -u user.dic user.csv【エラーメッセージ】dictionary_compiler.cpp(71) [p

  • TTM: TinyTextMiner β version

    はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。 また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。 インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。

  • TWC: TinyWebCrawler β version

    Mac版TWCを起動すると Use of uninitialized value in concatenation (.) or string at ... Tcl.pm line 394, <DATA> line 855. のエラーメッセージが出ますが無視してください。 使い方 TWCはをダブルクリックすると起動します。使い方は非常に簡単なので、起動すれば分かると思います。なお、Mac版TWCに日語キーワードを入力するときは、コピー(Ctrl+c)&ペースト(Ctrl+v)で貼りつけてください。 スクリーンショット (左がWindows版、右がMac OSX版) 謝辞 TWCは明治大学の水野誠先生のご要望により生まれました。 また、立命館大学の樋口耕一先生より様々な改善案(v.004作成への要望・v.005作成用パッチ)を頂きました。 記して感謝いたします。 履歴 2012-01-16

  • http://mjin.doshisha.ac.jp/iwanami/

  • 自然言語処理 - 機械学習の「朱鷺の杜Wiki」

    リンク集† 言語情報処理ポータル Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources Natural Language Processing @ AAAI AI topics Related links @ Arturo Montejo Ráez nlp.nagaokaut.ac.jp:自然言語処理 @ 長岡技科大自然言語処理研 雑談@くどう:FrontPage:自然言語処理のツールや書籍の紹介などがまとめられている. ACLWiki ACL Anthology:計算機言語学関連の論文のデジタルアーカイブ ACL Anthology Network:文献間や研究者間のネットワークについての統計 Freeware†

  • Java Linux システムエンジニアになる通信教育(自己 学習、スクール)/IT Boost

  • 統計データリンク集(マクロ統計)

    お金がかからない&比較的収集が容易な統計サイトを挙げてみました。ご参考までです。世界経済(日含む)の統計サイトです。

    統計データリンク集(マクロ統計)
  • はてなブログ | 無料ブログを作成しよう

    新米と秋刀魚のわた焼き お刺身用の秋刀魚を買いました。1尾250円です 3枚におろして、秋刀魚のわたに酒、味醂、醤油で調味して1時間ほど漬け込み、グリルで焼きました 秋刀魚のわた焼き わたの、苦味が程よくマイルドに調味され、クセになる味わいです 艶やかな新米と一緒に 自家製お漬物 土…

    はてなブログ | 無料ブログを作成しよう
  • コマンドプロンプトを使ってみよう! -バッチファイル-

    MS-DOSとの関係、コマンドプロンプトの使用方法やバッチファイル作成方法など、ぜひ覚えて使ってみよう! バッチファイルとは?? echo  バッチファイルの中のメッセージの表示、非表示を切り替える rem  注釈行を設定する pause  バッチファイルの処理を一時停止させる if/else  条件によって処理を分岐する goto  バッチファイル中の別の処理ブロックにジャンプする call  現在のバッチファイルから他のバッチファイルを呼び出し、起動させる for  コマンドを繰り返して実行させる shift  バッチパラメータを繰り上げる setlocal/endlocal  バッチファイルでの環境変数の使用の開始、終了 サイトマップ echoは、標準出力(画面)にコマンドプロンプトや各種メッセージを表示するかどうか 制御するコマンドである。 通常のコマンドプロンプトでも使用されるが

  • http://www.cdwavmp3.com/mp3/bangai/batfile.html

  • 文字列から正規表現で特定部分を抽出 - 西海岸より

    よくやるのでメモ。 引数の正規表現で、()でくくったところを抜き出す関数。 import java.util.regex.*; public class RegexUtil { public static String extractMatchString(String regex, String target) { Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(target); if (matcher.find()) { return matcher.group(1); } else { throw new IllegalStateException("No match found."); } } public static void main(String[] args) { St

    文字列から正規表現で特定部分を抽出 - 西海岸より
  • 基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用 | CiNii Research

  • テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) - シリコンの谷のゾンビ

    テキスト分類課題などでは,文書をTF-IDF重み付けしたbag-of-wordsで表現することが多い.これをベースラインにするため,さくっとこの処理をしたい.卒論やM1のときは,この処理をわざわざ手で書いたのだが,バグが出たら大変だし,なにより面倒くさい. 論文では,最近流行りのLuceneを使っている人もいるけれど,WekaのStringToWordVectorもなかなか高性能.TFIDF重みづけまでの処理をやってみる.Luceneの方が汎用性があるから便利そうなんだけれど,とりあえずテキスト分類課題に使いたいので. 前提知識 かなり自分用メモ(+α)なので,説明不足な部分があります.あと,基的にCUIベースで話を進めます.最後の方に気がついたのですが,GUIとずれがありますね.そこらへんは,まぁ,適当に. Wekaについては,日語情報があるにはあるのですが最近更新されていないので,

    テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) - シリコンの谷のゾンビ
  • 2010-04-15

    4/17(土)の第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語による クラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。 当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 混合分布モデル 混合分布モデルは、クラスタリングの問題を確率モデルで解く方法。データが発生する確率が複数の確率の線形和で書かれる分布を混合分布と呼ばれる。データの発生メカニズムが確率モデルでうまくモデル化できるとき、強力な手法。 ※アルゴリズム・方程式の詳細は「第3回 データマイニング+WEB 勉強会@東京」でお

    2010-04-15
  • 卒論の書き方 - 内田樹の研究室

    四回生たちに卒論中間発表の「心得」をメールで送信した。 学生にむかって「卒論とは何か」ということを書くのも、これが最後の機会であるので、記念にそれを転載することにした。 うちのゼミ生に限らず、「卒論って、どうやって書けばいいんだろう・・・」と困っている学生諸君の一助になればと思う。 みなさまへ「卒論中間発表の心得」 暑いですね。ぼくも暑さと忙しさで死にそうです。 みなさんも就活やバイトやら旅行やらでたいそうお忙しい夏休みをお過ごしのことと思いますが、「卒論」というものがあることを忘れてはいけません。 卒論中間発表について、ご連絡いたしますので、熟読玩味してください。 (1)とき: (2)ところ: (3)用意するもの:草稿、ハンドアウト(19枚) (4)草稿について:字数:6000〜8000字(音読して15〜20分) 必ず書かなければいけないことは 「タイトル」 「目次」 「序章」:ここでは