タグ

資料に関するhayato34のブックマーク (14)

  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 日本標準産業分類とは

    標準産業分類とは (平成19年11月 第12回改訂) 日標準産業分類は,統計調査の結果を産業別に表示する場合の統計基準として,事業所において社会的な分業として行われる財貨及びサービスの生産又は提供に係るすべての経済活動を分類するものであり,統計の正確性と客観性を保持し,統計の相互比較性と利用の向上を図ることを目的として,昭和24年10月に設定されている。その具体的な内容は,事業所において行われる農業,建設業,製造業,卸売業,小売業,金融業,医療,福祉,教育,公務などすべての経済活動を,大分類,中分類,小分類及び細分類の4段階に分類したものである。 分類は,「統計調査に用いる産業分類並びに疾病,傷害及び死因分類を定める政令(昭和26年政令第127号)」第2条第3項の規定に基づき,総務大臣が統計審議会の意見を聴いて定めるものであり,同条第1項の規定に基づき,指定統計調査及び国,日

    hayato34
    hayato34 2010/07/28
    事業所において社会的な分業として行われる財貨及びサービスの生産又は提供に係るすべての経済活動を分類するもの
  • ドメイン分析,ドメインモデル,ドメイン知識

    システム開発の効率化を図るため,対象のシステムの分野が固有にもつ性質や知識を有効に使おうというアプローチがあります.分野,領域をドメイン(domain)と呼びます.有効に利用するために,そのドメインを組織的に有機的に分析しよう,というのが,ドメイン分析(domain analysis)です. Neighborsは,ドメイン分析を「あるドメインで,そのドメインのエキスパートが重要と考えるオブジェクト,操作,関係付けを識別しようとする試み」と定義しました[Neighbors 1981].また,Prieto-Diazは,「新システムを構築する際にこれまでの構築の情報を再利用する目的で,システムの開発に使用した情報を識別し獲得し組織化するプロセス」と定義しました[Prieto-Diaz 1990]. 筆者らも,このドメイン分析に興味を持ち,90年代の後半から2000年代にかけて,情報処理学会ソフ

    hayato34
    hayato34 2009/12/17
    ドメイン知識
  • 統計的機械学習(Hiroshi Nakagawa)

    統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta

  • Gitの基礎練習

    バージョン管理ツールGitの基礎練習です。 Windows XPのコマンドプロンプトでGitの基的なコマンドを動かしていきます。 Gitを学び始めるきっかけにどうぞ。 (筆者もまだGitを使いこなしているわけではありません。 誤りのご報告、改善提案などは大歓迎です。フィードバックからよろしくお願いします) 目次 はじめに ダウンロードとインストール ファイルをGitの管理下に置きましょう 新しいファイルを追加します 新しいディレクトリを追加します 編集からコミットまでの流れはこんな風に進みます ブランチを使ってみましょう ここまでの作業ログを見ましょう この文書に書かなかったこと 関連リンク 更新履歴 ぜひ、感想をお送りください はじめに Windows XPのコマンドプロンプトで、 バージョン管理ツールGitの基的なコマンドを動かしてみましょう。 この文書の通りに実行すると、 基

  • アルゴリズム設計 講義資料 2005

    Algorithm Design Course Materials 2013 Oct 7: Introduction and Computational Complexity Oct 15: Search Trees Oct 21: Combinatorial Optimization Oct 28: Heuristic Search Nov 5: Text Search Nov 11: Data Compression Nov 18: Memory Management Nov 25: Graph Algorithms 1/2 Dec 2: Graph Algorithms 2/2 Dec 9: Computational Geometry Dec 16: Concurrency Control Jan 15: Canceled Jan 20: Clustering Course Pro

  • プログラミングスレまとめ in VIP

    お知らせ† 非常にゆったりとしたペースで更新が続けられております。 プログラミングに関連することであれば何でも良いので書いてって下さい。 初めての方は、 はじめてなの…やさしくして… へどうぞ 既存の記事をメンテしてもらえると嬉しくて涙が出ます。 編集時のIDは「vip」、パスは「vip」です。 祝・復旧 vipperじゃないがたまに見てた -- 2023-02-28 (火) 18:18:01 旧字キチガイの記述全部消せばいいのに。役に立たん独り言だらけだし。元から少なかった人が消滅した原因でしょあれ -- 2023-03-03 (金) 23:07:56 ↑うんこ掃除しました -- 2023-11-12 (日) 02:42:18 こんにちは -- マイキー 2024-02-22 (木) 07:22:12

  • スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life

    以前からMITのOCWを中心にアメリカの大学の授業のビデオや資料などが公開されているのは知っていたが、今日知ったスタンフォード大学の授業公開っぷりがものすごい。 http://see.stanford.edu/SEE/lecturelist.aspx?coll=63480b48-8819-4efd-8412-263f1a472f5a 授業のビデオだけではなく、なんと授業のtranscript、つまり授業中に先生がしゃべったことがテキストに書き起こされているのだ。 MITなどでも授業のビデオは公開されていたが、当然授業の内容を理解するには授業資料がある場合にせよ、何をしゃべっているかを自分で聞き取るほか無く、リスニング力が低い僕には結構ネックだった。 それが今回しゃべる内容がテキストになっているということで聞き取れなくてもテキストを見ればよいし、リスニングの勉強にもなる。 しかも公開されてい

    スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life
  • Leo's Chronicle: 良い論文を書くために知っておくべき5つのこと

    英語で科学技術論文を書くための書籍はいくつか出版されていますが、大抵、日語と英語の表現やロジックの違いの説明が主で、「論文」というよりは「英語」の学習と質的に変わりません。ここでは、「論文」をいかに書くか、さらには「論文」を書くために「研究」をいかに進めるかという点に踏み込んだ内容を紹介していきます。 まず、コンピューター系の論文の書き方のHow toを示した書き物として、DB分野で有名なJennifer Widomの以下の記事が、良い指針となります: Tips for Writing Technical Papers (Jennifer Widom)この中から、introduction (導入部)で説明すべきことについて引用しました。 What is the problem? (解いている問題は何?) Why is it interesting and important? (なぜその

  • モダンなPerl入門 - モダンなPerl入門

    目次 Perlの概要 なにか なにか バージョン ラクダ画像とPerl 環境別インストール 基礎的なperldocコマンド 変数 スカラー(文字列・数値) 配列 ハッシュ リファレンス 条件分岐 if / elsif / else ループ foreach while デバッグ手法 print warn Data::Dumper YAML XXX ファイル操作 open() IO::File Path::Class stat() / -f / -d / -e / -x サブルーチン プロトタイプ 正規表現 メタキャラクター キャラクターセット データ tie Storable Encode 入出力の考え方 ワンライナー データベース DBI mysql PostgreSQL SQLite オブジェクト bless モジュール CPAN 各OSでのCPANのつかいかた WindowsでCPAN

  • Webサイトの制作/運用の効率化を図る 「ガイドライン策定」のすすめ(後編)

    連載では、Web標準のメリットを最大限に生かすことをテーマに、仕様書には書かれていない部分を中心に取り上げ、実際のWeb制作現場で起こり得る問題について、解決の糸口をたらしていきたいと思います。連載第2回目となる今回のテーマは、前回に引き続き、制作/運用時の指針となる「ガイドライン策定」です。前回紹介しきれなかった「CSSガイドライン」、その他のドキュメントについて解説していきます。 はじめに 連載では、Web標準のメリットを最大限に生かすことをテーマに、仕様書には書かれていない部分を中心に取り上げ、実際のWeb制作現場で起こり得る問題について、解決の糸口をたらしていきたいと思います。 連載第2回目となる今回のテーマは、前回に引き続き、制作/運用時の指針となる「ガイドライン策定」です。前回紹介しきれなかった「CSSガイドライン」、その他のドキュメントについて解説していきます。 対象読者

    Webサイトの制作/運用の効率化を図る 「ガイドライン策定」のすすめ(後編)
  • 東大で学んだ卒論の書き方★論文の書き方

    卒業論文の書き方を詳説

  • Link Analysis and Related Topics - Home

    2008年度 先端情報科学特論 II & IV リンク解析と周辺の話題 担当 新保 仁 shimbo@is.naist.jp 日時 2008/11/10, 11/17, 12/1, 12/8 (全 4 回) - 4限 15:10-16:40 場所 情報棟 L3 講義室 リンク解析は, グラフ (ネットワーク) データの構造から有用な情報を抽出するための, データマイニングの一研究分野です. この講義ではまず, リンク解析が取り扱う 2 種類の尺度 (重要度と関連度) について述べ, それぞれの代表的な計算手法を紹介します. 後半では, 近年機械学習分野で盛んに研究されているカーネルのうち, グラフ上の節点に対して定義されたカーネル (グラフカーネル) と, そのリンク解析への応用について紹介します. 第1回 11月10日 スライド 第2回 11月17日 スライド 第3回 12月1日

  • 1