タグ

解説に関するstick23rdのブックマーク (72)

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

  • 第3回Jenkins勉強会に参加してきた - Diary of absj31

    5月20日 第3回Jenkins勉強会(東京都) 前回第2回から約3ヶ月、第3回目のJenkins勉強会です("Hudson"の名が取れた)。 そして今回のテーマは「LL言語プロジェクトにおけるJenkinsの運用について」。 2月25日 第2回 Jenkins勉強会(旧Hudson勉強会)(東京都) Jenkins現状報告 発表者:Kohsuke Kawaguchi (kohsukekawa) 氏 Jenkins(旧Hudson)創始者である川口さんによるJenkins現状報告。 当初の予定(こくちーず募集概要)ではこのセッションについては記載は無かったのですが、開催前にとある事件が起こった事もあり急遽初っ端に行われることに。 まずは、『離婚』(Hudson/Jenkins分割となった事件〜分割に至るまで。川口さんはこの事象について『離婚』というキーワードを用いてユーモアな解説を交えて進

    第3回Jenkins勉強会に参加してきた - Diary of absj31
  • memcachedと“正反対”、Redisが仮想メモリをサポート - @IT

    2010/09/07 KVS(キー・バリュー・ストア)に分類されるオープンソースのRedisの新バージョン、「Redis 2.0.0」が2010年9月5日にリリースされた。Redisはmemcachedと同様にキーと値のペアをメモリ上に保持するKVSの一種だが、3つの際立った特徴がある。1つはハッシュ以外のデータ構造もサポートしていることで、リスト型、集合型、順序付き集合型などのデータ構造が扱え、サーバ側でコレクションに対するpush/pop、コレクション同士のunion/intersection、数値のincr、decrなどの操作がアトミックに行える。バージョン2.0では複数の操作を1つにまとめてアトミックに操作するコマンドも増えている。 もう1つのRedisの特徴は、マスター・スレーブによるレプリケーション設定ができ、リード側のスケールアウトが容易にできること。 そして3つ目の特徴は、

  • MATLAB Classification Wrapper 1.00 (Debug Version)

  • Latent Dirichlet allocation - Wikipedia

    In natural language processing, latent Dirichlet allocation (LDA) is a Bayesian network (and, therefore, a generative statistical model) for modeling automatically extracted topics in textual corpora. The LDA is an example of a Bayesian topic model. In this, observations (e.g., words) are collected into documents, and each word's presence is attributable to one of the document's topics. Each docum

  • Latent Semantic Indexing - naoyaのはてなダイアリー

    情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。 見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単

    Latent Semantic Indexing - naoyaのはてなダイアリー
  • Planet MySQL :: Planet MySQL - Archives - MyISAMとInnoDBのどちらを使うべきか

    Twitterで話題になってたので簡単にまとめました。 ●MyISAMにしか無い機能を使いたい場合はMyISAMを使うしかない ・全文検索 (TritonnやSphinx) ・GIS ●InnoDBの利点(MyISAMの欠点) ▲障害対応系 ・クラッシュしても再起動するだけでリカバリができる ・クラッシュリカバリにかかる時間はテーブルサイズに比例するようなことはなく、コミット済みのデータは修復できる (巨大なMyISAMテーブルのREPAIRには数日単位で時間がかかることがある) ・オンラインバックアップができる ・INSERTやLOAD DATAなどを実行している途中でCtrl+Cでその更新系SQL文を止めても、テーブルは壊れないし、中途半端な状態で更新されることも無いし、スレーブが止まることも無い ▲性能系 ・行レベルロックなので並列性が高い(MyISAMはテーブルロック)。またSEL

  • 第1回 画像認識の基本を知ろう | gihyo.jp

    この連載では、この表で言う画像認識技術を主に扱いますが、どの技術も非常に活発に研究されており、様々な分野で実用化されています。 画像認識・理解の基原理 画像認識の基原理 画像認識は、学習のフェーズと認識のフェーズの2つからなります。学習のフェーズでは、コンピュータに認識させたい対象画像を学習させる処理を行い、認識のフェーズではコンピュータに入力画像が学習した対象かどうかを判定させます。 図5 学習と認識の流れ 学習フェーズ 学習のフェーズでは、まず画像になんらかの処理を施して、ピクセルのデータ列から、より学習に適したデータ列(特徴量データ)へと変換を行います。 次に変換されたデータを、機械学習と呼ばれるアプローチを用いてコンピュータに学習させます。機械学習とは、その名の通り人間が行っているような学習の仕組みをコンピュータに持たせるための技術です。例えば人間は、初めて見る人の顔画像でも、

    第1回 画像認識の基本を知ろう | gihyo.jp
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

  • できる!遺伝的アルゴリズム

    Outline of Genetic Algorithm + Searching for Maximum Value of Function and Traveling Salesman Problem using R. To view source codes and animation: Searching for Maximum Value of Function - https://github.com/katokohaku/evolutional_comptutation/blob/master/chap2.1.Rmd Traveling Salesman Problem - https://github.com/katokohaku/evolutional_comptutation/blob/master/chap2.2.Rmd

    できる!遺伝的アルゴリズム
  • もう1つの、DBのかたち、分散Key-Valueストアとは

    もう1つの、DBのかたち、分散Key-Valueストアとは:分散Key-Valueストアの命「Bigtable」(1)(1/3 ページ) RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説 クラウド時代のデータベース「分散Key-Valueストア」 グーグルがインターネットの世界をここまで席けんできた最大の理由は何でしょうか。実は、それは同社の優れた検索技術ではありません。グーグルが成し遂げた最も大きなブレークスルーの1つは、同社が生み出した巨大な分散データストア、「Bigtable」にあります。 Bigtableは、Google検索をはじめ、YouTubeやGoogle MapGoogle Earth、Google Analytics、Goog

    もう1つの、DBのかたち、分散Key-Valueストアとは
  • 私たちはいつも、綱渡り〜律と澪の方程式は答えなんてないから〜 - たまごまごごはん

    けいおん!第11話みたよー。 今回すごかったですねー。 これこれ。 鼻貴族! 横にギー太って書いてるのでたぶん、唯作。 相変わらずセンスが光る逸品です。商品化希望。 …とか。 そんなことはどうでもいいです。 軽音部は「楽しくて」「みんな笑顔で」「仲良しで」。そんな部活でした。 しかし、その幸せは非常に細くて不安定なロープにすぎません。 足を踏み外せば、転落してしまう。だからみんな必死に「幸せであろう」と願います。 そして、踏み外して転落したときに、痛みを伴いながらもう一度這い上がる。 今回は、大きな器をもって、いつも笑顔でいた律が、一人ではどうしようもできない痛みに出会う話。 ●私たちの、楽しくて幸せな軽音部● 冒頭で、昨年のライブをみんなで見るシーンがあるんですよ。 これがもう…「幸せ」そのものなわけですよ。 思い出して照れ照れする唯、それをほほえましく見るむぎ、えらそうに「演奏の時だけ

    私たちはいつも、綱渡り〜律と澪の方程式は答えなんてないから〜 - たまごまごごはん
  • いや、あの、vi と Vim を区別してもらえませんか - 深谷の深入りしない日々

    vi と Vim は別物です。 というか、Vim は vi のスーパーセットです。僕は Vim 以外でコーディングする気がしませんが、vi でやれって言われたら Eclipse を使うほうがまだマシだと主張するかもしれません。さすがにオリジナルの vi にはシンタックスハイライトも quickfix も vimgrep もないどころか、多段アンドゥも複数ファイル編集もウィンドウ分割もタブもないわけで……。 混乱の原因は主に Linux のデフォルト設定なわけですが、今シェルで vi って書いたら、立ち上がるのはまあ概ね Vim だと思っていいです。(いまどき UNIX 系って言ったとき、それは概ね Linux の話であるのと同程度に。FreeBSD なんかは当に vi nvi (オリジナルにかなり近い vi クローン) が立ち上がります) 逆に言うと vi って言ったら当に vi が立

    いや、あの、vi と Vim を区別してもらえませんか - 深谷の深入りしない日々
  • Chikirinの日記

    2005 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 2006 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 2007 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 2008 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 2009 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 2010 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 2011 | 0

  • 努力しない人を国家が救済すべき14の理由 - 分裂勘違い君劇場 by ふろむだ

    ちゃんと努力をしているのに運悪く失業しちゃった人を国家が救済するのに異論がある人はあまりいない。 しかし、スキルアップ努力も貯金もせずに浪費しまくり、ギャンブルや女遊びなどの自堕落な生活を続けて失業しちゃった人達を国家が救済する理由が分からないという人がたまにいるので、その理由を箇条書きにしてみる。*1 「努力しなかったために職を失った人」が家を失うと、ホームレスが街にあふれて街の景観と治安が悪くなるから。子供の乞やひったくりが、うようよいる社会に住みたいという変な趣味の人はなかなかいないよ。 「努力しなかったために職を失った人」かどうかの選別が難しいから、努力した人もしない人も区別せずに全員救済する方が現実的。 「怠け者を税金で養うのはしゃくにさわるが、怠け者を養う金をケチったために怠け者が飢え死にしたら、とても寝覚めが悪い」と思う人が多数派だから。もちろん、怠け者を死刑になんぞしたら

    努力しない人を国家が救済すべき14の理由 - 分裂勘違い君劇場 by ふろむだ
  • javaでのインストール・開発の準備

    初心者向けの解説です。 javaのダウンロード&インストール方法 eclipseのダウンロード 環境変数の設定 javaのダウンロード&インストール javaで開発を進めるための準備として、 まずsun(javaの開発元)のウェブサイトからjava開発環境を ダウンロード・インストールする方法を解説します。 jdk6のダウンロードサイトへアクセスします。jdkとは、java の開発キットの名称です。また、このダウンロードサイトの場所は、しばしば変わります。もし、うまくアクセスできない場合は、jdk6でググってみてください。 アクセスしたら、java .. Development Kit をダウンロードしてください。このとき、 java..Runtime Environmentをダウンロードしないように注意してください。javaには、 ユーザ向けの「実行環境」と、開発者向けの「開発環境」が存

    stick23rd
    stick23rd 2008/12/15
    はじめてのjavaインストール解説・umekoumeda
  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
  • opencv.jp - OpenCV-1.0 リファレンス マニュアル(日本語訳)-

    最終変更者: 怡土順一, 最終変更リビジョン: 467, 最終変更日時: 2009-06-23 14:23:34 +0900 (火, 23 6月 2009) CXCORE リファレンス マニュアル 基構造体(Basic Structures) 配列操作(Operations on Arrays) 初期化(Initialization) 要素へのアクセスと部分配列(Accessing Elements and sub-Arrays) コピーと充填(Copying and Filling) 変形と置換(Transforms and Permutations) 四則演算,論理演算,比較演算(Arithmetic, Logic and Comparison) 統計(Statistics) 線形代数(Linear Algebra) 数学関数(Math Functions) 乱数生成(Random

    stick23rd
    stick23rd 2008/11/15
    機械学習アルゴリズムの日本語説明付き
  • 内容無保証:諧謔的?金融危機用語集 - Economics Lovers Live 田中秀臣のブログ

    『週刊ポスト』の記事のために作成した元原稿。前の日に打ち合わせの飲み会(田中人は打ち合わせと思わず旧知の編集の人とのただの飲み会だと完全に緩んで出たw)で、うんで400字で10枚くらいで金融危機の用語集の下敷き(ラフ)にしたいので「おっさん向けに比喩豊かに」書いてらぶ、といわれて大急ぎで書いたもの。なので内容は無保証。誤植・誤解・誤記・うんこいろいろあっても直さず放置。まともになったのが先週の週刊ポストに掲載されてるずら。 (補遺)かなり頻繁にネットの中で思うけれどもこんな大急ぎでかいた誤記だらけのただのラフメモにはてブがつき、昨日のそれなりに主張をもった『イーグルアイ』エントリーがスルー気味。当に秋の深まりをしみじみと感じます。 ・サブプライムローン(及びサブプライムローン問題) 審査基準がとても甘い個人向け住宅ローンのこと。どのくらい甘いかというと、所得や資産のない人にも喜んで銀行

    内容無保証:諧謔的?金融危機用語集 - Economics Lovers Live 田中秀臣のブログ
    stick23rd
    stick23rd 2008/11/10
    ユルい金融危機用語集。でも入りやすいわかりやすい。
  • http://yaplog.jp/chika-chan/