タグ

ブックマーク / shuyo.hatenablog.com (12)

  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
    somemo
    somemo 2022/11/15
  • 「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足

    第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度の第2回でも出しゃばって発表させてもらう予定だが、第1回も「Web文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。 資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:

    「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足
    somemo
    somemo 2022/11/15
  • PostgreSQL で簡易に MQ - 木曜不足

    「PostgreSQL で安くて早くてうまい MQ 作ってね」的ミッションがどこからともなく降ってきたので、色々調べて試してみたところ、案外よい方法が見つかったので、まとめてみた。 [4/24] 複数キューを扱う場合の方法を tableoid を利用するように更新。 [4/27] フィルタ条件を付ける場合の記法について追記(WHERE 句内の評価順の明示的指定) [4/30] 優先順位に ORDER BY は利用できない旨追記 鍵は advisory lock。PostgreSQL 8.2 以降の機能だ。 メッセージキューと言っても、安くて早いわけだからもちろんフルフルの高機能なわけなく、いろいろ制限がある。 receiver は複数可。メッセージは receiver の一つが受信する。ブロードキャスト/マルチキャストは対象外。 ack あり。ack せずに receiver が落ちた場合

    PostgreSQL で簡易に MQ - 木曜不足
    somemo
    somemo 2020/07/09
  • PRML 8.2章「head-to-head が観測されたら独立性が失われる」のもっとわかりやすい具体例 - 木曜不足

    PRML 8.2章「条件付き独立性」では、 head-to-head の場合は「観測されると遮断が解かれる(つまり一般に条件付き独立性を持たない)」という現象の例として「車の燃料装置」が紹介されている。この例はこの例で悪くはないと思うが、ちょっと実感しにくい。 ちょうど社内 PRML 読書会でここにさしかかったので、以前このブログでもさらっと書いたもう少しわかりやすい例を紹介してみた。 設定として、確率変数 a, b は(理想的な)サイコロを振って出る目、c はその和、d は和の偶奇(つまり丁半)とする。 何も観測されていない場合、各目の出る確率は 1/6。 一方、今 d が偶数(丁)であると観測されたとしよう。このとき、もし a と b が given d の元で条件付き独立ではないとは p(a|b, d) ≠ p(a|d) が成り立つことなので、それを確認しよう。 p(a|d=偶数)

    PRML 8.2章「head-to-head が観測されたら独立性が失われる」のもっとわかりやすい具体例 - 木曜不足
    somemo
    somemo 2017/04/02
  • ニューラルネットワークでXORを学習させてみた - 木曜不足

    PRML 読書会 #6 がありました。皆さんお疲れ様でした。 読書会の内容については、別途。 id:tsubosaka さんに「(ニューラルネットワークの実装で) XOR の学習できました?」と聞かれて「出来るように作ったはずだけど、まだ試してない〜」と答えたので、試した。 XOR は線形分離できないので、パーセプトロン等では単純には解けないが、ニューラルネットワークなら大丈夫! というのがメリットの一つなので、それを検証してみる。 正しく実装できていれば、きっと学習できるはず……! 入力2個、隠れユニット4個(tanh)、出力1個(シグモイド)のネットワークを構築して、XOR を学習させるスクリプト。 ただし誤差関数は交差エントロピーではなく二乗和誤差。 require "neural.rb" # training data (XOR) D = [ [[0, 0], [0]], [[1,

    ニューラルネットワークでXORを学習させてみた - 木曜不足
    somemo
    somemo 2015/09/17
  • 「データ解析のための統計モデリング入門」第3章メモ #みどりぼん - 木曜不足

    6/10 に開催された「データ解析のための統計モデリング入門」、通称「みどりぼん」の第3回読書会にのこのこ参加& LT してきた。主宰のやまかつさん、発表者&参加者の皆さん、会場を提供してくださったドワンゴさん、ありがとうございました。 第3回「データ解析のための統計モデリング入門」読書会 - connpass LT は……正直、ネタを思いついた時は、ええやんおもしろいやん、とかなぜか思いこんでた。当日の朝くらいに「測度論とかないわー」ということにやっと気づき、一週間前の中谷の後ろ頭をしばき倒したくなったが、もはや後戻りはできず。この LT をちゃんと最後までやり通したという一点で褒めてあげて欲しい…… に教えてもらうルベーグ可測 from Shuyo Nakatani さて気を取り直して。 質疑応答の時にあれこれ好き勝手なことを突っ込ませていただいてたのだが、読書会終了後にそのあたりを

    「データ解析のための統計モデリング入門」第3章メモ #みどりぼん - 木曜不足
  • 独断と偏見によるノンパラ入門 - 木曜不足

    「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。 機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。 ノンパラの一番素朴なやつ( K-means とか)は当にパラメータ無くてデータだけだから納得なんだけど、だんだん欲が出てパラメータ足しちゃったり派生させちゃったりしてるうちに、よくわかんなくなってきちゃったんだろうかねえ。まったく。 どれどれ、と英語Wikipedia の "Non-parametric statistics" を見たら、なんか意味が4種類くらい書いてあるし。じゃあ名前分けろよ。 en.wikipedia.org とりあえずここで言う「ノンパラ」とは、変数の個数決めなくていい「分布の分布」なメタっぽいやつのこと。つまりディリクレ過程とか、ディリクレ過程とか、そこらへん。 「あー、ノンパラベ

    独断と偏見によるノンパラ入門 - 木曜不足
  • PRML ガール 〜とある文芸部の統計女子〜 - 木曜不足

    これは「PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜」の幕間的なお話です。 未読の方は先にそちらをどうぞ。 PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足 「先輩、先輩。我らが PRML ガールの評判聞きました?」 「聞いてない」 「やっぱり気になりますよねえ。ねえ?」 「僕は別に」 「……」 「……わかったわかった。どんな評判なの?」 「評判というか苦情ですかね。『 PRML ガール言うくせに PRML 関係ないやん!』みたいな」 「まあ、情報量とエントロピーの話しかしてないし」 「『あとがきがわりの AC ガール』(暗黒通信団刊行の書籍『PRML ガール』に収録)に至っては選択公理ですからねえ。そんな評判を跳ね返すためには、紛れもなく PRML ってテーマをここらで一発取り扱っておくべきなんじゃない

    PRML ガール 〜とある文芸部の統計女子〜 - 木曜不足
    somemo
    somemo 2014/03/07
  • PRML 復習レーンが始まるよ、だって。 - 木曜不足

    この前の「パターン認識と機械学習(PRML)」読書会の後の懇親会で、「いや、機械学習は PRML が初めてで、読み始める前はガウス分布も共役事前分布も何それおいしいの? だったよ〜」と話して驚かれたことに驚いたのだが、でも当にその通りなのだ。 PRML 読書会初参加時のブログには、まだ右も左もわかっていないことを匂わせる初々しいことが書いてあり、妙にほほえましい(苦笑 PRML 読書会に参加し始めて結構経ったように感じていたけど、初参加は昨年の6月14日(第3回)なので、まだ10ヶ月しか経ってなかったのかー。 そんなスタートだったけど、SIG-DMSM #12 に ちょこんと座って、何を話しているのかならだいたいわかるくらいになってきた。 これはもうひとえに PRML と読書会のおかげ(大感謝)。 もちろん、ただ漫然と読書会の席を温めていただけではなく。 予習はもちろんきっちりやって行く

    PRML 復習レーンが始まるよ、だって。 - 木曜不足
    somemo
    somemo 2014/01/19
  • PRML Wednesday (平日読書会) と読み始める人のための参考リンク集 - 木曜不足

    毎週決まった平日の夜に 「機械学習とパターン認識」(PRML) を読み進めようという PRML Wednesday のキックオフにのこのこ顔を出してきた。主催の naoya_t さん&参加者のみなさん、お疲れ様でした&ありがとうございました。 PRML-Wednesday : ATND ほとんど初顔の方ばかりの中で好き放題しゃべってしまい。まあ例によって反省はしていないのだけれど(苦笑)。 会であれこれ言ったこと(めんどくさいので、ここでもう一度繰り返すことはしないw)はあくまで「素人から出発して PRML をひと通り読み終わった個人が、その経験から感じたこと」であり、絶対の正解なんかではない。 気に入らなかったら「なるほど、お前の中では(ry」で片付けて欲しい。勉強なんて続かなかったら意味が無いので、自分が続けられる方法やスタンスを模索して選びとっていかないとしょうがないのだから。 PR

    PRML Wednesday (平日読書会) と読み始める人のための参考リンク集 - 木曜不足
  • PRML の読む章・飛ばす章(私家版) - 木曜不足

    機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない……」という奈落に叩き込んでいるという。 サイボウズ・ラボの社内 PRML 読書会でもその現象が発生。見かねた同僚の光成さんが PRML で使われている数学の解説だけではなく、PRML の中で省略されている式変形の過程も含めて書き下したメモ(社内通称:アンチョコ)が暗黒通信団から「機械学習とパターン認識の学習」という同人誌として出版され、全国のジュンク堂で購入可能となるとちょっとしたムーブメントががが。 現在はアマゾンでも購入可能となっているが、もともとのアンチョコも PDF で無料公開(CC-BY ライセンス)されているので、紙のでないと勉強す

    PRML の読む章・飛ばす章(私家版) - 木曜不足
  • ノートの作り方(私家版) - 木曜不足

    togetter.com 可積分系の研究者 takey_y さんによる、数学書の読み方、数学を勉強するときのノートの作り方。数学以外の(ちょっと難しいと感じる)科目にも応用可能と思われます。こういう骨の折れる作業を怠る人、怠らない人。これが数学や物理学を好きになるかならないかの分岐点な気がします。 Tsukuba.R #7 でたまたま「パターン認識と機械学習(PRML)」のお勉強に使っているノートを広げて話す機会があって、そんなノート作ってんのと驚かれたことに驚いたのだけど、この Togetter 見て、なんか納得した。 技術者界隈では時折「写経」って言葉が使われてるけど、当に手でノートに写している人って実は少ないのかな。まさかに載ってるコードを打ち込むことを「写経」とは言わんよなあ……。 逆に、他の人はどうやってこの手のを勉強しているんだろう。 以下、自分流のノートの作り方。 PR

    ノートの作り方(私家版) - 木曜不足
    somemo
    somemo 2014/01/06
  • 1