タグ

ブックマーク / d.hatena.ne.jp (205)

  • 言語処理学会の論文誌「自然言語処理」がオンライン公開されました! - nokunoの日記

    Twitterで@zelchmixijp先生のつぶやきから言語処理学会の2008年までの学会誌が公開されているのに気づきました。自然言語処理の最先端の研究を論文のPDFという形で読むことができます。閲覧は年別か、キーワード検索を行なうことができます。The error occurred in this web page. 私は最近の論文や興味のある分野の論文についてはだいたい知っていたのですが、1994年の創刊号から時系列順にまとまっているので、初期の論文がどんな感じだったかとか、90年代後半の研究動向について知ることができます。昔の論文を読むと、業界では有名な先生方の若い頃の仕事を垣間見ることができたりして、面白いです。 というわけで、いくつか紹介していきたいと思います。なおPDFにリンクを張っているので、ブラウザで開く場合はPDFを非常に高速に表示できるChrome 8以降をおすすめし

    clavier
    clavier 2011/04/04
  • 東京Node学園で発表してきました。 - but hopeful

    遅くなりましたが、 東京Node学園 1時限目 : ATND で「Node におけるテスト手法」について発表してきました。 リンク自分の発表は HTML5Rock のプレゼンツールを用いて作成しています。とりあえず直でスライドへのリンクを張ります、余力があれば PDF 化して SlideShare にも上げたいと思います。録画と一緒に見て頂くと良いかと思いますが、録画に映っている物とレイアウトが若干変わっています。内容は("捕捉" に書いたの以外は)一緒です。自分の資料録画1録画2(自分はこちら)Togetter 今回の発表について「テストについて」ということで、今回はNode でテストってどんな感じなのか?どんなフレームワークがあるのか?といった話を中心に、紹介っぽい内容にしました。また、「Node のテスト」というよりも、もう少し広く捉えた以下のような話にも触れました。「最終的には C

  • Titanium Mobileの暗黒ノウハウを公開します。 - このブログは証明できない。

    WEB+DB PRESS Vol.61の特集は、Titaniumでした。実際にアプリを作りながらのチュートリアルになっています。正統派な入門記事です。 でも。期待してた内容ではありませんでした。私は、Titaniumの暗黒面が知りたいのです。いつものWEB+DB PRESSなら、そんな記事が多いのですが、さすがにまだ開発者が少なそうなTitaniumではアッサリ目に仕上げるしかないのでしょう。そこで、このどうでもいいブログで、Titaniumのバッドノウハウ、いや、暗黒ノウハウをメモっておきます。 アプリを1開発しただけですので、そこまでTitaniumのことを解っているわけではありません。間違っているところなどがありましたら、指摘してもらえるとありがたいです。暗黒ノウハウをみんなで共有しましょう。あと、スシなどをおごってもらえると、もっとありがたいです。 前提。 Titaniumのバー

    Titanium Mobileの暗黒ノウハウを公開します。 - このブログは証明できない。
  • Quoraを支える技術 - nokunoの日記

    勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Technology Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられている。それは共同創業者がFacebookで磨きをかけた技術でもある。さほど驚くべきことでもなく、賢い人々は良く考えられたたくさんの賢い道具を使う。NoSQL信者たちはこう言って頭をかかえる:「なぜQuoraはCassandraやMongoDBやCouchDBのようなNoSQLではなく、MySQLをデータストアとして使うのか?」このエントリではQuoraについての技術的な情報をまとめ、考察を行う。彼

  • 決定木を用いた単語抽出 - nokunoの日記

    決定木を使って辞書なしで単語を抽出する手法に関する論文を読みました。Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning Algorithm はじめに日語と同じく、単語の分かち書きがされない言語にタイ語があります。従来は人手による辞書の整備が行われていましたが、網羅性に限界があるのとコストがかかるので自動化したいというニーズがあります。 アプローチ日語の形態素解析では系列ラベリングとして定式化されることが多いですが、この論文ではコーパス中の全部分文字列を考え、ある部分文字列が単語か非単語かを二値分類するというアプローチをとっています。このことは、前後の文脈によって単語区切りが異なることがないという前提が置かれていることになります。実際に使うときは抽出した単語を辞書として最長一致するのかな。 決定木単語と非単

  • 最近気になってきたjQueryについて色々調べてみました - もとまか日記

    最近、「jQuery」というキーワードをよく見かけます。 これって何だろ?と思ったので調べてみたら、JavaScriptのライブラリのようで。 てことで、最近ちょっと気になってたJQueryについて調べてみました。 jQueryの概要 まずは難しいことは抜きにして、以下を読んでみると分かりやすいです。 はじめてのjQuery jQuery仕様関連 一応ですが、仕様について。 jQuery 日語リファレンス 必要に応じてみればいいかな?と思ってるので、まだ細かくは見てません。 初心者向けの基礎知識、基礎講座 最初は初心者向けの記事を読んでみると良さそうです。 ASCII.jp:40分で覚える!jQuery速習講座一晩で覚えるjQueryの逆引き基礎サンプル7つjQuery事始め・コピペに頼らず、基礎知識を理解して実際に動かしてみるjQuery 開発者向けメモ サンプル、プラグイン 調べてて

  • Perlゼミ(サンプルコードPerl入門)

    Perl入学式 全6回のPerl入門講座。東京、大阪、沖縄、札幌で開催。(東京は4月と10月スタート、それ以外は5月スタート) YAPC::Japan Perlを軸としたITに関わる全ての人のためのカンファレンス。 東京 吉祥寺.pm 五反田.pm 大阪 なにわPerl 沖縄 沖縄.pm

  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • 二分探索木 - nokunoの日記

  • EMアルゴリズムによるスペル訂正エンジン - nokunoの日記

    以下の論文が面白かったので紹介したいと思います。Learning a Spelling Error Model from Search Query Logs Noisy Channel Modelによるスペル訂正エンジンスペル訂正には標準的なNoisy Channel Modelを使うことができます(最近は識別モデルも流行りのようです)。A Spelling Correction Program Based on a Noisy Channel ModelNoisy Channel Modelでは、入力が与えられたときの訂正候補の確率を以下のようにモデル化します。言語モデル はコーパスやクエリログから単語N-gram、文字N-gramなどを推定し、スムージングして利用することが一般的です。エラーモデル は入力と出力候補の編集距離をもとに計算することが多いです(他に共起頻度やクリックログを利

  • TopCoder過去問 SRM 345 Div2 - nokunoの日記

  • オーバーフィットについて考える - nokunoの日記

    オーバーフィット(overfitting; 過学習)とは機械学習を学び始めた人が最初に陥る罠として有名な問題です。過剰適合 - Wikipedia過剰適合(英: Overfitting)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データに対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。汎化能力というのは、朱鷺の杜では以下のように説明されています。汎化能力 - 機械学習の「朱鷺の杜Wiki」学習時に与えられた訓練データだけに対してだけでなく,未知の新たなデータに対するクラスラベルや関数値も正しく予測できる能力. 汎化能力が不足する原因には、いくつかの要因が考えられます。 利用出来るデータ数が少なすぎる場合 そのデータに少しでも偏りがあると、大きな問題となります。 モデルの自由度が高すぎる場合 推定すべきパラメータが多すぎる場合など、

  • jqueryでtwitterのタイムラインをカンタン表示! - カンタンWEBぷろぐらみんぐ<?=tageo;>

  • PythonでXMLを扱う(1) - 二十代は模索のときブログ

    PythonでXMLを扱う(1) Python Memo PythonでXML(Extensible Markup Language)を扱う方法を勉強してみようと思うが、実はXML初心者なので、まずXML全般について学んでみなきゃあかん。とりあえず手元にあるFoundations of Python Network Programmingの第八章、「XML and XML-RPC」を参考にしてみることにする。 XMLをWikipediaを見てみると予想通りかなりの記述があったので、こちらを併せて参考にする。 Wikipedia : Extensible Markup Language Extensible Markup Language (エクステンシブルマークアップランゲージ、XML、拡張可能なマーク付け言語、JIS X 4159:2002) は、データを記述するマークアップ言語を定義す

  • サイ本要約 5.8〜5.10.8 ビット演算子など - noire722 の日記

    5.8 ビット演算子 JavaScriptの数値のサイズについて Number -WIKIBOOKS- 整数と浮動小数点数 JavaScriptにおいて、32ビット符号なし整数・32ビット符号付き整数・64ビット浮動小数が1つの数値にまとめられています。C言語などとは異なり、整数同士の演算で32ビットで表現できる範囲を超えた場合は、64ビット浮動小数に自動的に切り替わります。 typeof 演算子のような手法で、この3種のうちどれが使われているかを判定する演算子は存在しません。しかしながら、ビット演算子を使うことにより、64ビット浮動小数を32ビット符号なし整数や32ビット符号付き整数に変換できます。具体的には、>>> 演算子により、32ビット符号なし整数になり、その他のビット演算子により、32ビット符号付き整数に変換されます。64ビット浮動小数は53ビット符号付き整数を誤差なく表現できる

    サイ本要約 5.8〜5.10.8 ビット演算子など - noire722 の日記
  • Hadoopの可用性について(私訳) - developer’s delight

    この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てませんのでよろしくお願いします。間違いなどがありましたらご指摘いただければ助かります。(id:kkawamura)Apache Hadoopのメーリングリストでよくある質問は、可用性を保つためにどうするか?というものです。この記事では、Hadoopのコンテキストでの可用性について見ていき、進行中の開発の方向性を示します。背景Hadoopの可用性を議論するとき、人はよくNameNodeがHDFSにおいて単一故障点であるため、NameNodeから話をはじめます。そしてHadoo

  • 私が参考にしたAndroidアプリ開発情報をまとめてみました - もとまか日記

    先日、以下の記事で初めて作ったAndroidアプリを紹介しました。 一週間で初めてのAndroidアプリを作ってみました その後、そのアプリをAndroidマーケットで公開してみました。 はてブ閲覧用Androidアプリ「HTBPocket」を公開しました この一連の作業で参考にした記事やサイトについて、「Androidアプリ開発関連情報まとめ」としてまとめてみました。 開発環境構築まず必要になるのが開発環境です。以下はMacの環境構築です。MacAndroid SDKをインストール (Update 2010.05.25) そして以下がWindowsでの環境構築です。私はやったことないのでよく分かりませんが(^^;;世界を目指せ!Androidアプリ開発入門:第2回 Androidアプリ開発のための環境構築 公式の開発情報公式の開発者向けサイトです。Android Developers

  • phpの変数展開まとめ - milieuの日記

    backtickさんのコードをみて初めて知ったけど、PHPの変数展開(ダブルクォテーション中の波括弧、文字列中の置換とかなんとか)は意外と複雑。 $hoge = 'fuga'; echo "$hoge" ; #fuga が出力される echo "${hoge}"; #fuga が出力される echo "${'hoge'}"; #fuga が出力される・・・ echo "${"hoge"}"; #fuga が出力される(parse errorじゃないのか!) ついでに関数も展開できるらしい $f = 'str_repeat'; echo "{$f('abc ',3)}"; #abc abc abc が出力される echo "{$f('abc ', 1 + strlen("aa"))}"; #abc abc abc が出力される どうやら関数の引数はワンライナー書き放題っぽい。しかし、単にダブ

    clavier
    clavier 2011/01/05
  • Parallel Stochastic Gradient Discent (NIPS読み会にて発表しました) - nokunoの日記

    NIPS読み会にて並列SGDについて発表しました。Parallel Stochastic Gradient Discent #nipsreadingView more presentations from nokuno.他の発表の人の資料は以下。slideshareしかない人のは埋込みにしてあります。まずかったら言ってください。NIPS 2010 論文読み会 / [Ding+] t-Logistic Regression #nipsreading - Mi manca qualche giovedi`?NIPS 2010 読む会View more presentations from tsubosaka.Nips yomikai 1226View more presentations from niammain.nips勉強会_Toward Property-Based Classific