タグ

ブックマーク / edunlp.hatenadiary.com (14)

  • word2vecリンク集 - Educational NLP blog

    word2vecに関する資料へのリンク集です.全く網羅的でないですが,とりあえず. 中でやっている計算の資料 Word2vecの並列実行時の学習速度の改善 @chokkanorg 先生のNL研での発表資料.内部の計算をスライドで端的に説明してくれている. http://www.folgertkarsdorp.nl/word2vec-an-introduction/ 英語だが,中でどういう計算をしているのかをPythonのnumpyで表現してくれている. Improving Distributional Similarity with Lessons Learned from Word Embeddings @Bollegala 先生からおすすめされた論文.「なぜc+wにすると良くなるのかについては(この論文)のSec 3.3参照して下さい.」だそうです. Google Code Archi

    word2vecリンク集 - Educational NLP blog
    sassano
    sassano 2015/09/27
  • Cのrand()よりmt19937の方が速いことがあるという話 - Educational NLP blog

    おはようございます。2年ぶりの記事ですね。 もう1月程前になってしまいましたが、id:sleepy_yoshi:20130720 で id:sleepy_yoshi さんが高速な非復元抽出をやっておられ、その中で、Cのrand関数を使っておられました。僕は、普段、std::mt19937を使っていたので、ちょっと比較してみた、という記事です。 C++11では、大別して、2つの擬似乱数生成の方法があります。1つはC(cstdlib)のrand関数で、高速ですが乱数の質が低く、もう1つはrandomヘッダのmt19937(メルセンヌ・ツイスタ)で、低速ですが乱数の質が高い(科学実験に適する)と、一般には思われていると思います。この高速・低速ですが、mt19937を使うことがボトルネックになるほど遅いことは殆どない、というのが今までの実感でした。なので、僕は、非復元抽出のような処理では、特にボト

    Cのrand()よりmt19937の方が速いことがあるという話 - Educational NLP blog
    sassano
    sassano 2013/08/18
  • https://edunlp.hatenadiary.com/entry/20110702/1309621088

    sassano
    sassano 2011/07/05
  • 7/25〜 楽天技術研究所 New Yorkへインターンに行って参ります - Educational NLP blog

    前回のブログ書き込みから、1年近くたってしまいました(汗 だんだん、補完していこうと思います。 さて、7/25から、楽天技術研究所 New York様へ、3ヶ月のインターンに行ってまいります。日に帰ってくるのは、10月27日になる予定です。貴重な夏期インターンの機会を与えて下さり、ビザ取得までサポートしてくださった関係者の皆様方には、心から感謝しております。 後、数日で日から居なくなってしまうので、もし、僕が持っていくのを忘れそうなものがあったら、どうぞお気軽に、コメント欄にでも書き込んで頂けると幸いです(笑) 近況: iPadiPhone4を買いました。 もう半年前の話になりますが、IUI 2010にFull paperで論文が通り、2月に香港で発表してまいりました。当に当に、嬉しかったです。とても励みになりました。

    7/25〜 楽天技術研究所 New Yorkへインターンに行って参ります - Educational NLP blog
    sassano
    sassano 2010/07/22
  • T2 Meeting - Educational NLP blog

    NL研終了後に、T2 Meetingという東大と東工大合同の研究会が同じ会場で別に開かれました。今回が第2回目で,第一回目は,mamorukさんが[id:mamoruk:20090212]に詳細を書いてくださっています. うちのMくんの発表。簡単に補足しておくと、サポートベクターマシン入門の4章に汎化理論についての解説があり、それを彼と2人で読みました。この章は、件のの中では、一番、読むのが大変な章だと思います。彼は、これに加えて、汎化性能の観点から導き出された最適化問題とその解法の文献を読み、しっかりした発表を行ってくれました。 サポートベクターマシン入門 作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,John Shawe‐Taylor,大北剛出版社/メーカー: 共立出版発売日: 2005/03/01メディア: 単行購入: 8人 クリック

    T2 Meeting - Educational NLP blog
    sassano
    sassano 2009/06/26
  • 統計数理研究所はGoogleマップに対応 - Educational NLP blog

    統計数理研究所はGoogleマップに対応しているようです。

    統計数理研究所はGoogleマップに対応 - Educational NLP blog
    sassano
    sassano 2009/06/17
  • Wolfram Alphaを早速試してみた - Educational NLP blog

    Mathematicaを考案した、あのWolframが作った検索エンジン(?)、Wolfram Alphaを早速試してみた。CNETでは、「検索エンジン」として紹介されているが、Wolfram Alphaは、GoogleYahooのような、Webページを探し出すための検索エンジンにとどまらない。Wolfram Alphaのすばらしい点は、情報を比較・分析できることだ。もっと手っ取り早く言えば、表やグラフを勝手に作ってくれて、見せてくれる。 とりあえず、次の結果を見れば分かる。自分の専門は自然言語処理なので、"Japanese vs. English"と入れてみた。その結果がこれだ。 これだけのキーワードで、勝手に基的な表が出てくる。しかも、この表の根拠について、(1970-1993 estimates)と左下に小さく表示してくれていることが、見落としがちだが重要な点だ。この手の表は、数

    Wolfram Alphaを早速試してみた - Educational NLP blog
    sassano
    sassano 2009/05/18
  • キーボードとマウスにこだわらない人が最低限こだわること - Educational NLP blog

    id:mamorukさんが、「キーボードとマウスへのこだわり」ということで記事を書かれたので、自分も、書いてみることにしました。実は、自分は、長年パソコンを使っているにしては、「キーボードとマウスにこだわらない人」だと思います。こだわらない理由は、id:mamorukさんが代弁してくださっています: 弘法筆を選ばずという格言もあるように、誰かの席に行ってキーボード叩くこともあるだろうし、急に職場が変わってキーボード・マウス選べなくなったり(もしくはインターンシップで行った先が Microsoft/Apple とかで OS の選択の余地がなかったり)、どんな環境でもそこそこ使えるように柔軟性を持っておくことは必要だと思う。 まさしくこれです。家で複数台ノートPCを使っていて、あるPCから別のPCに移ったときに、操作が違うと面倒くさいですしミスの元になります。そこで、どのマシンを使ったときにも

    キーボードとマウスにこだわらない人が最低限こだわること - Educational NLP blog
    sassano
    sassano 2009/05/17
  • EeePCとSSDと、E-mobileのユーティリティが常にログを書いている話 - Educational NLP blog

    最近、SSDがブームですね。SSD採用のノートパソコンが欲しかったのですが、普段使っているLet's noteが保証の問題などでSSD換装できなかったので、EeePC S101を購入しました。もちろん、メモリは2GB(2500円程度!安くなったものですねぇ)に取り替えました。このへんを参考にRAMディスクを設定し、FirefoxのキャッシュフォルダをRAMディスク上に移動しました。(ちなみに、IO-DATA製品だとRAM Phantom LEというRAMディスクドライバが使えるとの情報をあてにして、わざわざIO-DATAの廉価版メモリ(型番に/ECがついている)を購入したのですが、廉価版だとRAM Phantom LEは使えないそうです。仕方なくERAMというソフトを使いました。) さて、もちろん、色々対策するのは、SSDは書き込み回数に制限があるため、SSDへの無用な書き込みを減らしたい

    sassano
    sassano 2009/04/21
  • 振り込め詐欺とパターン認識 - Educational NLP blog

    NHKの新番組、追跡AtoZを見た。バンキシャのNHK版のような構成だが、NHKだから取材力が段違い。 今日のテーマは振り込み詐欺(オレオレ詐欺)。振り込め詐欺を行うためには、金を引き出せる他人名義の銀行口座がいる。この銀行口座がどのように供給されているのかに踏み込んでいる。結論から言えば、派遣切りやフリーターなどを中心とする生活困窮者が、犯罪組織に売り渡してしまう。その価格の安いこと安いこと。4口座が2万とか、5口座で6万とか。 さらに、銀行口座は子供でも作れるので、親が生活に困り、子供名義で銀行口座を作って売ってしまうということもよくあるらしい。口座を売ったのがばれると私文書偽造になり、前科が付く上、その口座の名義人は一生、銀行口座を作れなくなる。親が自分名義で口座を売ってしまったために、一生口座を作れなくなる可能性が高い子供が増加しているとか。 で、銀行側も手をこまねいているわけでは

    振り込め詐欺とパターン認識 - Educational NLP blog
    sassano
    sassano 2009/04/18
  • 2009-03-26

    NL研の受付二日目。研究室に泊って、朝9:30に集合。以下、二日目で面白かった研究について。 これは、「へぇ、言い換えに、こんな応用があるのか」と思ったもの。博物館などの解説文に含まれる表現を、子供や非専門家に分かりやすく書きかえるためのタスクを言い換えの問題に落とし、実際に専門家に解説文を作ってもらった、というもの。「博物館などの解説文の作成支援」は、非常に重要ではあるが収益性が見込みにくく、研究としてやることが重要なタスクだと思う。まぁ、言い換え研究については、全然知らないのですが。 かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。 確率分

    2009-03-26
    sassano
    sassano 2009/04/03
  • 2009-03-25

    もう、色々なところで語られてしまいましたが、情報処理学会第190回自然言語処理研究会、通称NL研に参加したので、記事を書きます。僕は、紺色のジャケットを来て受付やってました。NL研の受付をやるのは、熱海に続き、二回目になります。日当8000円。熱海では会場と受付が離れていたので発表がほとんど見られなかったのですが、今回は、会場と受付が同じ部屋だったので見ることができました。会場は、東大工学部6号館3階でした。 NL研は、聴講だけなら無料で可能です。有料・無料は予稿集の有無で決まります。予稿集は、大抵、1件6ページです。学生であれば、情報処理学会の会員でなくても、現地で500円払えば予稿集が購入できます。学生でない方は、情報処理学会の会員の場合1500円、そうでなければ2500円かかります。学生500円というのは、かなり安いと思います。今回のNL研でも、途中で読みたい論文が出てきたので、50

    2009-03-25
    sassano
    sassano 2009/03/31
  • 教師なし形態素解析 - Educational NLP blog

    初日のハイライトは、やはり、色々なところで既にすごいすごいと言われている、daiti-mさんの、教師なし形態素解析。論文は、daiti-mさんのサイトのPublicationsに載っています。で、これはすごい。とにかくすごい。daiti-mさんの言う通り、ベイズをやっていない人がちょっとやそっとで出来るものではないです。簡単な解説は、[id:mamoruk:20090325]さんが書いてくださっています。他にも、この論文を理解しようという動きが、[id:nokuno:20090326:1238085058]などをはじめ色々なところで、既に始まっているようです。

    教師なし形態素解析 - Educational NLP blog
    sassano
    sassano 2009/03/31
  • Social IME - Educational NLP blog

    トップバッターは、[id:nokuno:20090325]さんのSocial IME。Social IMEのコンセプト自体は知っていたのと、以前は入力研究をやっていたので、期待していました。Social IMEは基的にはAnthyのエンジンを使っているのですが、予測変換部分を実装して組み込みましたよ、という話。予測変換となると、変換精度だけではなく、「何文字先まで予測するべきか」という問題が出てくるのですが、これを、予測入力時間が最小となるように(入力時間の削減量が最大となるように)決定する、というのが、とても「入力」という実用に沿っているように思います。応用分野で、目的に忠実にモデル化すると、これまでとは違った評価関数が出てきて、そこにオリジナリティーが出てくる、というのは、一つの理想的ストーリー。Anthyと予測変換の使い分けは、スペースを押すかTABを押すかで決定しているようです。

    Social IME - Educational NLP blog
    sassano
    sassano 2009/03/31
  • 1