サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
パリ五輪
edunlp.hatenadiary.com
word2vecに関する資料へのリンク集です.全く網羅的でないですが,とりあえず. 中でやっている計算の資料 Word2vecの並列実行時の学習速度の改善 @chokkanorg 先生のNL研での発表資料.内部の計算をスライドで端的に説明してくれている. http://www.folgertkarsdorp.nl/word2vec-an-introduction/ 英語だが,中でどういう計算をしているのかをPythonのnumpyで表現してくれている. Improving Distributional Similarity with Lessons Learned from Word Embeddings @Bollegala 先生からおすすめされた論文.「なぜc+wにすると良くなるのかについては(この論文)のSec 3.3参照して下さい.」だそうです. Google Code Archi
おはようございます。2年ぶりの記事ですね。 もう1月程前になってしまいましたが、id:sleepy_yoshi:20130720 で id:sleepy_yoshi さんが高速な非復元抽出をやっておられ、その中で、Cのrand関数を使っておられました。僕は、普段、std::mt19937を使っていたので、ちょっと比較してみた、という記事です。 C++11では、大別して、2つの擬似乱数生成の方法があります。1つはC(cstdlib)のrand関数で、高速ですが乱数の質が低く、もう1つはrandomヘッダのmt19937(メルセンヌ・ツイスタ)で、低速ですが乱数の質が高い(科学実験に適する)と、一般には思われていると思います。この高速・低速ですが、mt19937を使うことがボトルネックになるほど遅いことは殆どない、というのが今までの実感でした。なので、僕は、非復元抽出のような処理では、特にボト
明日は,Tokyo.SciPyですね.Windows 7にnumpy, scipyをインストールしましょう. http://www.python.org/download/でPython 2.7.2 Windows Installerをダウンロードしてインストール.僕の環境は64bitで64bitと書いてあるインストーラもありますが,こちらを使ってみました.numpy, scipyのバイナリはwin32と書かれたものしかないので,何かエラーが出そうな予感がしたからです. http://sourceforge.net/projects/numpy/files/NumPy/1.6.1/で,numpy-1.6.1-win32-superpack-python2.7.exeをダウンロードしてインストール. http://sourceforge.net/projects/scipy/files/sc
つい2週間ほど前,機械学習のトップカンファレンスICMLが開催されました.その中のGoDecという行列分解アルゴリズムを実装したので公開します.このアルゴリズムは,簡単にいえば「外れ値抜き特異値分解」で,昨日のICML読み会で発表しました.論文はこれです. GoDec: Randomized Low-rank & Sparse Matrix Decomposition in Noisy Case. Tianyi Zhou, Dacheng Tao. ICML2011. 厳密な版(Nai:ve GoDec)は遅いですが実装は非常に簡単です.遅い版でも,数百x数百ピクセルの小さな画像であれば,十分実用的な速度で動くので,実装して試してみた次第です.GoDecの論文では,この厳密な版(Nai:ve GoDec)が線形収束することを証明した上で,さらに,実用的に早くなるように(証明はないようですが
6/25にTokyoNLP #6で発表しました。id:nokuno さんがまとめてくださっています。 Gengo Africa View more presentations from Yo Ehara 発表の中身は、世界の音素の多様性が言語がアフリカから広がる時の連続創始者効果を表しているという、Scienceの論文 を読むというものです。 僕自身、「この言語とこの言語には関連があるんじゃなかろうか」とか思ったときは、確かにまず音素を見るので、「音素を考える」という方針は悪くないと思っています。というわけで、音素について話しだしたら、音声学入門みたいな話に…(汗 全く自分の専門ではない話を、しかも言語処理の勉強会でするということで不安だったのですが、興味をもっていただけた方も多いようで、ほっとしています。 時間がオーバー気味だったので、最後の線形回帰とBICのところは端折ってしまいました
このシリーズでは、魔法少女まどか☆マギカについて、他の記事では、あまり提供できないコンテンツであると思われる「10話までの放送から11話・最終話を予想する問題」について述べたいと思う。 簡単に経緯を説明する。魔法少女まどか☆マギカは、2011/3/11未明に10話の放送がMBSであった後、東日本大震災の影響で、2011/4/22未明まで11話と最終話の放送が休止になった。この一ヵ月半程度の間、ファンは11話と最終話の内容を予想しようという動きが広がった。私もこの予想に参加したものの一人である。早いもので、魔法少女まどか☆マギカの11話・最終話の放送が4/22に終わってから、もう、2ヶ月が経つ。実に感慨深い。 注:この記事は魔法少女まどか☆マギカのネタバレを含みます。 まず、このシリーズで目的とするのは、魔法少女まどか☆マギカを「説く」のではなく「解く」こと−すなわち、評論するのではなく、予
研究の一環として,英語版Wikipediaを辞書付きにするシステムを作成しています.通常のWikipediaを見ているときに,wikipediaの前にneを付けると,このシステムに飛べるのですが,その作業をするブックマークレットを作成しました. 以下の文字列を,通常のURLと同じようにしてブックマーク(お気に入りに登録)し,英語版Wikipediaを見ているときに,このブックマークをクリックすると,辞書付きのWikipediaに飛べます. javascript:(function(){ document.location.href=document.location.href.replace('.w', '.new')})(); このシステムはNewikipediaと言って,個人の英語語彙力をクリックから推定して自動的に訳をつけるシステムです.ログインを不要にするため,1ブラウザ=1ユーザ
前回のブログ書き込みから、1年近くたってしまいました(汗 だんだん、補完していこうと思います。 さて、7/25から、楽天技術研究所 New York様へ、3ヶ月のインターンに行ってまいります。日本に帰ってくるのは、10月27日になる予定です。貴重な夏期インターンの機会を与えて下さり、ビザ取得までサポートしてくださった関係者の皆様方には、心から感謝しております。 後、数日で日本から居なくなってしまうので、もし、僕が持っていくのを忘れそうなものがあったら、どうぞお気軽に、コメント欄にでも書き込んで頂けると幸いです(笑) 近況: iPadとiPhone4を買いました。 もう半年前の話になりますが、IUI 2010にFull paperで論文が通り、2月に香港で発表してまいりました。本当に本当に、嬉しかったです。とても励みになりました。
第3回SBM研究会で発表してきました. 講演の内容を,id:TheTocotonist さんが,こちらで,詳しく記述してくださっています. スライドをSlideshareで公開いたしました.
Mathematicaを考案した、あのWolframが作った検索エンジン(?)、Wolfram Alphaを早速試してみた。CNETでは、「検索エンジン」として紹介されているが、Wolfram Alphaは、GoogleやYahooのような、Webページを探し出すための検索エンジンにとどまらない。Wolfram Alphaのすばらしい点は、情報を比較・分析できることだ。もっと手っ取り早く言えば、表やグラフを勝手に作ってくれて、見せてくれる。 とりあえず、次の結果を見れば分かる。自分の専門は自然言語処理なので、"Japanese vs. English"と入れてみた。その結果がこれだ。 これだけのキーワードで、勝手に基本的な表が出てくる。しかも、この表の根拠について、(1970-1993 estimates)と左下に小さく表示してくれていることが、見落としがちだが重要な点だ。この手の表は、数
id:mamorukさんが、「キーボードとマウスへのこだわり」ということで記事を書かれたので、自分も、書いてみることにしました。実は、自分は、長年パソコンを使っているにしては、「キーボードとマウスにこだわらない人」だと思います。こだわらない理由は、id:mamorukさんが代弁してくださっています: 弘法筆を選ばずという格言もあるように、誰かの席に行ってキーボード叩くこともあるだろうし、急に職場が変わってキーボード・マウス選べなくなったり(もしくはインターンシップで行った先が Microsoft/Apple とかで OS の選択の余地がなかったり)、どんな環境でもそこそこ使えるように柔軟性を持っておくことは必要だと思う。 まさしくこれです。家で複数台ノートPCを使っていて、あるPCから別のPCに移ったときに、操作が違うと面倒くさいですしミスの元になります。そこで、どのマシンを使ったときにも
最近、SSDがブームですね。SSD採用のノートパソコンが欲しかったのですが、普段使っているLet's noteが保証の問題などでSSD換装できなかったので、EeePC S101を購入しました。もちろん、メモリは2GB(2500円程度!安くなったものですねぇ)に取り替えました。このへんを参考にRAMディスクを設定し、FirefoxのキャッシュフォルダをRAMディスク上に移動しました。(ちなみに、IO-DATA製品だとRAM Phantom LEというRAMディスクドライバが使えるとの情報をあてにして、わざわざIO-DATAの廉価版メモリ(型番に/ECがついている)を購入したのですが、廉価版だとRAM Phantom LEは使えないそうです。仕方なくERAMというソフトを使いました。) さて、もちろん、色々対策するのは、SSDは書き込み回数に制限があるため、SSDへの無用な書き込みを減らしたい
NHKの新番組、追跡AtoZを見た。バンキシャのNHK版のような構成だが、NHKだから取材力が段違い。 今日のテーマは振り込み詐欺(オレオレ詐欺)。振り込め詐欺を行うためには、金を引き出せる他人名義の銀行口座がいる。この銀行口座がどのように供給されているのかに踏み込んでいる。結論から言えば、派遣切りやフリーターなどを中心とする生活困窮者が、犯罪組織に売り渡してしまう。その価格の安いこと安いこと。4口座が2万とか、5口座で6万とか。 さらに、銀行口座は子供でも作れるので、親が生活に困り、子供名義で銀行口座を作って売ってしまうということもよくあるらしい。口座を売ったのがばれると私文書偽造になり、前科が付く上、その口座の名義人は一生、銀行口座を作れなくなる。親が自分名義で口座を売ってしまったために、一生口座を作れなくなる可能性が高い子供が増加しているとか。 で、銀行側も手をこまねいているわけでは
第17回オープンソーステクノロジー勉強会に行ってきた@六本木。参加動機は、大学1〜2年までは、LinuxはずっとDebianを使っていたから。Fedoraが騒がれ始めたころから、Fedoraに移ってしまったけど。この記事で言いたいのは、次の二つ。 Debianプロジェクトの体制は、Wikipediaの体制とよく似ている この手の「誰でもwelcome」な巨大組織で責任を持つ立場になっているかどうかは、コミュニケーション能力の有無の非常に良い指標になっている ということ。 まず、Wikipediaの体制との類似性について。自分は、Wikipediaの方で少し活動していたことがあるのだけれど、基本的には誰でもwelcomeな組織で、ちゃんと仕事を進められる組織にしようと思うと、組織の作り方はどの世界でも似た形になるのだと思う。 責任者(責任を持って仕事してくれる人)を作る 責任者になる人を選挙
かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。 確率分布間の近さを測るのには普通KLダイバージェンスを使うが、よく知られているようにKLダイバージェンスは非対称なので、これだと、コサイン類似度のような普通の類似度の意味では使えない。そこで、JSダイバージェンスというのを使う。KLダイバージェンスをと置くと、JSダイバージェンスは、で表わされる。JSダイバージェンスという言葉を初めて知った。勉強になりました。
NL研の受付二日目。研究室に泊って、朝9:30に集合。以下、二日目で面白かった研究について。 これは、「へぇ、言い換えに、こんな応用があるのか」と思ったもの。博物館などの解説文に含まれる表現を、子供や非専門家に分かりやすく書きかえるためのタスクを言い換えの問題に落とし、実際に専門家に解説文を作ってもらった、というもの。「博物館などの解説文の作成支援」は、非常に重要ではあるが収益性が見込みにくく、研究としてやることが重要なタスクだと思う。まぁ、言い換え研究については、全然知らないのですが。 かなり面白い研究。ブログの記事間のリンクのうち、正しく情報伝搬を反映しているものを選別するタスク。そこで、記事と記事の間の類似度を測るのだが、そのとき、普通に単語ベクトルの類似度を使うのではなくて、LDAでトピック分布を推定してトピック分布の類似度を使用した方がよくなるんじゃないですか、という話。 確率分
もう、色々なところで語られてしまいましたが、情報処理学会第190回自然言語処理研究会、通称NL研に参加したので、記事を書きます。僕は、紺色のジャケットを来て受付やってました。NL研の受付をやるのは、熱海に続き、二回目になります。日当8000円。熱海では会場と受付が離れていたので発表がほとんど見られなかったのですが、今回は、会場と受付が同じ部屋だったので見ることができました。会場は、東大工学部6号館3階でした。 NL研は、聴講だけなら無料で可能です。有料・無料は予稿集の有無で決まります。予稿集は、大抵、1件6ページです。学生であれば、情報処理学会の会員でなくても、現地で500円払えば予稿集が購入できます。学生でない方は、情報処理学会の会員の場合1500円、そうでなければ2500円かかります。学生500円というのは、かなり安いと思います。今回のNL研でも、途中で読みたい論文が出てきたので、50
トップバッターは、[id:nokuno:20090325]さんのSocial IME。Social IMEのコンセプト自体は知っていたのと、以前は入力研究をやっていたので、期待していました。Social IMEは基本的にはAnthyのエンジンを使っているのですが、予測変換部分を実装して組み込みましたよ、という話。予測変換となると、変換精度だけではなく、「何文字先まで予測するべきか」という問題が出てくるのですが、これを、予測入力時間が最小となるように(入力時間の削減量が最大となるように)決定する、というのが、とても「入力」という実用に沿っているように思います。応用分野で、目的に忠実にモデル化すると、これまでとは違った評価関数が出てきて、そこにオリジナリティーが出てくる、というのは、一つの理想的ストーリー。Anthyと予測変換の使い分けは、スペースを押すかTABを押すかで決定しているようです。
このページを最初にブックマークしてみませんか?
『Educational NLP blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く