タグ

ブックマーク / blog.unnono.net (9)

  • 日本語で読める自然言語処理のチュートリアルスライドまとめ

    先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、

    yuiseki
    yuiseki 2015/04/20
  • 今、人工知能研究で何が起こっているのか

    半年前くらいに書いた草稿が、投稿されずに残ってたのでちゃんと書きました。 最近、人工知能という言葉がまた流行しているような印象を受けます。 ブームということの質は2つ有ると思っています。 1つは学術会で、最近良い成果が立て続けに出てきたという側面です。 もう一つは、それに呼応して大きな会社、特にIBMやGoogle、Facebookといった大きなコンピュータ系、インターネット関連企業が力を入れていることが大々的に報道されたことです。 両者はもちろん関係していて、いくつか技術的ブレークスルーがあって、それが企業の投資を呼んでいる、それと呼応するように学術的な成果が企業からでているという、正のスパイラルが生まれている様に見えます。 こうした流れをいち早くとらえた新書として、「クラウドからAIへ」というがあったので読んでみたのですが、一般のビジネスマンを意識して、歴史、現在、未来について大局

    今、人工知能研究で何が起こっているのか
    yuiseki
    yuiseki 2014/07/25
  • NIPS2013読み会でword2vec論文の紹介をしました

    先週、 @sla さん主催のNIPS2013読み会で、word2vec論文(正確には続報)の紹介をしました。 ちょっと解説を書きます。 このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています(が、全然deepっぽさはない)。 最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが(おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな)、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。 ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。 そんなこといわれても、作れば?ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。 「都合のいい」

  • Statistical Semantics入門の発表をしました

    先週のPFIセミナーで、Statistical Semantics入門という発表をしました。 主に分布仮説をベースにした、単語の意味を文脈の分布で表現する研究を纏めました。 LSIから始まって、PLSI、LDAと続く言語モデル系、NMFなどの行列分解系、そしてNNLM、RNNLMと来て昨年流行したニューラルネット系の3つでまとめるという形をとっています。 あまり専門的になりすぎず、過去からの歴史や流れを踏まえ、一方で実用面や研究テーマのココロ、問題意識を重視するような内容になるように心がけたつもりではあります。 当初、他の「いわゆる意味論」との比較みたいなスライドもあったのですが、変なコト言うと刺されると思ったので消しましたw ところで、応用の観点でこれらの話をどう考えているか、というような点について触れるのを忘れたな、と思ったのでこちらに書いてみます。 基的に私見ですが。 私自身は、単

    yuiseki
    yuiseki 2014/02/12
  • 社内セミナーで形態素解析について話しました

    持ち回りの社内セミナーが自分の番になったので、形態素解析についてまとめてみて、発表しました。係り受け解析入門に引き続き、自然言語処理チュートリアルシリーズ第2弾になります。結構ボリュームがあって、力作になってます。 今回の狙いは3つくらいありました。 ひとつは自分自身昔の文献などを読んだことがなかったので読んでみたこと。見ると、昔は多くの論文を企業の人が書いていて驚きます。初期の文献で引用したものはほとんどが企業系研究者の方の論文です。日本語入力の文脈で研究されていたからなのかな、という気がします。 もうひとつは現在の問題点と問題意識をまとめる。書いたとおり、アプリケーションに対して最適なことをすべき、という思いがあります。それは単にアプリケーションごとに形態素解析器を作るべき、ということではないです。そもそも形態素解析というソリューションは適切ですか?という問いかけです。実際に弊社では、

  • matplotlibで日本語epsを生成する方法

    matplotlibは素晴らしく使い勝手がいいのだが,日語を表示しようとした途端にハマってしまった.まだちゃんと調べきれてないんだが,どういうわけかうまく行ったり行かなかったりで,とりあえず自宅環境でちゃんと動いたのでメモ.手元の環境は python 2.6 + matplotlib 0.99.1. 最終的な結論としては,フォントを適切に設定すればOK.フォントファイルの指定はFontPropertiesを使う必要があるようだ.ここで埋め込むフォントで挙動が変わるらしいことが,経験的にわかった.動作を確認したのは最新のIPAフォント(現時点でver 003.01).このフォントは,埋込PDFを作ることをライセンス上許可しているため,フォント埋込みを要求される論文投稿など(加えて,国際学会に日語の処理の文脈で投稿する必要がある時)使うと良いだろう.こういう基盤の仕事をオープンソースという

  • コンピュータがクイズチャンピオン破る

    今日という日は自然言語処理業界はもとより,コンピュータの歴史の中で大変重要な日になったことでしょう.IBMのProject Watsonが,アメリカの人気クイズ番組Jeopardy!で,歴代のチャンピオンに勝利したのです. IBMスパコン、クイズ王者2人と対決し完勝 米番組 コンピュータWatson vs クイズ王の対戦 - Jeopardy! このプロジェクトは私が入社したころからすでに始まっていて,こういうチャレンジは当にすごいなぁ,と思っていました.当はこの日記も対戦日が決まったときに書こうと思って忘れていたのですが. では,何がそんなに画期的なのか.それは,クイズに答える,もう少し汎用的に言えば質問に答える,という作業はコンピュータにとってもっとも難しいタスクのひとつなのだということです.自然言語処理のタスクのひとつで,Question Answering (QA) と呼ばれま

    yuiseki
    yuiseki 2011/02/19
  • Pythonでグラフを描くmatplotlib

    今まで論文を書くとき,「漢は黙ってgnuplot」と思っていましたが,いかんせん描画できないいくつかのグラフがあります.今回,点の大きさがそれぞれ違う散布図みたいなのを描こうと思って,どうしてもよくわからずあきらめました.当初Rを使おうかと思ったのですが,なかなかいまさら文法を習得しづらい.そこでふと調べると,pythonでグラフ描画できるライブラリがあったのですね.それがmatplotlib.インストールにはnumpyが必要です. 使ってびっくり,非常に簡単,高機能,使いやすい,pythonで書ける.いいことづくめ.大雑把に言うと,x, yがfloatの配列とします.あとは,plot(x, y)を呼んでから,show()するだけ.tkで作られたウィンドウにグラフ描画されます.保存ボタンがあるので,そこからepsを選べば保存できます.eps出力はどうやるんだっけと,ぐぐる必要はもうありませ

    yuiseki
    yuiseki 2010/01/20
  • unnonouno

    私は仕事柄、「人工知能」とか「AI」というものを扱っていることになっている。ところが、私は「人工知能」や「AI」という言葉をほとんど会話の中で使わない。使うときも極めて選択的な文脈でしか使わない。この業界、こういう人は多いようだ。昨年、知り合いの主催するパネルディスカッションのテーマとして、「人工知能」という言葉についてどう思うかと言った議論を扱い、そこで普段言いたかったことを吐き出したのでこちらにも書いておきたい。 なぜ使わないかといえば、端的に言えば、人によってこの言葉の意味の捉え方が全く違うため、「言葉」として機能しないからだ。

    yuiseki
    yuiseki 2010/01/20
  • 1