午前中は共同研究のSkypeミーティング、なのだがこちらの音声が送れないという謎の不具合で20分ほどロス。前回までとお互いハードウェアもソフトウェアも変えていないはずなのだが……。こちらを再起動してSkypeを最新版に更新したらつなげるようになった。謎。 昼過ぎに会計処理。使い切らないといけない予算は全部消化したのだが、新年度の学生数が確定したら必要な機材を揃えておかないと。 夕方は研究室で機械翻訳の話をしたり。先日届いた「機械翻訳」を渡したりする。出版直後は品薄だったようだが、今は普通に買える。 機械翻訳 (自然言語処理シリーズ) 作者: 渡辺太郎,今村賢治,賀沢秀人,Graham Neubig,中澤敏明,奥村学出版社/メーカー: コロナ社発売日: 2014/01/21メディア: 単行本この商品を含むブログ (7件) を見るまだ詳しく読んでいないが、チラ見した範囲では相当よく書けているの
はじめに 去る9月23日(水)に株式会社ドワンゴ様歌舞伎座タワー本社にて、第4回言語処理勉強会(ハッシュタグ「#NLPStudy」)を開催しました。 会場提供ならびにご案内をしていただいたドワンゴ様、まことにありがとうございます。 また、発表者の皆様、ボランティア参加の方々、そして参加者の方々、シルバーウィーク最終日というゆっくりと休みたい日にお集まりいただきましてありがとうございました。 tokyoscrapper.connpass.com 概要 今回は導入セッション1件、応用セッション2件、LT2件の発表で、言語処理からライセンスやスクレイピング、論文紹介・シンポジウム参加・実装してみた話など、とても盛りだくさんの内容でした。 また、ありがたいことに本勉強会を共同で主催している@nezuqさんより、ご著書を数冊いただきました(多謝)。こちらは発表者の方々と、会場でのジャンケン大会の勝者
先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、
こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事 ではない です) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた 私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。 あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら 確率自由文脈文法とは ちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。 雰囲気つかむにはここらへんを
2. ⾃自⼰己紹介 海野 裕也 l (株)プリファードインフラストラクチャー l ⾃自然⾔言語処理理、情報検索索、機械学習、テキストマイ ニングなどの研究開発 l 画像解析とかもやります l Jubatusの開発など NLP若若⼿手の会共同委員⻑⾧長(2014-) 2 3. 宣伝:NLP若若⼿手の会(YANS) l YANSシンポジウム(9⽉月) l 若若⼿手研究者(40歳未満くらい)の若若⼿手研究者が、⾃自 ⾝身の研究を進めるための集まり l 学⽣生やエンジニアの参加も歓迎 l 今年年も合宿をやる予定です l スポンサーも募集する予定です l YANS懇(3⽉月) l ⾔言語処理理学会全国⼤大会期間中に懇親会をします l 単なる飲み会です J 3
あけましておめでとうございます.もう1月も終わりですが,ようやく年を越してしまった課題を終わらせつつあります. 昨年の9月,11月にそれぞれ情報処理学会第213回自然言語処理研究会と人工知能学会第91回人工知能基本問題研究会にて機会をいただき,自動要約に関する最近の研究動向についてお話してきました.ありがたいことに,資料を公開して欲しい,との声をいくつか頂戴しましたので,内容を整理してここに掲載しておきたいと思います. Automatic summarization from Hitoshi NISHIKAWA 今年の言語処理学会第20回年次大会では,東京工業大学の高村先生が自動要約に関するチュートリアルをしてくださいます.言語処理学会第20回年次大会は絶賛事前参加受付中です.
業務経歴: 2012年株式会社サイバーエージェント入社。現在、子会社WAVESTにてJCJK向けメイクと自撮りの研究サービス「メイクme」のシステム責任者を担当。主にサーバサイドを担当しています。 概要 膨大なツイートから好みの女の子を見つけたいです。 好きな女の子のタイプのキーワードを入力すると、該当するアカウントを出力するステキなシステムを作ります。 作成したコードやデータはこちら https://github.com/inkenkun/tech_twitter 目次 1. 女の子だけのアカウントを取得したい Twitterには性別という属性がないため、まずは女の子のアカウントを何とかして大量に取得してこなければなりません。 おっさんとマッチングされても困りますからね。 1-2. 女性単語辞書を作る。 確実にこれは女性だってわかるアカウントを30個ほど目視で取得します。 そして抽出した
10. 特徴量は、コメントの出現数 候補は2014春アニメの第一話に ついたコメントのうちの上位 つまり、同じ定型文がどれくら い出現しているか。 繰り返し正規化 一時期話題になった coooooolllllllllの論文[1] とりあえず4文字以内の繰り返し を一つにまとめてみた 動画同士の距離はコサイン類似 度 wwwwwwwwwwwww www 888888888888888888 8888888 ペロペロペロペロ ★≡=― ★≡=― ★≡=― ★≡=― [1] "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos)
大量のデータの背後にある潜在的な情報を抽出する技術として,トピックモデルと呼ばれる統計モデルの研究が近年注目を集めている。本書はこれについて,言語処理という具体的な問題に対して,その理論と応用をわかりやすく解説する。 0. 本書の使い方 0.1 本書の読み方 0.2 各章と付録の説明 0.3 本書で用いる記号など 1. 統計的潜在意味解析とは 1.1 潜在的意味・トピックと潜在的共起性 1.2 潜在意味解析の歴史 1.3 統計的潜在意味解析とデータ駆動インテリジェンスの創発 1.4 確率的潜在変数モデル 1.5 確率的生成モデルとグラフィカルモデル 2. Latent Dirichlet Allocation 2.1 概要 2.2 多項分布とDirichlet分布 2.3 LDAの生成過程 2.4 LDAの幾何学的解釈 2.5 LDAの応用例 3. 学習アルゴリズ
In this work, we introduce a new Markov operator associated with a digraph, which we refer to as a nonlinear Laplacian. Unlike previous Laplacians for digraphs, the nonlinear Laplacian does not rely on the stationary distribution of the random walk process and is well defined on digraphs that are not strongly connected. We show that the nonlinear Laplacian has nontrivial eigenvalues and give a Che
ブログの更新がとまっていましたが、また少しずつ更新してきたいと思います。 今回はtrie(トライ)の最近の話をしたいと思います。 trieはキー集合を扱うためのデータ構造の一種です。例えば、単語集合からなる辞書であったり、クロールしたURL情報を扱ったり、最近だと、KVS(Key Value Store)のようにキーを介してデータを保存、読み込みをしたりと様々な場面で利用されます。 同じようにキー集合を格納するデータ構造としてハッシュを利用する方法があります。キーからハッシュ値を計算し、その場所に文字列へのポインタを格納しておくデータ構造です。ハッシュを利用した場合とtrieを利用した場合の一番の大きな違いは、trieの場合だと、ある文字列から始まるキーを全て列挙する、いわゆる接頭辞探索ができることです。例えば”te”で始まる文字列を網羅的に調べることができます。木をたどって、”te”の下
第8回言語学×自然言語処理合同勉強会(2014/10/31, NII)の発表スライドRead less
1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio
by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000本分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日本語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。 理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。 ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール/ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。 単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,
概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く