タグ

関連タグで絞り込む (284)

タグの絞り込みを解除

NLPに関するtnalのブックマーク (289)

  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
  • 社説比較くん 4.0

    「共謀罪」法案 【朝日】 「共謀罪」法案 政権の手法が問われる 【産経】 テロ準備罪の創設 国際連携の「弱い環」脱せ 【読売】 「共謀罪」法案 テロの未然防止に不可欠だ 2016/08/29 - 2016/08/31 New! 日韓財務対話 【読売】 日韓財務対話 通貨協定を関係改善の一助に 【産経】 韓国との通貨協定 反日を改める契機とせよ 【産経】 韓国との通貨協定 あらゆる面で悪影響あった「反日」を改める契機とせよ 2016/08/28 - 2016/08/30 Update 埼玉の16歳殺害 【産経】 埼玉の16歳殺害 悲劇は防げなかったのか 【読売】 埼玉16歳暴行死 救う手立てはなかったのか 2016/08/28 - 2016/08/30 日アフリカ 【産経】 日アフリカ 「平和な海」でも連携図れ 【読売】 アフリカ会議 良質な支援で中国と差別化を 2016/08/30

  • 自然言語処理の入門的な授業の構成 - 武蔵野日記

    来年度、大学院生(とやる気のある学部生)を対象とした自然言語処理の授業をする予定で、シラバスを考えているところである。形態素解析から構文解析、そして意味解析につながるオーソドックスなスタイル(必ずしも機械学習を出さなくてもよい)でやるか、あるいは機械学習を前面に出してやるか(Teaching (intro, grad) NLP 参照)、悩んだのだが、そういえば来年度は人文系の人も含めた交換留学生対象の授業(同一内容だが英語で授業)もやることを思い出し、それなら後者は難しいか……。 自分自身人文系出身なので他人事ではなく、人文系で数学に苦手意識があると、かけ算が2回以上含まれる数式はダメで、かつ割り算が1回でも含まれる数式はダメで、cosやlogが含まれる数式はそもそも意味を理解することができない(そのため、意味を考えず単なる文字列として考えるので、かえって割り算を含む数式よりよいかもしれな

    自然言語処理の入門的な授業の構成 - 武蔵野日記
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
  • WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。 - 木曜不足

    11/27-28 に京都で開催された WebDB Forum 2013(第6回 Webとデータベースに関するフォーラム) の、サイボウズの技術報告セッションにて「どの言語でつぶやかれたのか、機械が知る方法」という題で発表させてもらいました。聞いて下さった方(ustream 中継含む)、関係各位、ありがとうございました。 発表資料はこちら。 どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013 from Shuyo Nakatani テーマは過去に発表済みの「∞-gram ロジスティック回帰を使った短文言語判定」なので、技術的に目新しいことは特にない。実装が新しくなったり、細かい工夫はちらほらなくもないんだけど、そのあたりは基端折ってしまったし。20分ちょっとの発表時間でモデルの話をすると大火傷を負うことは身にしみてわかっちゃったんだ……。 というわけで、「twitter

    WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。 - 木曜不足
  • ロボットは東大に入れるか。Todai Robot Project

    プロジェクトは、国立情報学研究所(大学共同利用機関法人 情報・システム研究機構)が中心となって1980年以降細分化された人工知能分野を再統合することで新たな地平を切り拓くことを目的に、若い人たちに夢を与えるプロジェクトとして発足しました。 プロジェクトの具体的なベンチマークとして、2016年度までに大学入試センター試験で高得点をマークすること、また2021年度に東京大学入試を突破す ることを目標に研究活動を進めています。これまで蓄積された人工知能の各要素技術の精度を高め、情報技術分野の未来価値創成につなげるとともに、人間の思 考に関する包括的な理解を内外の研究者とともに深めていきたいと考えております。また、プロジェクトでは、日における学際的な知識・先端技術を集積す るだけでなく、国際的な連携も視野に入れ、研究活動を進めてまいります。

  • 人工頭脳が代ゼミ東大模試で偏差値約60達成 ~「ロボットは東大に入れるか」数学チーム

  • 人工知能 400大学で合格圏内に NHKニュース

    東京大学合格を目標に、国立情報学研究所などが中心となって開発を進めている人工知能「東ロボくん」が、大手予備校のセンター試験の模試を初めて受験し、全国およそ400の大学でA判定を獲得する成績を収めました。 「東ロボくん」は国立情報学研究所や大手電機メーカーなどが共同で開発を進めている人工知能で、9年後の2022年春までに、東京大学の入学試験を突破できる知能の開発が目標です。 23日は都内の大手予備校で東ロボくんが受けた初のセンター試験の模試の結果を講評するイベントが開かれ、900点満点中387点を獲得したことが発表されました。 この得点は偏差値で見ると45ですが、「数学I・数学A」と「世界史B」、「日史B」の3科目では平均点を上回り、国公立の大学1校を含む全国404の大学で、8割以上の確率で合格できるA判定を獲得しました。 東ロボくんは市販のUSBメモリーにも入る4ギガバイトほどのプログラ

  • GSK | 特定非営利活動法人 言語資源協会

    What's GSK 特定非営利活動法人 言語資源協会(GSK)は、平成15年6月に設立されました。 言語資源協会は、音声データ、レキシコン、テキストコーパス、ターミノロジー、各種言語処理ツール等の言語資源の流通を促進することにより、言語資源を必要とする音声・自然言語処理分野の学術・研究・産業の発展、さらには、言語学分野の研究の推進に貢献することを目的としています。 このため、言語資源保有者と言語資源利用者の双方にとって意義・メリットのある言語資源の流通の仕組み・サービスの提供を推進します。 また、対象を日国内の言語資源に限定せず、将来的にはアジア地域に拡張することにより、音声・自然言語処理技術、言語研究への国際貢献を目指します。 ●「未公開言語資源に関するアンケート」を実施しています。ぜひご協力ください。

  • 山本弘のSF秘密基地BLOG:「インディアナポリス」問題:「差別語」はなぜ生まれたか

    SF作家・山弘のblogです。小説・アニメ・特撮・マンガから時事問題にいたるまで、いろんな話題を取り上げていきます。 HPはこちら。 山弘のSF秘密基地 http://kokorohaitsumo15sai.la.coocan.jp/ そもそもなぜ「差別語規制」「禁句集」なんてものが生まれたのか。その歴史的経緯を知らない人が多いようなので、解説しておく。 1970年代まで、マスコミには言葉の規制なんてなかった。 僕がよく例に挙げるのは、『ウルトラマン』の第2話、これからバルタン星人との交渉に赴こうとするイデ隊員が言う。 「そりゃあ僕は宇宙語に関してはかなり気ちがいさ。でも、当の宇宙人と喋った経験はないからね」 この場合の「気ちがい」という言葉には侮蔑的ニュアンスはない。自分は宇宙語を熱心に勉強しているという肯定的なニュアンスで発せられている。 僕が子供の頃、日人はみんな「気ちがい」

    山本弘のSF秘密基地BLOG:「インディアナポリス」問題:「差別語」はなぜ生まれたか
    tnal
    tnal 2013/11/14
  • 音声認識でかつてNNがHMMに敗北した状況まとめ

    音声認識を長年研究されている @akinori_ito 先生が、2000年以前に起こったNNとHMMの競争の流れについてツイートしてくださいました。

    音声認識でかつてNNがHMMに敗北した状況まとめ
  • 多機能で洗練されたテキストアノテーションツールbrat - 自然言語処理 on Mac

    brat (brat rapid annotation tool)は固有名・イベント抽出、共参照解析、チャンキング、構文解析などの様々なタスクに利用できるテキストアノテーションを表示・編集するツールです。数多くの機能を備えていて、右の画面のように表示が美しく、操作もマウスを使って直観的に行うことができ、ショートカットのキーボード操作も設定できるようになっているなど大変使いやすくなっています。 bratは共同作業も行えるようにサーバクライアントのシステムになっていて、サーバはPythonで、クライアントはJavaScriptで書かれています。セキュリティ面からApacheサーバなどを通して利用することが推奨されていますが、次のようにして簡単に起動することができます: $ curl -O http://weaver.nlplab.org/~brat/releases/brat-v1.3_Cru

    多機能で洗練されたテキストアノテーションツールbrat - 自然言語処理 on Mac
  • 人工知能学会誌 Vol. 18 No. 5 ( 2003 年9 月) | 人工知能学会 (The Japanese Society for Artificial Intelligence)

    人工知能学会誌 Vol.18 No.5 (2003年9月) 目  次 特集:「遺伝的アルゴリズムの発展」 特集「遺伝的アルゴリズムの発展」の編集にあたって ……………………………………… 山村雅幸・喜多 一・小野 功 477 確率分布推定に基づく実数値GA の新展開 ……………… 佐久間 淳・小林重信 479 ベイジアン最適化手法と分布推定アルゴリズムの動向 ……………………………………. 倉橋節也・勝又勇治・寺野隆雄 487 航空機の多目的最適設計 ……………………………………… 大林 茂 495 実数値GA のバイオ分野への応用 ―大規模遺伝子ネットワークの相互作用推定― …………. 岡正宏・小野 功 502 GAによる不確実な適応度関数の最適化 ………………….. 喜多 一・佐野泰仁 510 特集:「機械学習,それが人に及ばざる理由」 特集「機械学習,それが人に及ばざる理由」の企画

  • 自然言語処理まわりのDeep Learningを自分なりにまとめてみた — KiyuHub

    自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました. 自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています. きっかけは,勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで, 株式会社Gunosyの勉強会の場で,発表の機会を頂きました. それが,9/11で,その後9/26に研究室内で同じ内容で発表しました. どちらも思った以上に好評を頂け,公開してはと進めて頂いたので,公開することにしました. もちろん間違いが含まれている可能性も多分にあるので.気づいた方はご指摘頂けると幸いです. 内容ざっくり 前半は,ニューラルネットワークを図を使

  • 語義曖昧性解消メモ - Negative/Positive Thinking

    はじめに 意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。 語義曖昧性解消周りをちょっと調べたので、メモ。 語義曖昧性解消(Word Sense Disambiguation)とは 複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存在する。 語義曖昧性解消は、その語の周辺情報(コンテキストなど)から正しい意味を見つけるタスク。 アプローチ 知識ベース(Knowledge-Based) 辞書やシソーラスデータ、WordNetなどが使える場合 語に関する情報・リソースを使うアプローチ リソース 構造化 シソーラス 辞書(機械処理しやすい、Machine-readable) オントロジー 非構造化 コーパス(タグ付き/タグなし) 連語リソース 語の頻度リスト ストップワード ドメインラベル Leskアルゴリズム 初期の有名なアルゴリズム 注目している単

    語義曖昧性解消メモ - Negative/Positive Thinking
    tnal
    tnal 2013/09/24
  • Webデータに基づく形容詞用例データベース - 言語データベースとソフトウェア

    このデータベースは,形容詞研究用の基礎データを提供することを目的として,Webデータから機械的に構築したものです。特徴は,語・語形によらず十分な用例を確保できるよう,語ごと,語形ごとに専用のコーパスを構築していることです。 データベースの機能は,次のとおりです。 形容詞検索 格要素・用例一覧の表示 なお,データベースは,国立国語研究所共同研究プロジェクト「文脈情報に基づく複合的言語要素の合成的意味記述に関する研究」の研究成果です。 使ってみる† 「Webデータに基づく形容詞用例データベース」へ 利用者マニュアル 収録データについて 形態素解析システムJUMAN(ver.6.0)の辞書に記載されている「イ形容詞」552語,「ナ形容詞」*11678語収録しています。 用例データベースを構築する方法は,「Webデータに基づく複合動詞用例データベース」と同一です。ただし,用法ごとに出現頻度が大

    tnal
    tnal 2013/09/21
  • Random Projectionを試す - Negative/Positive Thinking

    はじめに 言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。 次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは 乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して、行列Xをかけることで次元を落とすことができる X_rp = R * X また、このRの各要素がN(0,1)の正規乱数の場合、各列ベクトル間のユークリッド距離をできるだけ保ったまま、次元削減できることが証明されている この乱数行列Rの作り方として、以下が提案されている Rの各要素r_ijについて、以下の近似を用いる 1/6の確率で、r_ij = sqrt(3) 2/3の確率で、r_ij = 0 1/6の確率で、r_ij = -sqrt(3) 準備 ドキュメント群からcos類似度の近い文書を検索するということを、次元削

    Random Projectionを試す - Negative/Positive Thinking
  • A Biterm Topic Model for Short Texts(WWW 2013) 読んだ - 糞糞糞ネット弁慶

    A Biterm Topic Model for Short Texts(WWW 2013) 概要 LDAやPLSIは文書中の単語が少ない時にうまくいかない.なぜならば文書ごとにトピックの分布があって,それによって単語が生成されるという仮定があるからだ. 提案する Biterm Topic Model(BTM) ではトピックの分布は文書全体に対して存在していて,そこから各文書に対して2語(biterm)が生成されると仮定する. すごく大雑把に言えば,通常のLDAではトピックにおける単語の出現確率と,文書におけるトピックの出現確率が学習されるが,今回のBTMではトピックにおける単語の出現確率が学習されるのは共通しているが,トピックの出現確率はとなっていて,文書を引数に取らず,全文書に対して計算される. 手法 Gibbs sampling は次のように行う.シンプル.論文中にのnotation

    A Biterm Topic Model for Short Texts(WWW 2013) 読んだ - 糞糞糞ネット弁慶
  • 夏の集中勉強会/2013 - NAIST Computational Linguistics

  • 学会出張@東欧一日目: 学会全体が良い方向に向かっているのを感じる - ny23の日記

    初日はまず,前日連絡がついた現地の修理センター兼販売店にバッテリの切れた PENTAX K-5 を持って行った.ホテルから学会会場が至近で,かつ修理センター兼販売店が会場の反対側だったため,早めに参加受付だけを済ませて販売店に急いだ.店は会場から徒歩15分ぐらいとやや遠め. 店に向かっている道すがら,街を歩く人や道端の店,建物などを眺めていたら,少しずつこの街らしい風景が見えてきた.特にユニークだと思われるのは, 犬(ペット)が放し飼い.大型犬が多く,暑いからかよく地面に転がっている.夜歩いていて,すれ違いざまに大型犬が威嚇してきたときはちょっとびっくりしたが,飼い犬をリードで繋がなくても良いというのは.良いなあ. 半地下で,地面すれすれに窓口を構えた*1売店があちこちにある.買うときに客がしゃがんで買う光景が新鮮.雨が降ったらどうするのだろうか? 車が歩行者に優しい.両側2車線など道幅が

    tnal
    tnal 2013/08/20