タグ

NLPに関するjewel12のブックマーク (188)

  • [O] 第4回 データ構造と情報検索と言語処理勉強会 #DSIRNLP を開催します

    第4回 データ構造と情報検索と言語処理勉強会 #DSIRNLP を開催します Tweet [日記] とても久しぶりに DSIRNLP を開催することになりました。 前回は2012年11月28日だったので、1年弱開催してなかったみたいです。 Speech and Language Processing [Amazonで詳細を見る] DSIRNLPの申込は以下のリンクのさらに先からできます。 http://yans.anlp.jp/modules/menu/main.php?page_id=108&op=change_page#dsirnlp 突然、開催することになったきっかけは、ALAGIN & NLP若手の会 合同シンポジウムです。 ALAGIN & NLP若手の会 合同シンポジウムって こういう仰々しい名前になると個人的にぱっと見の意味がよく分からなくなりますが、要するに『NLP若手の会

    jewel12
    jewel12 2013/08/20
  • NLP論文ネタ一覧

    by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の

    jewel12
    jewel12 2013/04/17
    雑談を利用した 人間モデルを生成する外れポケモン型主辞伊坂大量の調査
  • 特徴語抽出に関する独り言 - コーパスいぢり 〜langstatの研究日誌〜

    思いは言葉に。 はてなブログは、あなたの思いや考えを残したり、 さまざまな人が綴った多様な価値観に触れたりできる場所です。

    特徴語抽出に関する独り言 - コーパスいぢり 〜langstatの研究日誌〜
    jewel12
    jewel12 2013/02/21
  • 人工知能で「ショートショート」小説に挑戦 - 日本経済新聞

    公立はこだて未来大(北海道函館市)の松原仁教授らは6日、SF作家の星新一さんが得意とした「ショートショート」と呼ばれるジャンルの小説を、人工知能AI)を搭載したコンピューターに制作させる試みを始めると発表した。ショートショートは400字詰め原稿用紙で十数枚程度の短い物語で、星さんの作品は平易な文章や分かりやすい構造が特徴。松原教授は「AIに人間の感性を扱わせたい」として、5年以内に完成させ、

    人工知能で「ショートショート」小説に挑戦 - 日本経済新聞
    jewel12
    jewel12 2012/09/07
  • NLTK 2 Release Highlights

    NLTK 2.0.1, a.k.a NLTK 2, was recently released, and what follows is my favorite changes, new features, and highlights from the ChangeLog. New Classifiers The SVMClassifier adds support vector machine classification thru SVMLight with PySVMLight. This is a much needed addition to the set of supported classification algorithms. But even more interesting… The SklearnClassifier provides a general int

    NLTK 2 Release Highlights
  • 統計的機械翻訳の最先端 渡辺太郎 情報通信研究機構 taro.watanabe @ nict.go.jp 注意 • いろんな言語が混ざっています。 • 基礎的な内容は も読んでください。 • このスライドの最新版 2 http://

    統計的機械翻訳の最先端 渡辺太郎 情報通信研究機構 taro.watanabe @ nict.go.jp 注意 • いろんな言語が混ざっています。 • 基礎的な内容は も読んでください。 • このスライドの最新版 2 http://mastarpj.nict.go.jp/~t_watana (Koehn, 2009) 機械翻訳 • モデルを仮定、データからパラメータを学習 • 学習されたモデルでデコード • ルール翻訳、用例翻訳などの区別は無意味 data learner model decoder The United Inspection Department of Heishantou Port has shortened the procedures for leaving and entering the territory from originally 2 - 3 days

  • NoSQLの技術を使ったBlogの感情分析

    原文(投稿日:2011/12/28)へのリンク 企業がソーシャルメディアを使って製品や企業自体の評判を調べる傾向が顕著になっている。これに伴い、単語と定量的メトリクスを使い、文書に含まれる感情を分析するという独特の課題が現れている。 Subramanian Kartik氏とEMCのGreenplumチームはブログ記事をMapReduceとPythonのNatural Language Toolkitを使い、EMC GreenplumデータベースのSQL分析と組み合わせてスパースベクトルとK-平均法アルゴリズムを用いて分析するという研究プロジェクトを行った。 Subramanianは昨年のNoSQL Now 2011カンファレンスでこの研究について発表した。InfoQはこのプロジェクトと背後にあるアーキテクチャについてSubramanianに詳しい話を聞いた。 InfoQ:Greenplum

    NoSQLの技術を使ったBlogの感情分析
  • 適当な仕事をしている注釈者を発見せよ! - kisa12012の日記

    NIPS2011の論文を紹介していくコーナー. 今回対象とする論文は,Ranking annotators for crowdsourced labeling tasks. 概要 論文は,標のラベル付を複数人にしてもらう時に,標をきちんと見ず,適当な注釈を行なっている人を見付け出すためのスコアリングを提案しています. Mechanical Turk等のクラウドソーシングで今後必要になりそうなテーマですね. 論文では,このような適当な注釈者をスパマーと呼び,スパマーを効率的に見つけ出すためのランキング手法を提案しています. 手法 2クラスの場合と多クラスの場合について議論していますが,今回は2クラスの場合を簡単に紹介します. スパマーはコイン投げと同じようにラベルを選んでいるため,P(注釈者のラベル|真のラベル)が0.5になります.[α,β] 一方で,仕事が出来る注釈者は上の確率が1

    適当な仕事をしている注釈者を発見せよ! - kisa12012の日記
  • 蝉々亭

    ウェブサイトの移転などと書くといささか昭和の趣きがありますが,移転しました.同じタイトルで Blogger でやっていきます: 蝉々亭 はてなダイアリーの操作はちょっと直観的でないところがあって,いろいろいい機会なので移転しました.過去の記事はそのまま残しておきます. 今書かないと永遠に書かないような気がしますので書いておこうと思います。単なる雑駁な感想です。言語処理学会に行ってきました。今年も例年通りお祭り騒ぎと申しますか、会期中、普段お会いできない方々と、旧交を暖めると称して酒を酌み交わす日々となりました。私自身は会議でのポスター発表とワークショップでのオーラル発表があり、これらをこなしつつ、夜は酒席に馳せ参じるという塩梅で、なかなかハードでした。 昨年の北海道では3回の発表(会議での一般発表、論文賞受賞に伴う発表、ワークショップでの発表)と3回の座長(チュートリアルの司会、一般セ

    蝉々亭
  • 言語処理学会第18回年次大会(NLP2012)

    概要 言語処理学会第18回年次大会は,広島市立大学で開催します. 例年通り,自然言語に関する理論から応用まで幅広い研究発表を募集します. とくに,言語学教育学,心理学など,日頃「言語処理」とは縁が薄いと感じておられる人文系の研究者の方々からの積極的な発表を期待しています. 従来通り,研究発表の形態は口頭発表(質疑応答も含めて20分間程度を予定)とポスター発表のいずれかです. 口頭発表とポスター発表は時間帯を分け,両者が重ならないよう考慮する予定です.両種の発表とも,予稿集には最大4頁の論文を掲載する予定です. また,今大会でも言語処理関連分野内にある人文系,理工系,アカデミア,ビジネスなどのコミュニティーを超えた議論を奨励するために,分野横断的テーマセッションを口頭発表の中に設けます. テーマセッションでは,セッションの最後に総合討論の時間を取り,参加者の間でより活発な討論ができるような

    jewel12
    jewel12 2011/10/24
  • State of the art - ACL Wiki

    The purpose of this section of the ACL wiki is to be a repository of k-best state-of-the-art results (i.e., methods and software) for various core natural language processing tasks. As a side effect, this should hopefully evolve into a knowledge base of standard evaluation methods and datasets for various tasks, as well as encourage more effort into reproducibility of results. This will help newco

    jewel12
    jewel12 2011/10/20
  • apporo - Project Hosting on Google Code

    Code Archive Skip to content Google About Google Privacy Terms

    jewel12
    jewel12 2011/10/14
  • Android版「Google Translate」、日本語を含む14カ国語の音声翻訳が可能に

    Googleは10月13日(現地時間)、Android向け翻訳アプリ「Google Translate」の音声翻訳機能を日語を含む14カ国語に対応させたと発表した。 同アプリは3月、「Crisis Response版」として日語と英語スペイン語の間での音声翻訳に試験的に対応していたが、今回正式に、日語、ポルトガル語、チェコ語、オランダ語、フランス語、ドイツ語、イタリア語、韓国語、中国語、ポーランド語、ロシア語、トルコ語をサポートした。 アプリを起動してオリジナル言語と翻訳先言語を選び、入力枠の右横にあるマイクアイコンをタップしてマイクに向かって話すと、指定した言語に翻訳したテキストが表示され、スピーカーアイコンをタップするとそのテキストが読み上げられる。 α版の「会話モード」にすると、画面の上下に2つのフキダシが表示され、例えば日語→英語は上のフキダシをタップして入力し、英語

    Android版「Google Translate」、日本語を含む14カ国語の音声翻訳が可能に
  • 第7回自然言語処理勉強会で発表してきました - 蝉々亭

    第7回自然言語処理勉強会で文書要約に関するお話をさせていただきました。その際に用いましたスライドを公開します。今回は入門編(初級編)なので、そのうち中級編をやるかもしれません。 Introduction to Automatic Summarization View more presentations from Hitoshi NISHIKAWA 毎回、スライドのレイアウトがおかしくなっていましたが、今回はpdfに変換してアップロードしました。こうすれば良かったのですね。今回はレイアウトが乱れていないはずです。過去のスライドもpdf化してアップロードしなおすつもりです。 次はグーグルによるザガットサーベイ買収の話か、NLP若手の会第6回シンポジウムの話を書きます。

    第7回自然言語処理勉強会で発表してきました - 蝉々亭
  • erika-trie(実用版)とキーワード抽出ツールerika_extractを作ったよ - EchizenBlog-Zwei

    先日まで勉強のためにerika-trieというLOUDSを用いたトライ木を作っていた。ある程度考えがまとまったので実用版を作り始めた。 erika-trie(実用版)はmarisa-trieやtx/ux/rx等と同等の操作を備えたトライ木。またerika-trieを用いてテキストからキーワードを高速に抽出するためのツールerika_extractが付属している。 DSIRNLP#1で発表しました「TRIEにトライ!〜今日からはじめるTRIE入門〜」 - EchizenBlog-Zwei 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlog-Zwei erika-trie: succinct trie library - Google Project Hosting はじめに。なんとなくツールをerika-trieにしたのだが、意味のない名前というのもア

    erika-trie(実用版)とキーワード抽出ツールerika_extractを作ったよ - EchizenBlog-Zwei
    jewel12
    jewel12 2011/09/13
  • デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記

    Twitterにおけるデマ検出手法を論じた研究が,ついにEMNLP2011に出てきたので紹介します. 論文:Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011] Twitter上のデマに関する興味深い統計情報も幾つか含まれているので,興味のある方は一読されると良いかと思います. 概要 噂と噂に関連するツイートを検出すると同時に,その噂の信頼度を推定 様々な特徴量を用いて実験 ツイートの文面を使って分類器を作るだけで,高い精度が実現可能! ただし,アノテートされたツイートを教師データとして使用 背景 マイクロブログ上で噂は急速に広まる デマや誤情報は,企業にとって大きな障害となりうるので自動で特定したい この研究では,以下の手順でデマや誤情報を検出する 特定の噂に関して言及しているツイート

    デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記
  • Tutorial

    チュートリアル等で作成した資料・解説です。 参考になった、コメント、感想、気になった点等あればご連絡頂けると幸いです。 機械学習入門 初心者向けの機械学習入門です。 LIBLINEARを用いた機械学習入門(単語分割) 第一回 機械学習を自然言語処理の分類問題に適用する入門ドキュメントです。 LIBLINEARという実装を用いて、自動単語分割モデルの学習を行います。 日語 英語(近日公開できます) 言語モデル演習 河原研でM1向けに行っている言語モデル演習の資料です。 言語モデルの概要 単語bi-gramモデル・エントロピー 言語モデルの基礎、文字n-gramモデル、単語n-gramモデル、未知語モデルについて扱います。 また、言語モデルの評価としてエントロピーとカバレージについて扱います。 PDF KAWAHARA Lab Top Page Back to Yoshino's p

    jewel12
    jewel12 2011/08/01
  • 語種辞書『かたりぐさ』 - 言語データベースとソフトウェア

    概要† 語種辞書『かたりぐさ』*1は,独立行政法人国立国語研究所 研究開発部門 第一領域によって作成された,言語研究,自然言語処理用の語種情報データです。 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松研究室)より公開されている形態素解析システム『茶筌(ChaSen)』付属の電子化辞書『IPADIC』バージョン2.4.4(2001年3月)に対応しています。 『かたりぐさ』は無償でご利用いただけます。 著作権・使用条件に関する情報をあらかじめご確認の上,お使いください。 配布ページでは,利用状況を調べるためのアンケートを行っています。ご協力いただければ幸いです。 語種(ごしゅ)とは,一般的に,語の出自(ある言語の中でどのようにしてその語が使われるようになったか)を指します。 日語の語種は,多くの場合,「和語」「漢語」「外来語」と,これらのうちの2種以上が結合した「混種

    jewel12
    jewel12 2011/07/27
  • Loading...

  • NLP Resources for Ruby « The Mendicant Bug

    There are quite a few well-known libraries for doing various NLP tasks in Java and Python, such as the Stanford Parser (Java) and the Natural Language Toolkit (Python).  For Ruby, there are a few resources out there, but they are usually derivative or not as mature.  By derivative, I mean they are ports from other languages or extensions using code from another language.  And I’m responsible for t