タグ

nlpに関するnhayatoのブックマーク (537)

  • 語彙推定テスト

    この語彙数推定テストは, NTTコミュニケーション科学基礎研究所が, 単語親密度(NTTデータベースシリーズ「日語の語彙特性」第1巻・単語親密度 [天野,近藤 (1999) 三省堂])を利用して開発したテストです(特許第3331286号)。 このテストは、新明解国語辞典第四版(三省堂)を基準にしています。よって、ここで推定される語彙数は、あなたが新明解国語辞典第四版(三省堂)の見出し語を何語を知っているかを意味します。 固有名詞や複合語など、この辞書に収録されていない単語を知っていても推定される語彙数には含まれません。 テストの詳細については、こちらの解説をご覧ください。 NTTデータベースシリーズ「日語の語彙特性」の詳細は、こちらの解説をご覧ください。 テスト開始/ テスト2/ テスト3 NTTデータベースシリーズ「日語の語彙特性」は、 三省堂より刊行。 出版に関する資料請求

    nhayato
    nhayato 2013/11/05
  • Sorami Hisamoto - NAIST Computational Linguistics

    Hi! I am Sorami Hisamoto, a gradute student at Nara Institute of Science and Technology (a.k.a. NAIST), Japan, and a member of Matsumoto Computational Linguistics Laboratory. I am working on the application of deep neural networks to natural language processing, with assistant professor Kevin Duh. From July to October 2013, I am at Rakuten Institute of Technology in New York, U.S.A. sorami-h at

    nhayato
    nhayato 2013/11/02
  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

    nhayato
    nhayato 2013/10/26
  • Algorithms for Computational Linguistics (ACL) Group

    Welcome to the Algorithms for Computational Linguistics (ACL) Group! We are based in Queens College and the Graduate Center, the City University of New York (CUNY). People Faculty: Prof. Liang Huang. PhD Students: Kai Zhao (B.S., USTC, 2010). Since Fall 2012. Visiting Students: Heng Yu, Ph.D. candidate, Chinese Academy of Sciences (CAS/ICT). Summer 2013 -- . Zhuoran Yu, M.S. candidate, NYU Poly. S

    nhayato
    nhayato 2013/10/25
  • IWPT 2013 - Home

    The picture is adapted from TANAKA Juuyoh's photo of the Great Buddha in Tōdai-ji(temple), Nara, under Creative Commons Attribution License. © IWPT 2013 | 13th International Conference on Parsing Technologies

    nhayato
    nhayato 2013/10/25
  • スマートニュースの技術顧問に東北大学・岡崎直観准教授が就任 〜より高品質・高信頼性のニュース提供に向け、開発体制を強化 | スマートニュース株式会社

    スマートニュース株式会社(社: 東京都渋谷区、代表取締役: 浜 階生)は、このたび、東北大学大学院情報科学研究科の岡崎直観(おかざき・なおあき)准教授が当社の技術顧問に就任したことをお知らせします。 岡崎氏は自然言語処理・テキストマイニング・機械学習人工知能領域を専門とし、自然言語処理技術を用いたTwitter解析では国内における第一人者として、東日大震災時に拡散した情報の分析やソーシャル・リスニングなど、さまざまな取り組みを行っています。今回、岡崎氏を当社技術顧問として招聘することで、当社がスマートフォン・タブレット向けに提供しているニュース閲覧アプリ「SmartNews(スマートニュース)」のさらなる品質向上を実現していきます。 「SmartNews」はTwitterの投稿を解析することにより、“いま、注目のニュース”をリアルタイムに抽出・配信する技術と、独自開発のUIを通じて

    nhayato
    nhayato 2013/10/25
  • 奈良先端科学技術大学院大学(NAIST) 知能コミュニケーション研究室 – Augmented Human Communication Laboratory

    SAIL 2024(中村教授 退職記念シンポジウム) 2024/03/19 に京都で中村教授の退職記念シンポジウム Symposium of Augmented Intelligence and Language (SAIL 2024) を開催いたします。 詳細情報と参加登録方法は以下のWebページでご案内しております。参加登録は 2024/03/08 までです。 https://sites.google.com/ahclab.naist.jp/sail2024/ 中村教授からのメッセージ 中村教授からのメッセージ 研究室では,トップレベルの国際会議,トップレベルの国際論文誌に採択されるレベルの研究を進めており,また,その技術の実用化にも挑戦しています. 当研究室は2024年3月で教授が退官するため,受験生の面談対応をしていません. 当研究室の特任准教授であったSakriani Sakt

  • IJCNLP2013聴講

    月曜日から、IJCNLP2013を聴講に来ています。昨夜から今朝に掛けては、大型の台風26号が来ましたが、名古屋は夜半から朝方に掛けて通過したため、会議自体にはあまり影響はなかったようで、良かったです。 月曜日は Humanoid Robot との Open-domain 対話に関するチュートリアルを聞きました。Wikipediaのリンクを利用して、話題をスムーズに切り替えて行くという会話制御の方法、音声と共に、身体的なボディーランゲージと同期させるという内容でした。Open-dmain talk と open-domain listening とは違う、ということで、今回は前者であり、後者ははやり難しいと言われていました。 ちなみに、このチュートリアルで紹介されていたPythonによる Robotics と音声認識・合成のライブラリ Python Robotics Pyspeech 今回

    IJCNLP2013聴講
    nhayato
    nhayato 2013/10/23
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    nhayato
    nhayato 2013/10/19
  • NLP and Global Warming

    At the EMNLP-CoNLL 2007 conference in Prague, the best paper award went to "Modelling Compression with Discourse Constraints," by James Clarke and Mirella Lapata of the University of Edinburgh. James got to give his talk to the full conference and was allowed 10 minutes of questions instead of the usual 5. The very end of the question period was hijacked by performance art: Hal Daumé III, session

    nhayato
    nhayato 2013/10/19
  • mpaligner

    mpaligner とは ある文字列とある文字列を最小単位でアライメントするオープンソースの プログラムです. 例えば,表記と読みのアライメントや遺伝子のアライメントが挙げられます. 図1のように表記と読みを最小単位でアライメントすることで, 単漢字辞書といった小さい単位の辞書を容易を構築できます. これは,未知語に対する読み付与などに使用されます. ライセンスは GNU GPL です.使用方法は圧縮ファイル内のREADMEを参照してください. mpaligner_0.9.tar.gz : ダウンロード 更新履歴 2011/01/17: version 0.9 を公開 連絡先 奈良先端科学技術大学院大学 情報科学研究科 情報処理学専攻 音情報処理学講座 博士前期課程 2年 久保 慶伍 (Keigo Kubo) E-mail : keigo-k[@]is.naist.jp  ← [@

    nhayato
    nhayato 2013/10/18
  • Comainu | 中・長単位解析ツール

    平文または短単位列を入力すると、長単位を付与した短単位列を出力することができる。 中単位境界解析 平文または短単位列もしくは長単位情報を付与された短単位列を入力すると、中・長単位を付与した短単位列を出力することができる。 文節境界解析 平文または短単位列を入力すると、文節境界を付与した短単位列を出力することができる。 性能 長単位解析の性能は、BCCWJのコアデータを利用した実験において、長単位境界で99.2%、長単位品詞で98.8%の推定性能を示しています。実験は短単位は適切な情報が付与されているという前提の下で実験されています。 中単位解析の性能は、BCCWJのコアデータの一部を利用した実験において、適切な長単位が付与されている前提の下で、99.2%の推定精度が得られています。 詳しくは関連文献などをご覧ください。

    nhayato
    nhayato 2013/10/15
  • NINJAL-LWP for BCCWJ (NLB)

    ■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日語学習者用基動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプ

    nhayato
    nhayato 2013/10/15
  • GitHub - MojoJolo/textteaser: TextTeaser is an automatic summarization algorithm.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - MojoJolo/textteaser: TextTeaser is an automatic summarization algorithm.
  • ScalaNLP

    ScalaNLP Scientific Computing, Machine Learning, and Natural Language Processing ScalaNLP is a suite of machine learning and numerical computing libraries. ScalaNLP is the umbrella project for several libraries, including Breeze and Epic. Breeze is a set of libraries for machine learning and numerical computing. Epic is a high-performance statistical parser and structured prediction library.

  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Google Sites: Sign-in
    nhayato
    nhayato 2013/10/14
  • ngram-format

    NAME ngram-format - File format for ARPA backoff N-gram models SYNOPSIS \data\ ngram 1=n1 ngram 2=n2 ... ngram N=nN \1-grams: p w [bow] ... \2-grams: p w1 w2 [bow] ... \N-grams: p w1 ... wN ... \end\ DESCRIPTION The so-called ARPA (or Doug Paul) format for N-gram backoff models starts with a header, introduced by the keyword \data\, listing the number of N-grams of each length. Following that, N-g

    nhayato
    nhayato 2013/10/10
  • cd-l.dvi

    i 1 1 2 3 2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.1 . . . . . . . . . . . . . . . . . . . . . 3 2.2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 . . . . . . . . . . . . . . . . . .

    nhayato
    nhayato 2013/10/10
  • RNNLM

    うちの会社には新技術研究会という研究員がお互いに新しい技術を調査して発表しあう会議があるのですが,そこで最近話題のword2vecについて調べたことを報告しました. デモは見せられないのですが,google code の word2vec のページから落とせる text8 というデータを使った”man king -> woman queen”の例と,毎日新聞コーパス2000年版をMeCabで形態素解析した上で,word2vecで学習したデータを使った,”会社 仕事 -> 学校 勉強”という関係をデモしてます。 文章だけからここまで学習できるのかと正直驚きました.

    RNNLM
    nhayato
    nhayato 2013/10/10
  • 本文

    1.コンピュータに言葉を教える タイトルを読まれて???と思われた方がほとんどだと思います。その上いきなりみなさんに問題です。次の「?」の部分にはどんな言葉が入るでしょうか。 1.とても 「?」 2.「?」 問題 いかがでしょうか。いくつかの言葉を思い浮かんだと思います。では続いて、 3.とても 「?」 問題 1.の答えとしては「美しい」、「大きい」、「難しい」など、2.の答えとしては「環境」、「この」、「難しい」などがあてはまります。3.の答えは簡単ですね。1.と2.の両方にあてはまるものということになります。 この問題は音声認識で必要な言葉と言葉のつながりを表す情報の使い方を表しています。人間は音声を聞き取るとき、もしうまく聞き取れない部分があったとしても、前後の言葉から推測してうまく補います。上の3.の例でいえば、「?」の部分がうまく聞き取れなかったとしても「難しい」(あるいは「やさ

    nhayato
    nhayato 2013/10/08