タグ

関連タグで絞り込む (266)

タグの絞り込みを解除

NLPとnlpに関するrokujyouhitomaのブックマーク (481)

  • NICT NEWS

    1. はじめに 第16代アメリカ合衆国大統領リンカーンの言葉で「特許制度は、天才の火に利益という油を注いだ」が残っています。 発明は、特許制度がなければ、他人に簡単に盗まれてしまいます。特許制度は、こういったことが起こらないよう、発明者には一定期間、独占的な権利を与えて保護を図るものです。製品を作り販売するためには、他人の特許を侵害しないように、予め調査をしておく必要があります。これを怠って、侵害してしまうと、裁判になり、膨大な補償金を払うことになります。 特許制度は国ごとに定められており、日では日語、韓国では韓国語、中国では中国語で各国政府に申請することになっています。一方、経済はグローバル化していますから、例えば、日の企業が中国に製品を輸出するためには、中国の特許の調査が必要になります。中国は今や世界第2位の経済大国ですので、日企業も中国市場への進出が今後の発展の要になります。

  • NICT NEWS

    はじめに インターネットでの言語使用の状況は、上位10位までの言語で、84%のシェアになります。日語は第4位で7%に過ぎません。日語以外の9言語から日語への自動翻訳システムが作れれば、インターネット上の情報の84%が読めるようになり、日人の情報の受信能力を10倍以上高められます。発信も同様です。10言語の間の自動翻訳システムはどうしたら実現できるでしょうか。各言語は、文字、単語、文法など様々な面で他の言語と異なりますので、個別言語の特性に依存せず実現できる自動翻訳技術が必要になります。 統計翻訳技術による多言語翻訳 ハードウエアの処理速度や記憶容量が格段に進歩したこと、文章や辞書が大量に計算機上に集積されるようになったこと、などを受けて、自動翻訳の研究において、対訳コーパス(同じ意味の原文と訳文の文レベルの対を集めたもの)から、翻訳に必要な知識を自動的に構築する技術が興り、現在、主

  • お知らせ&イベント | 音声認識・翻訳アプリ用のSDKを公開しました | NICT-情報通信研究機構

    NICTでは、多言語コミュニケーション技術の研究開発を行っており、その一環として、スマートフォンで使用できる旅行会話用の音声翻訳アプリ等の提供を行っています。このたび、これらのアプリで使用されている音声認識・翻訳サーバーを利用するためのソフトウェア開発キット(MCML音声コミュニケーションSDK)を一般公開しました。これを利用することで、音声認識・自動翻訳機能を持つアプリを独自に開発することができます。 2011年9月に公開いたしましたSTMLを使用したバージョンの運用が今年3月に終了したため、その後継としてITU-T H.625のMCMLを使用して再開するものです。 SDKの利用は、非商用目的限定で、SDKの利用登録者ごとに、1日あたり1,000発話程度の上限が設けられていますが、別途有償契約を結ぶことで、商用利用や利用上限の解除も可能です。 現在、マニュアル等は日語のみしか準備されて

  • 機械翻訳 - Wikipedia

    機械翻訳(きかいほんやく、英: machine translation)とは、ある自然言語を別の自然言語に翻訳する変換を、コンピュータを利用して自動的に行おうとするものである。 1629年に、ルネ・デカルトは、単一の記号をもって異なった言葉での同一の概念を割り当てる普遍言語を提案した[2]。 機械翻訳という発想は20世紀半ばには生まれていた。機械翻訳という発想が生まれた起原のひとつは、暗号学である。ウォーレン・ウィーバー(シャノンによる論文『通信の数学的理論』の書籍版の共著者)が1947年3月にノーバート・ウィーナーに送った手紙によると、ロシア語で書かれた文章について、それを「暗号化された英語の文章」とみなせば暗号解読の要領で機械的に翻訳できるのではないか、と提案している。しかし同年4月のウィーナーの返信によれば、自然言語は曖昧な表現が多いために、暗号解読のようにはうまくできないのでは、と

    機械翻訳 - Wikipedia
  • 『シムシティ』のゲームクリエイター ウィル・ライトが物語作成アプリを開発 “物語”をめぐる技術 - おたぽる

    あの『シムシティ』シリーズを開発したゲームクリエイター、ウィル・ライト氏が手がけた最新作はスマホアプリで、しかもゲームではないというから意外だ。そのアプリは、写真などの画像から自分だけの物語をすぐさま作成できるツールだという。 ■体験や考えを“絵”にして共有できるアプリ 2013年にライト夫が創設したITデベロッパー「Syntertainment」社が5月7日にリリースしたiOSアプリ。それが、物語作成ツール「THRED(スレッド)」だ。 この「THRED」を使えば、日々の生活の中で撮影した写真やネット上に存在する画像などに、テキストやステッカー(シール)を加えたり、リンクを張ったりするなどのちょっとした工夫が簡単にできて、絵のようにページをめくって楽しめる“自分だけの物語”を作成できるということだ。いったん作り上げたコンテンツはTwitterやFacebookなどのSNSで公開する

    『シムシティ』のゲームクリエイター ウィル・ライトが物語作成アプリを開発 “物語”をめぐる技術 - おたぽる
  • Ryuichiro Higashinaka's Webpage

    東中竜一郎 (ひがしなかりゅういちろう) 日電信電話株式会社 コミュニケーション科学基礎研究所 協創情報研究部 言語知能研究グループ NTTサイバースペース研究所 (2009.12.1-) 研究主任(2001年入社) 博士(学術) 文献リストに研究紹介動画があります. 1976年,大阪府生まれ.1999年に慶應義塾大学環境情報学部卒業,2001年に同大学大学院政策・メディア研究科修士課程,2008年に博士課程修了.博士(学術).日電信電話株式会社,NTTサイバースペース研究所にて勤務.音声言語メディア処理プロジェクトにて,質問応答システム・音声対話システムの研究に従事.情報処理学会,言語処理学会,各会員.2004年11月より2006年3月までシェフィールド大学客員研究員.2006年から2008年まで大阪電気通信大学非常勤講師.2010年より,慶應義塾大学非常勤講師(Webテキスト処理法

  • Kentaro Inui (Tohoku University) / 乾健太郎(東北大学)

    乾 健太郎(Kentaro Inui)† 東北大学 大学院情報科学研究科 システム情報科学専攻 教授 工学部電気情報物理工学科 兼担 タフ・サイバーフィジカルAI研究センター 副センター長・AI研究部門長 理化学研究所 革新知能統合研究センター 自然言語理解チームリーダー 兼任 国立情報学研究所 客員教授 兼任 乾・鈴木研究室(知能情報科学講座 自然言語処理学分野) 〒980-8579 仙台市青葉区荒巻字青葉6-6-05 青葉山キャンパス 電子情報システム・応物系1号館 6階660号室 電話: 022-795-7091 ファックス: 022-795-4285 メール: kentaro.inui.e2 (at) tohoku.ac.jp twitter: @inuikentaro 研究† 研究分野(研究室の研究内容のページ) 自然言語処理 (natural language processi

  • CodeIQについてのお知らせ

    2018年4月25日をもちまして、 『CodeIQ』のプログラミング腕試しサービス、年収確約スカウトサービスは、 ITエンジニアのための年収確約スカウトサービス『moffers by CodeIQ』https://moffers.jp/ へ一化いたしました。 これまで多くのITエンジニアの方に『CodeIQ』をご利用いただきまして、 改めて心より深く御礼申し上げます。 また、エンジニアのためのWebマガジン「CodeIQ MAGAZINE」は、 リクナビNEXTジャーナル( https://next.rikunabi.com/journal/ )に一部の記事の移行を予定しております。 今後は『moffers by CodeIQ』にて、 ITエンジニアの皆様のより良い転職をサポートするために、より一層努めてまいりますので、 引き続きご愛顧のほど何卒よろしくお願い申し上げます。 また、Cod

    CodeIQについてのお知らせ
  • HOME|NTCIR

    NTCIR Home NTCIR 18 NTCIR-18 カンファレンス -参加登録 -EVIA2025 -論文投稿案内 -ポスター&デモ案内 -口頭発表案内 -プログラム -プログラム at a glance -ポスターリスト -チュートリアル・基調講演・パネル・招待講演 -カンファレンス論文集 -プレゼンテーション賞 -スポンサー募集 -協賛・スポンサー -会場&旅行案内 -ホテル情報 -VISA -トラベルサポート NTCIR-18の目的 キックオフイベント タスク参加の手引き Task Participation タスクの概要・参加者募集 -参加者用覚書 運営組織 -タスクオーガナイザー -プログラム委員会 重要な日程 お問い合わせ タスク提案募集 NTCIR 17 NTCIR-17 カンファレンス -参加登録 -EVIA2023 -論文投稿案内 -ポスター&デモ案内 -口頭発表案

  • メンバー | 広島市立大学 言語音声メディア工学研究グループ

    広島市立大学 言語音声メディア工学研究グループのWEBサイトです。知識基盤社会におけるさまざまな形態のコミュニケーションに対応する知識情報処理において極めて重要な役割を担う言語と音声に関する情報処理技術の基礎から応用までの幅広い教育・研究活動を行います。

  • https://cl.sd.tmu.ac.jp/~komachi/papers/jsai2010-bootstrap.pdf

  • Tokyo nlp #8 label propagation

    4. ラベル伝搬法とは? パターン インスタンス 素性(特徴) 例:単語, 文, 文書など シードから 負 ラベルを l グラフ上に 正 シード 伝搬させて M ? uの部分の ラベルを u … 推定する ? 方法の総称 枝の太さ=重み は色々 4 5. なぜ言語処理でグラフ? →分布仮説 Wikipediaによると: “words that occur in the same contexts tend to have similar meanings.” [Harris, 1954] Context: • Social context – 例:誰の発言か? • Verbal context – 例: words that occur in the same • 下線部がoccurに対するcontext 5 6. グラフ→行列 Y M 負 l i xi T l X 正 u M ? j u

    Tokyo nlp #8 label propagation
  • きまぐれ日記: 情報抽出アルゴリズム Espresso の謎

    Espresso という情報抽出アルゴリズムを使った研究が散見されるようになったので、 ちょっと深追いしてみました。基的に Bootstrapping をベースにしているようです。 Bootstrapping のアイデアはわかりやすいのですが、実際動かすには設定すべき パラメータがいくつもあります(各Iteration でどういう基準で何個パターンを 見つけたらいいのかなど)。 Espresso は、この設定すべきパラーメータが アルゴリズムとして明示的に記述されており、わりと再現・実装がしやすい アルゴリズムだと感じました。 しかし、式を追ってみると、最終的な結果は Seed に依存しないのではないか という疑惑が出てきました。 オリジナルの論文の式をみていきましょう。 http://www.patrickpantel.com/Download/Papers/2006/acl06-01

  • ゼロ照応解析について - あしたからがんばる ―椀屋本舗

    昨日先輩の公聴会に行って、ゼロ照応解析の話を聞いたのでいくつか思ったことを。 まずゼロ照応解析とは、述語項構造における省略された必須の格を復元したもの。例えば、 彼はクラシックが好きです。 昨日も聞きました。 の例だと、後者の”聞きました”のガ格(主格のようなもの)は一文前の”彼”になる。この場合、後者の”聞きました”のガ格にゼロ代名詞(つまり必須格の省略)があると見なし、そのゼロ代名詞が一文前の”彼”を照応しているという解釈をする。つまり、 彼は クラシックが 好きです(ガ格:クラシック)。 昨日も 聞きました(ガ格:φ1, ヲ格:φ2, 時間:昨日)。 φ1=彼, φ2=クラシック というような解釈になる。昨日の話はこのゼロ照応に、外界照応(文書内に照応先がなく、外界の何かを照応しているような場合)で著者、読者を指す場合を導入するという話だった。詳しく知りたい場合は以下を参照されると良

    ゼロ照応解析について - あしたからがんばる ―椀屋本舗
  • https://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P1-11.pdf

  • きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章

    Espresso を飲みながらさらに Espresso を考えていました。 r_instance = A^n * r_instance_0 となるのは間違いないと思います。A は P * P^{T}、さらに P = 1/|I||P| * pmi(i, p)/ maxpmi です。 A は、インスタンスどうしの類似度を表現した正方対称行列です。A_{i,j} はインスタンス i, j の類似度です。 類似度は、パターン個数次元からなるベクトルの内積で、各次元は pmi となります。 この形だと、r_instanc は r_instance_0 できまるので、初期値に依存してるように思えますが、A^n がいったい どういう意味を持つのかずっと考えていました。 A_{i,j} が 0, 1 の場合、A は無向グラフの接続行列となります。i,j がつながっている場合は A_{i,j} = 1となり

  • NLP勉強会 #2 参加メモ - katz's adversaria

    NLP勉強会 #2に参加してきた。 NLP読み進めシリーズ 「入門 自然言語処理」第1回 (@nezuq) 資料 「入門 自然言語処理」 △ NLPの入門書 ◯ NLTKの入門書 1章 言語処理とPython NLTKとは? Python用のNLPツールキット 大量の英語コーパスが付属 日語を使うための設定 # MeCabとそのPythonバインディングをインストールする。 $ sudo apt-get install libmecab-dev $ sudo apt-get install mecab mecab-ipadic-utf8 $ pip install mecab-python3 # Plotのフォントで日フォントを指定する import matplotlib import matplotlib.font_manager NLP関数 #NLTKパッケージ(ex.コーパス

    NLP勉強会 #2 参加メモ - katz's adversaria
  • 談話分析 - Wikipedia

    談話分析(だんわぶんせき、英語:discourse analysis)または談話研究(だんわけんきゅう、英語:discourse studies)は、記述による言語使用、発話による言語使用、身振り手振りによる言語使用を分析するための様々な方法論である。 概要[編集] 談話分析の対象となるのは、言説、記述、談話、会話、伝達行為などで、文、主題、発話行為、会話のやり取りにおける首尾一貫した連続性によって様々に定義される。伝統的な言語学とは対照的に、談話分析は「文境界を越えた」言語使用の分析だけではなく、「自然に生じる」言語使用、操作されていない状況下における事例の分析を行う。談話分析は、それぞれ仮説や方法論を確立している言語学、人類学、社会学、認知心理学、社会心理学、国際関係論、コミュニケーション研究などの様々な社会科学の研究領域と関連して応用されている。 談話分析で主に扱われる言説は比喩、表

    談話分析 - Wikipedia
  • TF-IDFで文書内の単語の重み付け

    『いくつかの文書があったとき、それぞれの文書を特徴付ける単語はどれだろう?』こんなときに使われるのがTF-IDFという値。 TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表します。たくさん出てくる単語ほど重要! $\textrm{tf}(t,d)$ 文書 $d$ 内のある単語 $t$ のTF値 $n_{t,d}$ ある単語 $t$ の文書 $d$ 内での出現回数 $\sum_{s \in d} n_{s,d}$ 文書$d$内のすべての単語の出現回数の和 IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表します。いくつもの文書で横断的に使われている単語はそんなに重要じゃない! $\textrm{idf}(t)$ ある単語 $t$ のIDF値 $N$ 全文書数 $\textrm{df}(t)$

    TF-IDFで文書内の単語の重み付け
  • Python NLP - NLTK and scikit-learn

    This post is meant as a summary of many of the concepts that I learned in Marti Hearst's Natural Language Processing class at the UC Berkeley School of Information. I wanted to record the concepts and approaches that I had learned with quick overviews of the code you need to get it working. I figured that it could help some other people get a handle on the goals and code to get things done. I woul