サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
nlp.nagaokaut.ac.jp
形態素解析 日本語 Juman 京都大学黒橋研究室で開発された。 辞書を自由に定義でき、代表表記によって表記のゆれを吸収できる。 [1] ChaSen 茶筅ではなく茶筌。 奈良先端科学技術大学院大学 松本研究室で開発された。 [2] MeCab 和布蕪。工藤拓 氏によって開発された。 高速高精度。 [3] KAKASI "kanji kana simple inverter" [[4]] Igo JAVA で実装された形態素解析器 [[5]] その他 Rosette 日本語形態素解析システム [6] マリモ [7] 言語郎 [8] 英語 Brill Tagger 文の単語に品詞(Part of Speech)情報を与えるシステム。 精度が高い。 Brill Tagger TreeTagger 英語、フランス語、イタリア語、ドイツ語、スペイン語などの12の言語を解析する
サポートベクトルマシン, サポートベクターマシン Support Vector Machine 機械学習の2値分類器。大量の正例と負例のサンプルを座標に取り、正例の集合と負例の集合からの距離がもっとも大きくなるような平面(超平面)を決定する。局所解に陥らないという利点を持つ。 長所 お気軽:世界中の多くの諸先輩方の苦労により、ツールが充実している お手軽:とりあえずデータをつっこむとそこそこの精度が出る 短所 結果の解釈ができない;なぜ良かったか、あるいはなぜ悪かったのかが分からない。想像するしかない。 今の精度を改善しようにも、何をどういじっていいかさっぱり分からない。 要するに高精度のブラックボックスということです。研究としてさらに高精度を目指す時には結構つらいので、少なくとも言語処理においては、SVMは今後とも広く利用される反面、提案手法の中心で使うことはないでしょう。きらりと光
えぬぐらむ n-gram n-gram は連続するn個の要素のことを指す。何の要素かによって「文字n-gram」「単語n-gram」などと呼ぶ。よって n-gram という呼び方で何かの数字を表すものではないので、「この場合の n-gram はいくつ?」みたいな質問はナンセンスである。また、重さを表す単位とは何の関係もない。 n-gram の種類 前述したように n-gram とは単なる「要素連続」しか意味しないので、「何の要素を」「どれくらい」対象にするかによって振る舞いは大きく異なる。よって、n-gram がいいか悪いかと言った抽象的な議論は多くの場合意味がない。 要素とするもの 文字、単語が多く、おそらく単語を使うことが最も多い。この他に、途中の付属語(機能語)を無視して自立語(内容語)だけのn-gram、その逆に機能語のn-gramを考えることもある。さらに、問題によっては品詞
Download SRILM 名前や所属などを記入しなくてはならないが、無料でダウンロードできます。 Install makeの前に変更しなくてはいけないところがあります Makefile SRILMをおいた場所をかく SRILM := /home/makino/usr/local/src/srilm $SRILM/common/Makefile.machine.i686(マシンによってMakefileが違います) g++ , gcc の場所(おそらく/usr/bin/gcc。一応which gccで確認をしてください)、オプションを以下に変更。 GCC_FLAGS = -O2 -Wreturn-type -Wimplicit CC = /usr/bin/gcc $(GCC_FLAGS) CXX = /usr/bin/g++ $(GCC_FLAGS) -DINSTANTIATE_TEMPL
書籍関係 オントロジー工学 (知の科学) オントロジー構築入門(書籍) HP オントロジ表示ツールprotegeの日本語説明 [1] 関根の拡張固有名詞階層[2] 第20回セマンティックウェブとオントロジー研究会[3] 研究総括 Wikipediaマイニング:Wikipedia研究のサーベイ 中山浩太郎, 伊藤雅弘, Erdmann Maike, 白川真澄, 道下智之, 原隆浩, 西尾章治郎 2009.12.24 人工知能研究の新しいフロンティア:Wikipdcia 中山浩太郎,原隆浩,西尾章治郎 2007.9 Extracting world and linguistic knowledge from Wikipedia NAACL-2009のチュートリアル。オントロジー研究でよく出てくるPonzettoさんが、Wikipediaに関する自分の研究や、Wikipediaを使った有名
ようこそ! 長岡技術科学大学 電気系 自然言語処理研究室へようこそ。本研究室では、自然言語処理とテキストマイニングに関する様々な研究を行っています。 最近の研究室 さらに新人が2人配属 (4/5) 先月に引き続き、今月も新人が2名配属されました。豊橋技術科学大学の学部を卒業した三ノ宮 和俊君、堀江 将隆君の2名が本学修士課程に入学し、本研究室に配属となりました。これで修士課程が9名、全学生数で16名となり、本研究室で過去最大規模となりました。彼らの今後の活躍に期待したいと思います。 2名が卒業・修了 (3/25) 本日学部卒業式・大学院修了式があり、本研究室からは竹元 勇太君が修了、朝倉 剛史君が卒業してそれぞれ社会に旅立っていきました。今後の彼らの活躍を見守っていきたいと思います。 新人が移籍 (3/15) 研究室に急遽新人が配属されました。学部3年生(来月から4年生)の杢 真
他大学研究室調べ01 他大学研究室調べ02 自然言語処理の研究をしている他大学の主な研究室を調べてまとめてみました。(2008年3月〜作成) 各研究室について (研究):主に行っている研究分野や、具体的な研究テーマ等。 (公開ツール):公開されているツールやサービス、コーパス等。 をまとめています。 基本的に各研究室のページから引用です。 何か問題等あればこちらまで。 各研究室名をクリックすると、その研究室のページへ飛べます。 研究サーベーなどに、役立ててください。 参考:自然言語処理ブックマーク ここのぐらいは全部載せたい。 こういうのもあるようです。 [編集] 奈良先端大 松本研究室 (研究) 自然言語の解析技術とその支援環境の構築および解析済みデータの蓄積 統計的機械学習に基づく自然言語処理* 述語項構造解析・照応解析・名詞間意味関係解析 テキストからの意見情報抽出の研究
しぜんげんごしょり natural language processing 自然言語処理とは、人間の言葉(自然言語)を計算機で処理する技術分野、研究分野である。 テキストマイニングも、自然言語処理と関連の深い隣接分野である。 このページでは、自然言語処理という研究分野、技術分野を広く知っていただくための情報を紹介します。本研究室での研究内容については研究内容のページをご覧ください。 本研究室では、自然言語処理に関する様々な情報を自主的、継続的に収集、整理し、そのほとんどを公開しています。
[編集] tanimoto係数について 二つの集合の類似度を計る係数 化学系でよく使われている 実数tanimoto係数と、バイナリtanimoto係数がある 実数版は、A{a=3,b=2,c=2}とB{a=2,b=1,d=1}のような二つを比べる場合 バイナリ版は、A{a,b,c}とB{a,b,d}のような二つを比べる場合 [編集] 実数版 A,B はそれぞれのベクトル k は両者の要素番号を差す [編集] バイナリ版 A,B はそれぞれのベクトル [編集] 参考文献 化学物質の構造類似性にもとづくデータマイニング Journal of Computer Chemistry, Japan Vol. 2 (2003) , No. 4 p.119-126
たいにーえすぶいえむ TinySVM 奈良先端大の松本研究室が公開しているSVM学習ツール。様々なカーネルが用意されている。また自作カーネルを使うことも可能である。 とりあえずSVMにつっこんでみようという時に良く使う。 http://chasen.org/~taku/software/TinySVM/ [編集] 使い方 Tiny SVMの簡単な使い方。 ■素性の書き方 1 1:5 2:4 3:2 (正例) -1 4:1 5:3 6:3 (負例) まず、一番左の数字が"1"の場合、正例の素性である。これが"-1"の場合は負例の素性である。 ":"(コロン)の左側の数字が『素性番号』、右側の数字が『素性の重み』である。 素性番号には、単語や品詞を対応させ、重みには出現回数や確率を対応させる。 ■学習データを作成 まずは、学習データとして、テキストファイルを作成する。 例えば、以下
じどうようやく automatic summarization テキストの要約を自動で行う技術。現在の技術の多くは重要文抽出によって実現しているが、文を短くする技術(文圧縮または一文要約)の研究も行われている。さらに、複数テキストから要約する技術の研究も行われている。 [編集] 市販ソフト ズバリ要約(ソースネクスト) 日本初で日本語唯一の自動要約ソフトパッケージ。1980円 「10,000字を5秒で要約できますか?」「1クリックで簡単要約」がキャッチコピー Sematics社が要約を目的に開発した日本語解析エンジンを使用 要約文字数を指定することが可能 処理速度は5,000字で約3秒、1万字で約5秒、2万字で約26秒が目安(上記Webページより) [編集] 自動要約のフリーソフト Lingua-JA-Summarize-0.06 the readme says that it is
ばぐおぶわーづ bag-of-words 単語がつまったかばん、つまり、文章を単語の集合とする表現のこと。よって「単語集合」と言い換えても同じ意味であり、あるいは 単語1-gram(uni-gram) と言っても同じである。つまり、英語論文中で使うのはともなく、日本語でわざわざ bag-of-words と書くのは、かっこよく見せたいからか、原稿を分かりにくくしたい時である。 bag-of-words を略して BOW と書くことも時々ある。 語順を完全に無視しても大丈夫な問題(テキスト分類など)ではこのような単位が使われる。語順、つまり語(形態素)の連接を考慮すると n-gram などのモデルとなり、さらに係り受けまで考慮すると構文解析が必要となる。
ようこそ このページは全国の方言情報を紹介するページです。全国の方言ページを紹介するだけでなく、Wikiの特性を活かして方言そのものを整理していけたらと思っています。 サーバー停止のお知らせ 2008年夏の定期点検作業を目的とした全学停電により、8月8日(金)午後8時~8月10日(日)午後3時にふるさとの方言は全サービスを停止します。ご了承ください。 Wikiスパムとの闘い 最近の更新に見られますように、なぜか Category‐ノート:近畿地方の方言ページがWikiスパムに狙われてしまいました。 当初はこのページを書き込み禁止しようかと思いましたが、どうせ他のページを狙われる だけなので、この際ページは少しほっておいて書き込んだIPアドレスを徹底的に永久ブロック することにしました。彼らがどれだけ違うIPを持っているのか知りませんが、 しばらくはがまんくらべです。面倒ですががんばり
自然言語処理関連で見つけた出来事を追加していきます。なお、リンクは時間経過と共に切れるかもしれませんが、チェックはしていません。ご了承ください。 [編集] 2008年11月 言語工学研究所、Blog や口コミサイトの評判を解析する「うわさ」ソフトを販売 1ライセンス42万円。 [編集] 2008年10月 米Microsoft、自社開発の機械翻訳サービスを公開 ずっと前から翻訳エンジンを持っていたのにやっと自社技術を公開したのね、という感じがします。性能はどうでしょうか。 [編集] 2008年9月 コンピューターの言語認識向上、セマンティック技術で検索性アップ 時代が意味処理に回帰してきたということでしょうか。 「検索技術で解決したのは易しい90%の問題、残りはタフ」GoogleバイスプレジデントのMarissa Mayer氏がコメント 「Mayer氏は今後解決しなければならない種々の
ドイツ語や英語、フランス語、、、等、現在のところ12の言語で形態素解析ができる形態素解析器 ドイツのstuttgart(シュトゥットガルト)大学が管理。 linux、windows、mac、solaris等のOSで利用可能 活用されている単語は原形も出力してくれる。 基本的な単語の解析なら、配布されているパラメータファイル(学習の結果得られるデータ)で十分に対応できる。 [編集] 入手とインストール 1.ダウンロード http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ 上記ページからダウンロード可能 Linuxなら english-chunker-par-linux-3.1.bin.gz english-par-linux-3.1.bin.gz tree-tagger-linux-3.2.tar.gz tagger-
[編集] option 変換文字機能 %m 見出し(出現形) %M 見出し(基本形) %y, %y1 読みの第一候補(出現形) %Y, %Y1 読みの第一候補(基本形) %y0 読み全体(出現形) %Y0 読み全体(基本形) %a 発音の第一候補(出現形) %A 発音の第一候補(基本形) %a0 発音全体(出現形) %A0 発音全体(基本形) %rABC ルビつきの見出し(“A 漢字B かなC” と表示)(※ 1) %i, %i1 付加情報の第一候補 %i0 付加情報全体 %Ic 付加情報(空文字列か“NIL” なら文字c)(※ 1) %Pc 各階層の品詞を文字c で区切った文字列 %Pnc 1〜n(n:1〜9) 階層目までの品詞を文字c で区切った文字列 %h 品詞の番号 %H 品詞文字列 %Hn n(n:1〜9) 階層目の品詞(なければ最も深い階層)
ティーエフアイディーエフ TF・IDF 索引語の重み付け方法のひとつ。 TF(Term Frequency)は文書dに置ける検索語tの頻度 IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数 文書数Nと索引語tが一回以上出現する文書の数df(t)よって次式のように定義される。 IDF(t) = log10 (N / DF(t)) この両者の積を取ることで、索引語の重み付けを行う。 ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きくなる。 また、多くの文書に索引語が出現すれば、値は小さくなる。 [編集] TF・IDF による重要度 文書を特徴付けるキーワードになるようなタームの性質として、その文書に数多く、つまり高い頻度で現れる(TF)、少ない数の文書にしか現れない(IDF)、というふたつを考える。これはシンプルだが、
自然言語処理の歴史をまとめてみました。本当はもっと徹底的に調べたいのですが、時間がありません。でも、これから徐々にでも拡充していきます。何か追加や誤りがあったらみなさま是非教えてください。 1930年代 1933年 ロシア人 Smirnov-Troyanskii が「一つの言語から他の一つまたは同時に多数の言語への翻訳に際し、単語を選別しかつ印刷する機械」の特許を取る。6ヵ国の単語が並列的にコード穿孔された太いベルトを辞書として言語を翻訳する。 フランス人 Georges Artsrouni が「機械頭脳」の特許を取得。蓄積した情報の暗号化、複合化機能(=翻訳)機能を持つとされる。今で言う、電子辞書のようなものと考えられる。 1937年「機械頭脳」がパリ万博に出展される。多くの関心を呼び、情報処理部門のグランプリを獲得する。 1940年代 1940年代後半Rockfeller 財団副総
ようこそ! 長岡技術科学大学 電気系 自然言語処理研究室へようこそ。本研究室では、自然言語処理とテキストマイニングに関する様々な研究を行っています。 最近の研究室 国際会議に2件採録されました(9/4) 今年11月にフィリピンのセブ島で開催される自然言語処理に関する国際会議 PACLIC 22に本研究室から2件の論文が採録されましたので ご報告します。 Extracting Troubles from Daily Reports based on Syntactic Pieces [ 国際会議#08PACLIC-kakimoto ] Generating Story Reviews Using Phrases Expressing Emotion [ 国際会議#08PACLIC-ota ] オープンハウスを開催しました(8/25-29) 今年度もオープンハウスを開催して、「人工無
ようこそ! 長岡技術科学大学 電気系 自然言語処理研究室へようこそ。本研究室では、自然言語処理とテキストマイニングに関する様々な研究を行っています。 最近の研究室 国際会議に2件採録されました(9/4) 今年11月にフィリピンのセブ島で開催される自然言語処理に関する国際会議 PACLIC 22に本研究室から2件の論文が採録されましたので ご報告します。 Extracting Troubles from Daily Reports based on Syntactic Pieces [ 国際会議#08PACLIC-kakimoto ] Generating Story Reviews Using Phrases Expressing Emotion [ 国際会議#08PACLIC-ota ] オープンハウスを開催しました(8/25-29) 今年度もオープンハウスを開催して、「人工無脳
要約技術と検索技術 (特集 インターネット検索技術と日本語研究) 山本 和英 日本語学 Vol.23, No.2, pp.60-68 (2004.2) (明治書院) 一 はじめに 計算機による要約処理について述べる機会をいただいた。本稿では、現在の要 約技術や研究の動向について日本語学関係者向けに分かりやすく解説すると共 に、本特集の主題であるインターネット検索との関係について述べる。 情報の洪水という言葉を耳にするようになって久しい。計算機の高度化とネッ トワーク化に伴ってありとあらゆる情報が電子化されてきており、特に言語情 報は画像や音声よりも以前からより多くが電子化されてきた。情報が大量にな ると、今度はその中から自分のほしい情報を探す技術が必要になる。これが情 報検索技術である。検索は検索で重要だが、少し考えると我々が本当に求めて いるのは情報を効率的に入手する技術、つまり知り
nlp.nagaokaut.ac.jp/~ykaz
次のページ
このページを最初にブックマークしてみませんか?
『自然言語処理研究室 - 長岡技術科学大学 電気系 自然言語処理研究室』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く