[B! nlp] MagnesiumRibbonのブックマーク

TyDi QA: A Multilingual Question Answering Benchmark

MagnesiumRibbon 2020/02/10

NLP

リンク

NLP2019 松田寛 - GiNZA

cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有しています。 http://xpaperchallenge.org/cv/ 本資料はViEW2021チュートリアルセッション「最新研究の始め方」のプレゼン素材です。また、xpaper.challengeの2020年末ワークショップとしてプレゼンした「研究効率化Tips」の拡張版です。本資料では3社12研究室300ページにわたるノウハウの詰め合わせです。 VIEW2021のチュートリアルセッションでは時間の制限があるため、こちらの資料から一部抜粋して発表を行うことになりますが、VIEW2021チュートリアルセッションの方にも足を運んでいただければ幸いです。 VIEW2021チュートリアルセッション：http://vie

MagnesiumRibbon 2019/04/02

NLP

リンク

1st International Workshop on Computational Approaches to Historical Language Change 2019 | Towards Computational Lexical Semantic Change Detection

MagnesiumRibbon 2019/03/06

NLP

リンク

GitHub - penzant/nlu_datasets_2018

MagnesiumRibbon 2018/09/27

http://penzant.hatenadiary.com/entry/2018/09/27/120606

NLP

リンク

📙Unicode絵文字の日本語読み/キーワード/分類辞書📙

emoji_jaは、Unicodeに登録されている絵文字に対して、日本語の読みやキーワード、分類を付与したデータセットです。Unicodeで定められている名称やアノテーションを元に構築しています。 TwitterやInstagramなどのSNSを通じた絵文字の普及により、emoji2vecやdeepmojiなどの絵文字を使った自然言語処理の研究が行われるようになりました。絵文字を含む分析においては、絵文字の持つ豊富な情報や多彩な利用方法により、従来の形態素分析などのテキスト処理では対応できない場合があります。例えば、「今日は楽しかった😀」という文章では感情表現として絵文字が使われていますが、「今日は🍣を食べて🍺を飲んだ」ではそれぞれの対象を表す単語として用いられることもあります。[佐藤,2015]では絵文字の品詞を名詞/サ変名詞/動詞/副詞/記号/感動詞の6種類に分類しており、形態素

MagnesiumRibbon 2018/08/24

NLP

リンク

Sign in - Google Accounts

MagnesiumRibbon 2018/07/25

集約前データなの素晴らしいと思います

NLP

リンク

顔文字のパーツが何を示しているのか解析してくれる「顔文字形態素解析」

By Thunderhammer3000 わずか数個の文字と記号でいろいろな表情やアクションを表現することができる顔文字ですが、あまりにもバリエーションが多すぎて何を表しているのか分からないものもあります。この顔文字形態素解析はMeCabという形態素解析エンジンを使い、顔文字が何を示しているのかを判別してくれます。顔文字形態素解析 http://www.haroperi.info/cgi-bin/emoticon.cgi いくつかサンプルが用意されていて、リロードするたびに入力候補に表示されます。まずは「(ﾉ∀｀)ｱﾁｬｰ」の形態素解析をしてみます。向かって左側の目が大きく垂れ下がった顔文字だと判別されました。実際は「あちゃー、やってしまった」という時に使う顔文字なので、「ﾉ」の部分は目を手で覆っているのを表現しています。「(｀ハ´)ｱｲﾔｰ」の場合これはラーメンマンや「魁！男塾」

MagnesiumRibbon 2012/06/21

学習してモデルを作ってるにしてはテキストの間の文字を顔のパーツと判断するしパラメタ設定とかおかしそう

NLP

リンク

言語系学会連合

MagnesiumRibbon 2012/06/15

思った事がすでにブコメにあった

NLP

リンク

rinko2010

東大情報理工の数理輪講で発表したときのスライド資料です。CRF, Structured Perceptron, DPLVM (LD-CRF), Latent Variable Perceptron についての説明で、機械学習を専門としていない人も対象としています。

MagnesiumRibbon 2012/03/15

nlp

リンク

２ちゃんねるに寄せられた質問と回答から検索できるページを作った - デー

２ちゃんねる Q&A 検索 - QARC 人類の知の資産であるところの２ちゃんねるの過去ログから、特に有用と思われる質問と回答のやりとりを高度な自然言語処理技術を用いて抽出・アーカイブし、それらを誰もが自由に検索できるページを作りました。僕は、feezch.infoという２ちゃんねるのパートスレを次スレまで次々に自動追跡しながらひとつのストリームとしてフィードを吐くウェブサービスを運営しているのですが、フィードの利用者がとても少ないわりに、過去ログへのアクセスがものすごくあって、そのほとんどは質問スレの回答求めて訪れる方のようなので、それなら一発で回答にアクセスできるページを作れば非常に大きな社会貢献になるのではないか、feezch.infoのコードを使えば簡単に作れるし、ビッグデータや。そう考えてこのサービスを作ることにしました。コレを使うと、たとえば、「skyrim 水銀のインゴッ

MagnesiumRibbon 2012/02/11

文分割も単語分割と同じで抽象的議論に片足突っ込むからなぁ/確率的構文解析でMCMCすれば最尤解は得られそうだけどそもそも分かち書きが難しい例題もあるので全部統合しようとすると博論レベルだわ

NLP

リンク

条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析

* NTT daichi@cslab.kecl.ntt.co.jp 2011 2011-3-10(Fri), z PDF : http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf – , “ ” z ( , , , ...) – ...(Brain damaged!) Twitter Blog z (“ ”,“ ”,“ ”...) – z ... CSJ (+, ACL2009) z , – : NPYLM (Nested Pitman-Yor LM) 1 2 10 50 100 200 NPYLM as a Semi-Markov model z Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC z (n ) BOS EOS Æ z , – “ ”, “ ” – “ ”Æ“ ”, “ ”Æ“

MagnesiumRibbon 2011/10/06

やってることは分かったが更新式がわからん＞＜

nlp

リンク

Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足

9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。【追記】ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ！) についての説明を追加しました。【／追記】 Interactive Topic Modeling(ITM) とは通常の LDA は教師無しであり、結果の制御は基本的にできない baseball と football が同じトピックに入って欲しいと思っても、うまく分類されない場合はパラメータを変えて試行錯誤するとか、分類後にトピックをクラスタリングするか ITM は LDA に「単語ＡとＢは同じトピックに入って欲しい」という制約を「後から」入れられるモデル Notatio

MagnesiumRibbon 2011/09/05

こんなんで上手くいくというのが驚き

NLP

リンク

twitterで自然言語処理 - Preferred Networks Research & Development

勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。数えてみたら、重要国際会議であるACLで6件、EM NLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

MagnesiumRibbon 2011/08/21

NLP

リンク

係り受け解析に文節の概念は必要か否か？

Zelch @zzzelch 日本語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいＥＤＲコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。 2011-07-18 15:38:19 Zelch @zzzelch やっと明日の資料が出来た。言語屋さんにも機械学習屋さんにも色々できて楽しそうよ。単語単位の係り受け。文節単位はまあ、それはそれで良かったけど、不足というかサボってる感があるね。係り受けが交差したら困るとか、受身や使役の係り受けはどうすんねんとか。 2011-07-18 20:02:31 Taku Kudo @taku910 @zzzelch 文節単位が妥当だと思います。かな漢字変換も単語単位より文節単位のほうが日本語の性質をよくモデル化できます。また単語単

MagnesiumRibbon 2011/07/22

さぁここで「係り受け解析自体が言語の本質を表していない」派の乱入だぁ！/ML的には端的に空間を小さくしてくれたほうが精度的にも速度的にもありがたいのでそういうポジショントークにはなるよね

NLP

リンク

モテる自然言語処理系女子力を磨くための4つの心得 - あんちべ！

1. あえて2〜3世代前の分類器を使うあえて2〜3世代前の分類器を使うようにしましょう。そして飲み会の場で好みの男がいたら話しかけ、わざとらしくWekaを出していじってみましょう。そして「あ〜ん！　この決定木本当にマジでチョームカつくんですけどぉぉお〜！」と言って、男に「どうしたの？」と言わせましょう。言わせたらもう大成功。「C4.5アルゴリズムとか詳しくなくてぇ〜！ずっとコレ使ってるんですけどぉ〜！すぐ過学習するんですぅ〜！ぷんぷくり〜ん（怒）」と言いましょう。だいたいの男は新しい分類器を持ちたがる習性があるので、古かったとしても1世代前の分類器を使っているはずです。そこで男が「新しい分類器にしないの？」と言ってくるはず（言ってこない空気が読めない男はその時点でガン無視OK）。そう言われたらあなたは「なんかなんかぁ〜！　最近C6.0アルゴリズムが人気なんでしょー!?　あれってど

MagnesiumRibbon 2011/05/08

最後クソ笑ったwwww

nlp

リンク

スペル訂正エンジンについてのサーベイ #TokyoNLP

Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. スペル訂正エンジンについてのサーベイ #TokyoNLP - Presentation Transcript スペル訂正エンジンについてのサーベイ #tokyonlp @nokuno 自己紹介• @nokuno / id:nokuno• #TokyoNLP主催• Social IME / StaKK開発者• Web系ソフトウェアエンジニア近況報告近況報告その1言語処理学会で発表しました近況報告その2シリコンバレーに行ってきました近況報告その3 情報処理学会誌にTokyoNLPが載

MagnesiumRibbon 2011/04/28

MEMMなんか使ってlength biasかからないのかしら

nlp

リンク

自然言語処理

MagnesiumRibbon 2011/03/02

NLP

リンク

自然言語処理で暗号文生成 : 研究開発

総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。テキスト秘密分散　Text Secret Sharing 山村明弘滝澤修独立行政法人通信総合研究所 SCIS 2002 The 2002 Symposium on Cryptography and Information Security 1 はじめに複数のメンバーが分散して保有する情報を合わせた場合にのみ秘密情報を復号できる秘密分散法（secretsharing）[How to share a secret][Safeguading cryptographic keys]の一つの実現形態として、 Naorら[V

MagnesiumRibbon 2011/01/16

おもしろい/こういう意味での「暗号」って、強度の評価がめんどくさい感じだ/ところで「複合」じゃなくて「復号」だよね

NLP

リンク

部分文字列のパープレキシティを利用した低頻度専門用語抽出 | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業