[B! NLP] Ehrenのブックマーク

自然言語処理ってなに？課題は？研究者に聞く、エンジニアが学術論文を読み解くための技術 - エンジニアHub｜若手Webエンジニアのキャリアを考える！

自然言語処理ってなに？課題は？研究者に聞く、エンジニアが学術論文を読み解くための技術多くのサービスに実装される自然言語処理ですが、そもそも一体どのような技術なのでしょうか？東京工業大学で研究にあたる、西川仁助教に自然言語処理の歴史と現在。そしてどのような課題があるかをうかがい、さらにエンジニアが学術論文を読み解き、役立つ情報を手にするための手法も聞きました。技術に関する最新の情報を得るための手段は様々ですが、“学術論文を読む”とは、その有力な手段の一つでしょう。しかし、数多くある論文から、自分の目的とする情報をいかに探し出し、いかに読むのが効率的なのでしょうか。そして、日頃から論文にふれる機会の多い研究者の方はどのように論文から情報収集を読み解いているのでしょうか。今回お話をうかがったのは、自然言語処理研究のフロントランナーとして、東京工業大学に所属し、自動要約の研究をされている

Ehren 2019/01/10

NLP

リンク

100 Must-Read NLP Papers

100 Must-Read NLP Papers This is a list of 100 important natural language processing (NLP) papers that serious students and researchers working in the field should probably know about and read. View on GitHub 100 Must-Read NLP Papers This is a list of 100 important natural language processing (NLP) papers that serious students and researchers working in the field should probably know about and rea

Ehren 2017/04/03

NLP

リンク

なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか？ - あんちべ！

件名：主人がオオアリクイに殺されて1年が過ぎました。差出人：久光いきなりのメール失礼します。久光さやか、29歳の未亡人です。お互いのニーズに合致しそうだと思い、連絡してみました。自分のことを少し語ります。昨年の夏、わけあって主人を亡くしました。自分は…主人のことを…死ぬまで何も理解していなかったのがとても悔やまれます。主人はシンガポールに頻繁に旅行に向っていたのですが、それは遊びの為の旅行ではなかったのです。収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。一年が経過して、ようやく主人の死から立ち直ってきました。ですが、お恥ずかしい話ですが、毎日の孤独な夜に、身体の火照りが止まらなくなる時間も増えてきました。主人の残した財産は莫大な額です。つまり、謝礼は幾らでも出きますので、私の性欲を満たして欲しいのです。お返事を頂けましたら、もっと詳

Ehren 2011/11/25

NLP

リンク

自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな - EchizenBlog-Zwei

自然言語処理の優秀なエンジニア各位にオススメ本を聞くと大抵FSNLP(Foundations of Statistical Natiral Language Processing)という答えが返ってくる。またブログ等でFSNLPを絶賛している方も多い。私は自然言語処理は長尾本で満足してしまっていたのでFSNLPは読んでいなかったのだけれど､長尾本は現在入手困難ということもあって入手しやすい自然言語処理の教科書があるといいなと思っていたのでFSNLPを読んでみた。その結果。自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな。という結論に至ったので全力でFSNLPを推薦する記事を書くことにした。参考：［を］FSNLP @ytoさん自然言語処理の定番の教科書まとめ - 生駒日記 @mamorukさん Perl で自然言語処理 @overlastさんざっと読んでみてFSN

Ehren 2011/11/03

NLP

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

Ehren 2011/10/27

面白い。

NLP
Tumblr

リンク

形態素解析の過去・現在・未来

NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。論文: https://arxiv.org/abs/2205.01954 GitHub: https://github.com/joisino/wordtour 概要単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで本研究では、【一次元】の単語埋め込みを教師なしで得る方法を提案します。とはいえ、単語のあらゆる側面を一次元で捉えるのは不可能であるので、本研究ではまず単語埋め込みが満たすべき性質を健全性と完

Ehren 2011/10/21

NLP

リンク

第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記

第5回さくさくテキストマイニング勉強会 : ATND データクリーニング入門〜精度は細部に宿る〜 by toilet_lunch様掃除は大事です！！ Unicode正規化フィルタリング第2水準の漢字は捨てる短いツイートは捨てる URLは捨てるあなたの質問に答えてみた〜疑問に対する応答〜 by gepuroさんイカ娘の記事から答えをマイニング Cabochaを使って係り受け解析質問文から疑問詞を取り出す本当に気持ちのいい全文検索〜Lucene/Solr入門〜 by AntiBayesianさん検索エンジン入門転置インデックス適合率と再現率とF値 TF-IDF Lucene/Solr入門 Solrのインストール Schema設定：typesとfields gosenで形態素解析ツイートをCSVで登録まとめ検索は大規模データ時代には必須全文検索，転置インデック

Ehren 2011/10/16

NLP

リンク

dag_vector: ランダムアクセス可能な圧縮配列 - Preferred Networks Research & Development

こんにちは、この夏はシルキードライで乗り切りたい岡野原です。今日は最近公開したC++のオープンソースであるdag vectorについて紹介します。 github: dag_vector ライセンスは修正BSDライセンスです。 dag vector (direct accessible gamma code vector) は値を圧縮して格納したまま任意の場所の値を高速に参照可能な配列ライブラリです。しかもデータ末尾への追記が可能です。 dag vectorはstd::vectorのように利用できます。下にいくつか例を見ていきましょう。 dag_vectorの例 #include "dag_vector.hpp" // dag_vectorは0以上の正整数の配列を扱う配列。 dag_vector dv; // 値はいつでも追加可能。追加された値は圧縮して格納される // 正整数xは2lg(

Ehren 2011/06/27

リンク

ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記

ACL HLT 2011 の3日目の最初は認知言語学に関するHow do the languages we speak shape the ways we think? という基調講演。時間、性(ドイツ語やフランス語で女性名詞や男性名詞がある)、因果関係に関していろんな言語でどのように表現され、それが人間の認識にどのように影響を与えているか、というトーク。おもしろい。たとえば、時間軸の過去と現在を前後と言う(思う)か上下と言うかは言語によって違い、たとえば日本語では「6月下旬」は6月の先の時間(未来)を指すが、英語では上下でなく前後で表現したり(たとえば "back in '90s" のように過去を指す)、アイマラ語は前後でも過去が前で未来が後ろだったりとか。それで、言語が認識に影響を与えるかの調査の実験として、英語と中国語のバイリンガルに対し、「月曜日と火曜日がどのように位置関係にな

Ehren 2011/06/24

NLP

リンク

自然言語処理

Ehren 2011/03/01

NLP

リンク

自然言語処理ツールの開発を成功に導くには - 武蔵野日記

CICLing 最終日は Chris Manning さんの基調講演でスタート。Manning さんといえば自然言語処理業界のバイブル的教科書である FSNLP Foundations of Statistical Natural Language Processing (The MIT Press) 作者: Christopher Manning,Hinrich Schuetze出版社/メーカー: The MIT Press発売日: 1999/05/28メディア: ハードカバー購入: 3人クリック: 169回この商品を含むブログ (18件) を見るやIIRことIntroduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambr

Ehren 2011/02/28

NLP

リンク

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201

Ehren 2011/02/19

NLP

リンク

MapReduce/Bigtable for Distributed Optimization

Neural Information Processing Systems Workshop on Leaning on Cores, Clusters, and Clouds (2010) For large data it can be very time consuming to run gradient based optimizat ion,for example to minimize the log-likelihood for maximum entropy models.Distributed methods are therefore appealing and a number of distributed gradientoptimization strategies have been proposed including: distributed gradien

Ehren 2010/12/16

NLP

リンク

単語感情極性対応表

単語感情極性対応表日本語および英語の単語とその感情極性の対応表を、研究目的の利用に限り公開します。感情極性とは、その語が一般的に良い印象を持つか（positive）悪い印象を持つか（negative）を表した二値属性です。例えば、「良い」、「美しい」などはpositiveな極性、「悪い」、「汚い」などはnegativeな極性を持ちます。感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。リソースとして、日本語は「岩波国語辞書（岩波書店）」を、英語はWordNet-1.7.1を使わせていただきました。こちらからダウンロードしてください→[日本語] [英語] フォーマットは、各行が一単語に対応し、見出し語:読み:品

Ehren 2010/12/16

NLP

リンク

大規模オープンソース日英対訳コーパスの構築

このページでは，石坂他(2009)で発表された日英対訳コーパスのうちで，著作権の観点から対訳データを配布可能なことが確認されたものをリストします．(著作権上の問題があるものを発見した場合には，内山まで御連絡ください．それらについては削除します．) ここにリストされている対訳データの編集著作権については，そのライセンスはCreative Commons Attribution-Share Alike 3.0 Unportedとしますので，御活用下さい．ただし，この対訳データを利用する際には，対訳データのライセンスだけでなく，原文(英語)と訳文(日本語)の双方のライセンスに従う必要があることに御注意下さい．なお，ここにある対訳データはみんなの翻訳から検索できます．石坂達也，内山将夫，隅田英一郎，山本和英 (2009) 大規模オープンソース日英対訳コーパスの構築．情報処理学会第191回自然言

Ehren 2010/12/16

NLP

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

Ehren 2010/12/15

NLP

リンク

Loading...

Ehren 2010/12/13

NLP

リンク

日本語係り受けコーパス(JDC)

概要日本語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて，助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日本語係り受けデータベースがあります. 本コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビューをお送りする 496 テレクラでいる 6 大気が存続する 1 化量を言う 1 Private と定義する 1 けんぎゅうかが伝来される 2 プロテスタンティズムを生み出す 1 脳内でアップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会が仕事 25 こころというちよ 1 場所から大筒 1 見直しへ訴訟 3 ここ

Ehren 2010/12/10

NLP

リンク

Pythonでのキーワード抽出実装

初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ

Ehren 2010/12/09

NLP

リンク

ライトノベルのあらすじからトレンドを知ることができるか - たかべーの書庫

以前の日記でラノベのあらすじからキーワード抽出してみたことを書きましたが、2009年に刊行されたほとんどのラノベを対象にしてまたやってみました。使用したツールは同じです。個人的な感想をいうと、やる前から思っていたほど面白い結果は出なかったのですが、せっかく調べたのでここに載せておきます。参考にさせていただいたサイト（再掲） http://mecab.sourceforge.net/（形態素解析エンジン） http://tanashi.s240.xrea.com/mword/（キーワード抽出スクリプト）形態素解析エンジン MeCab 0.98pre3 野良ビルド - 銀月の符号（mecab-python の Windows 用バイナリ） WindowsでMeCab Pythonを使う - 人工知能に関する断創録（↑の解説）注意私は自然言語処理に関して全くの素人なので、あくまでネタと

Ehren 2010/12/09

NLP
python

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

NLPに関するEhrenのブックマーク (28)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス