言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート
![言語処理100本ノック 2020 (Rev 2)](https://cdn-ak-scissors.b.st-hatena.com/image/square/4575170ed42d119a02efa1ec4ee1e9336e655ba1/height=288;version=1;width=512/https%3A%2F%2Fnlp100.github.io%2Fassets%2Fimages%2Fnlp100.jpg)
スタンフォード大学の博士課程を卒業、対話モデル・強化学習の応用等の分野で多大な成果を残し、現在では中国の自然言語処理スタートアップ Shannon.ai をリードする Jiwei Li (李纪为)氏による、「自然言語処理に入門する際のちょっとしたアドバイス (初入NLP领域的一些小建议)」と題された記事がありましたので、内容を簡単に紹介します。 私もこの分野でかれこれ10年以上、研究開発に携わっていますが、彼のアドバイスには同意するところが多いです。どちらかと言えば、修士・博士課程の学生のような、「自然言語処理の研究に入門する人」を対象に書かれた文章ですが、それ以外、例えば、業務で自然言語処理を使うような方にも有用なアドバイスが多くあります。 彼のような優秀な研究者でも、「PRML を途中で投げ出した」ような体験談が語られているところ、私達にも親近感が持てますね。個人的には、近年の中国と中
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く