言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています
追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
魑魅魍魎あふれるYahoo!知恵袋。質問・回答ともに手軽にできるため、おバカな投稿も多く「アホー知恵おくれ」と揶揄されることも珍しくありません。この表現は個人的に嫌いですが。 注目を集める「不倫に悩む38歳」女性の質問 そんな、インターネットの恐ろしい世界を徘徊していると、以下のような「38歳独身女です。友人の夫と不倫関係1年になります。。。」質問を発見。 38歳独身女です。 友人の夫と不倫関係1年になります。。。 どうしても彼が欲しくて我慢ができません。 家庭を壊すつもりはないと断言されています(3人も子供がいるので彼の気持ちも分かります)。 (後略) http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10142855370(2015/3/8 10:28:14) と、37歳まで純潔を守った女性が不倫をして、モヤモヤしているご
「Yahoo!知恵袋に9000件のコピペ質問をする狂気の男」に続いて、インターネットの闇シリーズです。 価格.comのカメラ板といえば、ソニー信者、ニコン信者、キヤノン信者が日夜バトルを繰り広げ、初心者が相談にくればコメントが殺到して相談者は混乱し、ユーザーが作品をアップしては褒めたり貶したりと、とても騒がしい場所であります。 そんな魔物たちが蠢くネットの殿堂において活躍しているのが、今回の主人公であるコテハンの「じじかめ」氏です。 彼は、2002年に価格.comのカメラクチコミ掲示板にデビュー。以来14年間、カメラクチコミ掲示板に書き込みを続け、2002年7月14日から今日に至るまでほぼ毎日書き込みを行い、10万件以上の投稿を行っています。 じじかめ氏の書き込みは、文字量も少なく、情報もあまりなく、書き込み数だけ多いため、カメラクチコミ掲示板での評判はよろしくありません。Google先生
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く