引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f
リンクは自由! テキスト処理とコーパス言語学 コーパス言語学と自然言語処理 英語コーパス学会 計量国語学会 言語処理学会 国立国語研究所 言語データベースとソフトウェア 国語研で開発した各種ツール類への入り口。 言語資源開発センター 国語研で開発した各種コーパスへの入り口。 現代日本語書き言葉均衡コーパス (BCCWJ) 前川喜久雄氏らによる科研費特定領域研究の成果。 国立国語研究所「超大規模コーパスプロジェクト」 ウェブを母集団とする100 億語規模の「国語研日本語ウェブコーパス」。 中納言 「現代日本語書き言葉均衡コーパス」ほかの検索アプリケーション。 少納言 「現代日本語書き言葉均衡コーパス」全文検索。公開休止から再開。 Web茶まめ 形態素解析ツール。現代語のほか中古和文など各種UniDicを選択可。 NINJAL Parsed Corpus of Modern Japanese(
現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出
最新ニュース 2023/03/28ウルドゥー語発音モジュール公開 2022/06/30ウェールズ英語会話モジュール公開 2022/03/31スコットランド英語会話モジュール公開 2021/10/11ベンガル語語彙モジュール公開 2021/10/06ポーランド語語彙モジュール、イタリア語語彙モジュール公開 2021/04/06マレーシア語文法モジュール公開 2021/03/29ビルマ語発音モジュール理論編公開 2021/02/24マレーシア英語会話モジュール公開 2020/03/04フィリピン英語会話モジュール公開 2019/02/18インド英語会話モジュール公開 2018/03/14アラビア語フスハー語彙モジュールの追加語彙の音声データ公開 2018/03/01TUFS Kidsスマートフォン対応版発音モジュール公開 2017/11/02シンガポール英語、アイルランド英語スマートフォン版会
Natural Language Toolkit¶ NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an ac
A couple of you make donations each month (out of about a thousand of you reading the text each week). Tragedy of the commons and all that... but if some more of you would donate a few bucks, that would be great support of the author. In a community spirit (and with permission of my publisher), I am making my book available to the Python community. Minor corrections can be made to later printings,
Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P
Chapter 1: Introduction This chapter is largely the same with updated history and pointers to newer applications. (top) Chapter 2: Regular Expressions and Automata This chapter is largely the same with some bug fixes. (top) Chapter 3: Words and Transducers This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く