日本語入力を支える技術、読んだのはずいぶん前なのですが、感想を書くのが遅れてしまいました。感想を書くタイミングは逃したし、他の方が的確なレビューを書いているので、専門外の私があえて書かなくても良いかなと思っていたら、筆者から読者へのメッセージ(日本語入力を支える技術 振り返り、もしくは技術書を書きたい人へ)を見つけました。お礼の意味で感想を書きます。本当に良い本を出していただき、ありがとうございました。 本の内容 身近なプログラムである日本語入力を中心に、中で使われている技術、歴史的な話、そして将来の展望まで、丁寧に丁寧に説明してある本です。私を含め、ほとんどの人は日本語入力のプログラムを書くことは無いと思いますが、それでも十分に面白いです。プログラミングの勉強をしていて、何故アルゴリズムとデータ構造の勉強しないといけないか悩んでいる人に特にお勧めします。アルゴリズムやデータ構造が何かしら
本を書いてからこっち、年度末で忙しかったり、体調がずっと悪かったりしていますが、そろそろ本気出します。正誤表も大幅にアップデートします。今書いてる。 今日は、本を書いてみてどうだったか、ということをふり返る。たぶんこれで本について触れるのは最後かな。宣伝はたまにすると思いますが。 ※思いがけず大量にアクセスがあったから、最後に追記を書いたので、そっちも読んでね! 本を書いたきっかけ 会社の方でPFIセミナーという勉強会のようなものをやっており、なぜかそれがUStreamでインターネットに中継されているのだが、そこで日本語入力の話をしたら「本書かない?」って話が来た。編集さんとは、その前年に会社に来たWEB+DB Pressの記事執筆依頼で記事を書いた際に知り合ったので、そういう意味では貪欲にチャンスを掴みに行った結果であると言えなくもない。 PFIセミナーがUSTで中継されるようになったの
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
Introduction to Neural Machine Translation with GPUs (part 1) Note: This is the first part of a detailed three-part series on machine translation with neural networks by Kyunghyun Cho. You may enjoy part 2 and part 3. Neural machine translation is a recently proposed framework for machine translation based purely on neural networks. This post is the first of a series in which I will explain a simp
nグラムの生成 Rでnグラムを生成するためのパッケージ ngram について紹介する。ngram はCRANを通じて配付されているので、Rで install.packages(“ngram”) と入力すれば簡単にインストールできる。ただ、このパッケージはできることが少なく、使い勝手は総じて良くない。 このパッケージを使ってnグラムを作るには、文字列が入った変数を引数にとって ngram 函数を使えば良い。例えば、以下の例では“A cat chased a rat. A dog chased a cat.”という文字列から2グラムを作っている。 > library(ngram) > string <- "A cat chased a rat. A dog chased a cat." > # 無指定で ngram を使うと2グラムになる。 > bigram <- ngram(string)
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
お知らせ 2024.07.20: 機械翻訳の語レベル品質推定に関する論文がAMTA 2024に採択されました. 2024.05.20: テキスト簡単化や機械翻訳後編集のような単言語の書き換え前後の文対をプリミティブな編集操作に自動分解する手法に関する論文を LREC-COLING 2024で発表しました. 2024.03.25: 翻訳方略のメタ言語に関する論文と翻訳間の差異のメタ言語に関する論文の2編が日本通訳翻訳学会のジャーナル『通訳翻訳研究』に掲載されました. 2024.02.21: LREC-COLING 2024に2編の論文が採択されました. 2024.01.19: 翻訳方略のメタ言語に関する論文と翻訳間の差異のメタ言語に関する論文の2編が日本通訳翻訳学会のジャーナル『通訳翻訳研究』に採録されることになりました. 2023.08.16: 人間が作成する翻訳と機械翻訳およびその後編集
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
spaCy: Industrial-strength NLP¶ spaCy is a new library for text processing in Python and Cython. I wrote it because I think small companies are terrible at NLP. Or rather: small companies are using terrible NLP technology. To do great NLP, you have to know a little about linguistics, a lot about machine learning, and almost everything about the latest research. The people who fit this description
概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日本語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日本語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日本語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く