[B! nlp] noriotのブックマーク

汎用言語表現モデルBERTを日本語で動かす(PyTorch) - Qiita

今DL for NLP界で、BERTというモデルが話題です。PyTorchによる実装が公開されていたので、日本語Wikipediaコーパスに適用してみました。コードはこちらに公開しております。 2018/11/27 作成したBERTのモデルを使って内部動作の観察とその考察を行いました。単語の潜在表現獲得の部分で感動的な結果を見せてくれました。ご興味あればご覧ください↓ https://qiita.com/Kosuke-Szk/it ems/d49e2127bf95a1a8e19f この記事ではBERTのポイントの解説と、ポイントごとの実装を紹介します。尚、記事の執筆にあたってこちらのリポジトリを参考にさせていただきました。 https://github.com/codertimo/BERT-pytorch 本記事は以下の4つで構成されています。・BERTとは・BERTのキモ・BER

noriot 2018/11/06

リンク

言語処理100本ノック 2015

言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています

noriot 2015/03/13

リンク

『表記統合辞書』 - 言語データベースとソフトウェア

概要† 『表記統合辞書』は，言語研究・自然言語処理用に開発された，同語判別のための基礎データです。奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座（松本研究室）で開発された形態素解析システム『茶筌』付属の電子化辞書『IPADIC 』ver.2.4.4 に対応しています。『表記統合辞書』は無償でご利用いただけます。著作権及び使用条件をあらかじめご確認の上，ご利用ください。「ver.1.0 のダウンロード」のページからダウンロードしてください。『表記統合辞書』の利用例としては，『茶筌』で形態素解析した結果に対して，同語判別を行う，ということが挙げられます。例えば，『茶筌』の解析結果(『IPADIC』 ver.2.4.4 を利用した場合)では，「組み立てる」と「組立てる」は表記上の違いにより，別語となりますが，『表記統合辞書』を使うことにより，同じ語であると判断することが

noriot 2012/11/16

nlp

リンク

電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術 : 404 Blog Not Found

2012年02月09日02:15 カテゴリ書評/画評/品評SciTech 電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術出版社より献本御礼。日本語入力を支える技術徳永拓之いい時代になったものだ。コンピューターで扱うのに最も難解な言語の一つである日本語の取り扱い方を、書籍で学べるなんて。しかしこうして本で読んでみると、改めてすごいことだと思う。この難問から、我々が逃げずに取り組んで来たことに。本書「日本語入力を支える技術」は、今や「出来て当たり前」となった電脳に対する日本語入力を中心に、電脳で日本語をどう扱うのか、どこまで扱えるのかを簡潔(succinct)にまとめた一冊。さすがPFIの中の人が著者だけあって、本書自体が簡潔データ構造で記述されているのではないかというぐらい中身の濃い一冊で、本 blogで取り上げる本の中では最もページ密度の高い本の一つである。

noriot 2012/02/09

nlp

リンク

日本語入力を支える技術という本を書きました - 射撃しつつ前転改

（追記）：「この本に書かれていないこと」という項を追加しました。以前も告知しましたが、日本語入力を支える技術という本を書きました。技術評論社から2012年2月8日に発売されます。（私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。）どんな本なのか、目次などについては公式ページを参照していただくとして、以下ではどんな本なのか宣伝したいと思います。この本のキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、本を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの

noriot 2012/02/03

nlp
IM

リンク

形態素解析の過去・現在・未来

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transf ormers for Language Und...Deep Learning JP

noriot 2011/10/22

nlp

リンク

ノンパラベイズを勉強してみる (6) まとめ - nokunoの日記

長々と書いてきたベイズ関連のエントリについてまとめました。ノンパラベイズを勉強してみる (5) ベイズ階層言語モデルによる教師なし形態素解析 - nokunoの日記個人的には「言語モデルの性能最大化で、教師なし単語分割ができる」という基本の部分が目からうろこでした。ノンパラベイズを勉強してみる (4) 階層Pitman-Yor過程 - nokunoの日記Pitman-Yor過程はディリクレ過程の拡張で、観測回数を実際より低く見積もるディスカウント項が追加されているのが特徴です。ノンパラベイズを勉強してみる (3) 階層ディリクレ過程 - nokunoの日記階層ディリクレ過程はその名の通りディリクレ過程に階層構造を持ち込んだもので、これを使うとN-gramモデルのスムージングを理論的に導出することができるというものです。ノンパラベイズを勉強してみる (2) ディリクレ過程 - nokunoの

noriot 2009/04/09

nlp

リンク

自然言語処理は Python がいちばん - 武蔵野日記

現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

noriot 2009/03/30

nlp

リンク

教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

noriot 2009/03/27

nlp

リンク

日本語例文検索 JReK を公開！

日本語例文検索 JReK を公開！ 2008-11-06-1 [Release][Programming] 日本語で書かれたウェブページのテキストを巨大な例文集（コーパス）とみなし検索するサイト JReK （ジェイレック）を公開しました。日本語を学んでいる人が、日本語作文する際に役に立つかと思います。よろしくお願いします。 - 日本語例文検索 JReK http://jrek.ta2o.net/ （オシャレでクールで日本のイメージがアップしちゃうようなカッコいいタイトル画像を募集中です！！！）英語例文検索 EReK [2007-09-03-1](http://erek.ta2o.net/) の姉妹サイトです。検索結果の表示方法は、中心に検索キー、左右にコンテキストを配置する KWIC (KeyWord In Context) です。ウェブ検索にはYahoo!ウェブサービス

noriot 2008/11/07

nlp

リンク

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

noriot 2008/05/27

リンク

日本語文章校正ツール - フリーで使える表現チェック・文字校正支援Webツール

noriot 2008/05/08

nlp
web

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

noriot 2007/11/02

nlp
Google

リンク

グーグルが日本語N-gramデータを公開 ― ＠IT

2007/11/01 グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語（例では“グーグル”）と、他の単語の結びつきを予測できる。 N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。公開したのはグーグルがWebサイトから抽出した約200億文（約2550億単語）の日本語データから作成したN-gramデータ（1～7gram）。データは特定非営利活動法人言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。これまで米グーグルは英語について同

noriot 2007/11/02

nlp
Google

リンク

[を] Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」

Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、というテーマでブログ記事を書いていて、今回で5回目になります。今回はリーズ大学の多言語コーパス検索サイトの話。こういう活動は頭が下がります。なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web ［三省堂辞書サイト］ http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」この連載の第二回[2007-09-03-1]で紹介した拙作「

noriot 2007/10/16

nlp

リンク

Perlで入門テキストマイニング » SlideShare (share powerpoint...

2. テキストマイニング（１）評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○？ • クラスタリング。グルーピング。 •

noriot 2007/10/01

nlp

リンク

辞書不要の形態素解析エンジン「マリモ」とは − ＠IT

2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

noriot 2007/08/16

nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

nlpに関するnoriotのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス