この記事は abicky.net の 日本語形態素解析の初歩 に移行しました
言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこで本チュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less
Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します いまさら聞けないHadoopとテキストマイニング入門 テキストマイニングで始める実践Hadoop活用(1) それぞれの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築します
概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ
最近、人に本を薦める事が多くなった。とりあえずこの辺を読むといいですよ的なリストを作っておくと便利だと思ったので作ることにした。 以下、「事前知識のいらない入門本」「事前知識はいらないけど本格的な本」「事前知識がないと何言ってるかわからないけど有益な情報が満載な本」の3つにわけて列挙する。 事前知識のいらない入門本 数式少なめ、脳負荷の小さめな本をいくつか。何をやるにしてもデータ構造、アルゴリズム、数学はやっておくと幸せになれるよ。 情報検索と言語処理 データマイニングとか自然言語処理とかやりたい人にはとりあえずこれ。さすがに古い話が多くなってきたのでそろそろ新しい入門用情報検索本がでないかなあと思っている。 図解・ベイズ統計「超」入門 伝説のベイジアン先生がベイズの基礎を教えてくれる本。ベイズやりたい人はこれ。 珠玉のプログラミング データ構造とかアルゴリズムとかの考え方の基礎を教えてく
自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。 (概要)自然言語処理(放送大学出版) (理論)言語処理のための機械学習入門+深層学習による自然言語処理 (実装)Python 機械学習プログラミング 第3版 自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。 (数式なし)自然言語処理の基本と技術 (数式あり)自然言語処理(放送大学出版) オライリーから出ている「入門 自然言語処理」は特殊な本(詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない)で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。(それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応
米Twitterは2月5日(現地時間)、公開されているTwitterデータ(いわゆる「Firehose」)を学術研究者に無償で提供する試験的なプロジェクト「Twitter Grants」を発表した。 参加を希望する非営利の学術研究機関はエントリーページから申し込める。締め切りは3月15日。選考後、一部の参加希望者がFirehoseに無償でアクセスできるようになる。 公開ツイートは1日当たり5億件以上投稿されており、累計すると膨大な量になる。Twitterは米Microsoftなどの企業には有償でこのデータへのアクセスを提供している。Twitterが同日発表した2013年10~12月期の決算によると、データライセンスなどの売り上げは2300万ドルだった。 Twitterは社内のエンジニアリングチームで開発したツイートデータを使った幾つかの視覚化動画を発表している。また、これまで一部の学術機関
米Twitterは1月29日(現地時間)、ジャーナリスト向けのアラートシステム「Dataminr for News」を発表した(Dataminrはデータマイナーと読む)。膨大なツイートの中から速報ネタを探すメディア関係者に、信頼できるツイートをリアルタイムで知らせるというもの。 金融向けアラートサービスを手掛ける米Dataminrが、Twitterと米CNNと協力して構築した。CNNは現在、αパートナーとして同サービスを利用している。 1日当たり5億件投稿されるツイートを独自のアルゴリズムでリアルタイムに分析し、ユーザーがあらかじめ設定したカテゴリーに合わせて関連する注目ツイートを通知する。 2009年創業のDataminrは、2011年からTwitterと協力し、同様のサービスを金融企業と公共機関向けに提供してきた。Dataminr for Newsは、CNNのジャーナリストからのフィー
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄
海外に長い間住んでいると、日本語の活字を無性に読みたくなることが頻繁にある。青空文庫はその飢えを満たしてくれるサイトのうちのひとつだ。夏目漱石、芥川竜之介、宮沢賢治など名だたる作家の作品が収められているが、中でも太宰治の作品は私にとって特別な存在だ。 太宰治というと、「人間失格」のテーマ及び彼自身の入水自殺のインパクトがあまりにも強いためか、「暗い」「陰鬱」というイメージがあるようだ。例えば、私がまだ日本に住んでいた頃に軽い病気を患って1週間ほど入院していた時のことだ。元来読書が好きだったので、「久しぶりに集中して本を読む時間が出来た」くらいの軽い気持ちで「太宰治全集」を読んでいたら検温をしに来た看護師の方に「大丈夫ですか」と深刻な表情で訊かれたのを今でも記憶している。実際のところ、太宰は一貫して「暗い」作品を書いていたわけではなく、「お伽草紙」「富嶽百景」「走れメロス」などの明るい作品も
こんにちは.Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します,[twitter:@kisa12012]です.普段は博士学生として,各地を放浪しながら機械学習の研究をしてます.今回の記事はボストンで執筆しています.現地時間(EST)での締切は守ったのでセーフ…ですよね? 本日は機械学習の技術的な内容の話ではなく,筆者が実践している機械学習関連の情報収集方法について纏めます*1.大きく分けて,学会情報の管理・論文情報の収集・その他の三種について述べたいと思います.今回のトピックの多くは他の分野にも通用する話になっているかと思います.他の分野の方がどのように情報収集されているのかも気になるところです. 学会情報の管理 まずは学会情報の管理についてです.機械学習に関連するカンファレンスは(特に近年乱立気味で)非常に沢山あります.全てをチ
人工知能のクイズ王、APIが一般公開。あらゆるデベロッパーから利用可能に2013.11.18 21:00 福田ミホ ショッピングサイトでお買い物を手伝ってもらったり、など。 IBMが開発した人工知能のワトソンは、米国のクイズ番組で人間のクイズ王に勝利しただけじゃなく、お医者さんのサポートしたりパティシエになったり、いろんな仕事をこなしてきました。そして今彼は、頼まれた仕事は誰からでも、どんな分野でも引き受けてしまおうとしています。IBMがワトソンをクラウドに載せて一般公開しようとしているんです。 IBMが、2014年にワトソンを一般のデベロッパーに公開することを発表しました。そこでは新しいオープンなAPIが使われ、デベロッパーがワトソンの自然言語処理能力を直接使うコードを書けるようになる予定です。デベロッパーからワトソン君に自然言語で質問の文字列を送ると、リアルタイムで回答を得られる仕組み
(2013/11/08: 補足を書きました。Googleのヒット件数について(続き)) 「Googleの検索件数は当てにならない」と言うと、多くの人は「何をいまさら」という反応かもしれません。 当てにならないことぐらいわかってるよ、と。 でも、「当てにならない」でイメージするものがどの程度かは人によって違うと思います。 結果が2倍ぐらい違ったりする、程度に思っている人もいるかもしれません。 しかし、実際はそんなレベルでの話ではありません。 「本当は50件なのに500,000件と返ってくる」ようなことも珍しくありません。 たとえば、ツイッターで見たネタなのですが、"無い内定式" というキーワードで検索してみます。 267,000件。 多いですね。 ここで、10ページ目をクリックすると、次のようになります。 「59 件中 6 ページ目」*1 一気に4桁も減ってしまいました。 どちらが本当の数字
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
駄洒落の歴史は古い。適当な言葉の語源を調べていると江戸時代の駄洒落に行き当たることがあるし、平安時代の短歌にも今で言う駄洒落みたいなのがいっぱい入っている。 人類はいったい何年、駄洒落を作っているのだ。そろそろ駄洒落くらい機械に作らせて、空いた時間で二度寝とかしようぜ。 インターネットユーザー。電子工作でオリジナルの処刑器具を作ったり、辺境の国の変わった音楽を集めたりしています。「技術力の低い人限定ロボコン(通称:ヘボコン)」主催者。1980年岐阜県生まれ。 本『雑に作る ―電子工作で好きなものを作る近道集』(共著)がオライリーから出ました! 前の記事:野良バーコードを読む > 個人サイト nomoonwalk 駄洒落といってもいろいろあるが、今回言ってるのはこういうやつである。 ・江戸川乱歩(エドガー・アラン・ポー) ・ハイファイ新書(解体新書) ・水曜どうでしょう(金曜ロードショー)
Java で書かれた日本語形態素解析ライブラリ Kuromoji を Perl から使ってみたいなー、と思って、別の言語のプログラムから使いやすいようなインターフェイスを書きました。 Kuromoji について kuromoji - japanese morphological analyzer Java で書かれたオープンソースの日本語の形態素解析ライブラリです。 検索用のライブラリらしくて、Apache Lucene と Apache Solr に組み込まれているらしいです。 もちろん検索エンジンとは独立して利用することも可能です。 独立して使用する場合は、単に jar ファイルをダウンロードしてきて Java のライブラリパスに追加するだけ (あるいは公開されている Maven リポジトリを使用して依存関係を解決するだけ) で形態素解析できるようになります。 便利ですね。 Java
1月に「高速文字列解析の世界」を購入してから半年が経ちました。以下、文字列本と呼びます。 高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学) 作者: 岡野原大輔出版社/メーカー: 岩波書店発売日: 2012/12/27メディア: 単行本購入: 15人 クリック: 324回この商品を含むブログ (4件) を見る 全文検索として、「CSA」や「FM-Index」が紹介されていますが、「全文検索システム」を作るには、これらだけでは不十分です。なぜなら、以下のような特徴があるからです。 文書IDの識別が遅い。 各文書IDに出現する頻度を求めるのが遅い。 ちなみに、転置インデックス(or N-gramインデックス)を使った場合、これらの処理は高速ですね。 インデックスを圧縮しているのだからしょうがないとも考えられますが、作りたいですよねぇ、「全文検索システム」。こ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く