[B! 自然言語処理] kitanowのブックマーク

Java で統計とか機械学習とか自然言語処理とかをやりたいときに役立つライブラリ達

BizReach 社にお邪魔して発表したときのスライドです。

kitanow 2014/10/26

リンク

【SEO×自然言語処理】 SEOに使えるテキストマイニングの最新手法

はじめまして、レバレジーズSEOチームです。私達は自然言語処理を用いてSEO施策を行っています。自然言語処理というのは、人間が普段使っている言語をコンピュータなどの機械に処理させることを指します。Googleなどの検索エンジンがWebページを理解するために用いていると考えられています。今回は、自然言語処理を行うためのテキストマイニングの手法をいくつか紹介しようと思います。 ■形態素解析とテキストマイニングまず第一に、検索エンジンがWebページを読み込んで、そのページに何が書かれているのか・何を強調したいのか・どのような文脈なのかを人間のように理解することは一般的に難しいとされています。とりわけ日本語の場合、The pen is made in German.など、 ”The”,”pen”,”is”,”made”,”in”,”German”とスペースで区切られた英語とは異なり、「ドイ

kitanow 2014/10/04

リンク

情報検索と自然言語処理

情報検索と自然言語処理神嶌敏弘 1 情報検索 2 社会の高度情報化大規模DBと高速通信網欲しい情報はどこ？コンピュータに探させる情報検索 (information retrieval) 情報要求 3 情報要求 (information need) 目標達成現在の知識不足この状態を利用者が認識している直観的要求形式化された要求目標：コンピュータを使って，捜し物ができるソフトウェアを作る現在の知識では不足していることは認識しているが，具体的に何が足りていないかを説明できない不足している知識が何かも認識しており，それを具体的に言葉で表せる専門家や同僚に相談して具体化に努める「情報検索」についての本を探す不明確明確探します! 二つの情報検索 4 (広義の)情報検索 (狭義の)情報検索利用者のもつ問題（情報要求）を解決できる情報を見つけ出す情報要求が

kitanow 2014/10/04

リンク

機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development

岡野原です。情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する（検索エンジンとかもその範疇に入ると思います）ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

kitanow 2012/12/25

リンク

言語処理100本ノック - 東北大学乾研究室 / Inui Lab, Tohoku University

FrontPage / 言語処理100本ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

kitanow 2012/04/16

自然言語処理

リンク

Eiji ARAMAKI, Ph.D.

kitanow 2012/04/07

リンク

DO++: 機械学習による自然言語処理チュートリアル

自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

kitanow 2012/02/12

リンク

Pythonによる日本語自然言語処理 #pyconjp

Pythonによる日本語自然言語処理 #pyconjp - Presentation Transcript Python @nokuno #pyconjp •  Python 2.X •  •  •  •  •  @nokuno / id:nokuno •  #TokyoNLP •  Social IME / StaKK •  Web •  Python 2.X Python 2.X / read write UTF-‐8 “ ” decode encode Unicode u” ” # encoding: utf-‐8 u” “ decode encode MeCab•  MeCab•  Python MeCab –  mecab ipadic, mecab-

kitanow 2011/08/28

リンク

日本語の自然言語処理には Perl も便利 - アスペ日記

小ネタ。Perl で日本語の簡単な処理をするやり方（こういうことが簡単にできるという例で、具体的なオプションの意味等は解説していない）。コマンドラインでちゃちゃっと日本語の処理をしたい時、Perl はけっこう役に立つ。日本語の一文字を一文字として扱えるから。特に、コマンドラインやファイルのエンコーディングを UTF-8 で統一しておくといい。例えば、ひらがなの単語リストを読み込んでカタカナにするには、次のようにすればいい（「ヴ」は扱い方によって変わるので省略）。 perl -CS -Mutf8 -ple 'tr/ぁ-ん/ァ-ン/' < in.txt > out.txt カタカナの単語リストの最初の一文字を濁音から清音にしたいということがあるかもしれない。そういう時はこうする（「ヴ」については同上、半濁音の処理も略）。 perl -CS -Mutf8 -ple 's{^(.)}{my $

kitanow 2011/08/25

リンク

機械学習勉強会

概要 1つのテーマごとに担当者を決め1〜3つくらいの論文を1〜2週で紹介対象とする論文は、機械学習系の論文誌やNIPS、ICMLなど機械学習系の国際会議で発表された論文(できれば自然言語処理で使えそうなもの)、および、ACL、NAACL、EM NLPなどで発表された論文のうち機械学習寄りのものスケジュール 2010前期は基本的に火曜日9:00-11:00 2010後期は基本的に金曜日9:30-11:30 場所は黒橋研ミーティングルーム

kitanow 2011/06/19

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

kitanow 2010/11/21

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

kitanow 2010/11/21

リンク

Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ 1): 高村大也: 本

kitanow 2010/10/12

リンク

最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え２個３個の tweet には分離してしまうあたりが減点。というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al

kitanow 2010/07/18

自然言語処理

リンク

企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記

@descool2003 さんに教えてもらったのだが、Language Weaver という企業向け機械翻訳では世界トップの企業が、なんと昨日 SDL という会社に買収されたらしい。英日翻訳に力を入れる、と聞いていたので、え！　という感じだが、どういう経緯なんだろう。 SDL というのは Trados という翻訳支援ツールを開発(した企業を買収)したことで知られており(その割に Wikipedia に Trados のページがあっても SDL のページはないが)、これは「翻訳メモリ」という考え方で作られているので有名である。翻訳メモリというのは、自分が(もしくはグループの誰かが)過去に翻訳した例文を蓄積しておいて、新しい文を翻訳するとき類似する過去の文を参考に翻訳する(ので自分の言い回しが使い回せる)というシステムである。機械翻訳の精度が全然よくならないので、翻訳するという部分を人手に任

kitanow 2010/07/18

自然言語処理

リンク

本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を書いてみた - FutureInsight.info

以前のエントリーで本文抽出ライブラリWebstemmerを使ってみました。 Webstemmerによるブログの本文抽出 - FutureInsight.info Webstemmerは非常に興味深い本文抽出ライブラリなのですが、ニュースサイトなどの複雑な階層構造を持っているサイトの本文抽出に特化しているため、逆にblogのようなシンプルなケースでの本文抽出に用いるには、ちょっとオーバースペックです。 Webstemmer Webstemmer はニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェアです。サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。そのあたりのことを考慮して、本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を作成してみました。

kitanow 2009/05/03

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

kitanow 2009/03/15

自然言語処理

リンク

リンク解析とか: 重要度尺度と von Neumann カーネル - smly’s notepad

NAIST の入学手続を終えた. 残りの期間はサーベイするぞーということで shimbo 先生の講義資料「リンク解析とその周辺の話題」を読んでいます. 一日目, 二日目の資料は PageRank, HITS, SALSA などの重要度尺度の紹介と, von Neumann Kernels と HITS の関係についてのお話が中心. これらを実装してみた. 後半に進むほど力尽きて記述が適当になってます:)PageRankポイントはランダム遷移行列による random walk では定常分布に収束しない (エルゴード性 (ergodic) を満たさない) という点. どうして満たさないかというと. sink (出次数のない節点) が存在するとき, 明らかに既約 (irreducible) でないのでエルゴード性を満たさない. 複数の強連結成分を持つケース => 周期性を持つと考えてよい? 周期

kitanow 2009/03/01

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク

kitanow 2008/02/16

自然言語処理

リンク

DO++ : マルコフ情報源上で次の文字を予測する

文字列（単語列）を解析する際、i番目の文字はその直前(N-1)文字のみ依存するというマルコフ情報源を仮定することはいろいろな場面で現れます。例えば音声認識とか機械翻訳では、次の単語を直前(N-1)単語を使って予測するというN-gramモデルが古くから今でも使われてますし、データ圧縮でもこれと全く同じように履歴を使って次の文字を予測し、その予測確率を用いて符号化するPPMモデルがあります。ここで問題になるのは、何文字前まで見れば次の文字を予測できるかということが一般のデータだと分からないということです。例えば4文字前まで見た場合より5文字前まで見たほうが次の文字が確実に予想できそうですが、4文字前までは過去のデータで何回もでているのに5文字になると途端に出現回数が少なくなってサンプル数が少なくなってしまい予測精度が低下してしまう問題があります。そのため大抵は1,2,3..,N文字前の文

kitanow 2007/12/05

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

自然言語処理に関するkitanowのブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス