タグ

NLPに関するzonoiseのブックマーク (16)

  • The Porter Stemming Algorithm

    This page was completely revised Jan 2006. The earlier edition is here. This is the ‘official’ home page for distribution of the Porter Stemming Algorithm, written and maintained by its author, Martin Porter. The Porter stemming algorithm (or ‘Porter stemmer’) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term norma

    zonoise
    zonoise 2012/03/17
  • NLTK Home ‎(Natural Language Toolkit‎)

    Open source Python modules, linguistic data and documentation for research and development in natural language processing, supporting dozens of NLP tasks, with distributions for Windows, Mac OSX and Linux. News - Version 0.9.6 released [8 December 2008]Code - functionality provided by NLTK in over 100,000 lines of Python codeData - 50 corpora and trained models that come with NLTKQuotes - what pe

  • Porter Stemming Algorithm

    zonoise
    zonoise 2012/03/17
  • 日本語入力を支える技術という本を書きました - 射撃しつつ前転 改

    (追記):「このに書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術というを書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんななのか、目次などについては公式ページを参照していただくとして、以下ではどんななのか宣伝したいと思います。 こののキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの

    日本語入力を支える技術という本を書きました - 射撃しつつ前転 改
    zonoise
    zonoise 2012/02/10
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
    zonoise
    zonoise 2012/02/10
  • 大規模データ時代に求められる自然言語処理

    1. 講演 2012/2/2 @ 東北北⼤大学  産学連携講義:先端技術の基礎と実践 ⼤大規模データ時代に求められる ⾃自然⾔言語処理理 株式会社Preferred Infrastructure 岡野原  ⼤大輔 hillbig@preferred.jp 今回の発表内容は個⼈人の意⾒見見であり、 会社の意⾒見見ではありません 2. ⾃自⼰己紹介 l  名前:岡野原  ⼤大輔 l  経歴: l  福島県いわき市⽣生まれ、磐城⾼高校(ラグビー部) l  東京⼤大学理理科⼀一類→同情報理理⼯工学研究科コンピュータ科学博⼠士課程 2010年年3⽉月終了了、情報理理⼯工学博⼠士(その間未踏2、ユース1) l  株式会社プリファードインフラストラクチャー 2006年年創業 l  研究開発チームのリーダー&戦略略&企画&開発&雑⽤用などいろいろ l  専⾨門分野は統計的⾃自然⾔言語処理

    大規模データ時代に求められる自然言語処理
    zonoise
    zonoise 2012/02/08
  • アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ

    「君と僕の関係*1」、というタイトルで、AKB48メンバーブログの“コメント欄”のテキスト分析をしました。 さながら、「ファンレター2.0」、ですよ。すごい世界。ぞくぞく。 きっかけと背景 個人的に、アイドルブログの真骨頂はコメント欄だと思ってて、わりと眺めるのがすきです。甘い愛の言葉も熱い激励の言葉も、クラスの友達かよwってくらい軽くて近くて短すぎるコメントもまぜこぜで、あまりに混沌としていてうっとりします。すてき。距離感がめちゃくちゃ。 今、2011年(データとった当時)のアイドルとファンの関係を知りたくて、ブログの“コメント欄”だけで形態素解析をしました。あっち側の人たちの経営戦略やマネジメントの手腕は誰か偉い人がきっと分析してくれるから、わたしはもっとこっち側の、お祭に加担してる、一緒に踊らされてる人たちのことを知りたい。どんな人がいるんだろう、何を考えているんだろう、どんなことに

    アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ
    zonoise
    zonoise 2012/02/06
  • NLPリソース - LANGUAGE MEDIA PROCESSING LAB

    データ・コーパス † 京都大学テキストコーパス 京都大学ウェブ文書リードコーパス 京都大学格フレーム 京都大学名詞格フレーム BERT日語Pretrainedモデル 基料理知識ベース Textual Entailment 評価データ 日英中基文データ 述部意味関係コーパス Asian Scientific Paper Excerpt Corpus (ASPEC) Workshop on Asian Translation (WAT) Chinese Penn Treebank 5.0 Reannotation Chinese Character-level POS Annotation A Chinese Treebank in Scientific Domain (SCTB) Kyoto University & JST Trilingual Technical Term Dict

    zonoise
    zonoise 2011/09/11
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    zonoise
    zonoise 2011/08/21
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • MeCabで中国語の形態素解析(分かち書き)をしてみる | 100% Pure NEET

    2017年10月更新 同じ話題について書きました:「MeCabの中国語分割辞書を作る話」 形態素解析(分かち書き)とは 形態素解析というのは「我是英國人」という文章を入れたときに「我/是/英國/人」という形態素(意味を持つ最小の単位)に分割するものです。ここでは必ずしも形態素に分割することを求めていないので「分かち書き」という言葉を使います。 このエントリを作ろうと思ったのは情報がほとんどなくて自分が非常に苦労したからです。このエントリがあることで多くの人にとって役に立つことを願います。 中国語の形態素解析器はほとんどない 「関口宏司のLuceneブログ」によると 「中国語には(商用のものを除き)形態素解析器が(あまり)ない」という話を聞いたことがあります とのことです。他にも「(2004年度修士論文)JPドメインにおける茶筌を用いた中国語ページの抽出(PDF注意)」を見ると 3.2.1

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

    zonoise
    zonoise 2011/02/20
  • 言語処理学会第17回年次大会(NLP2011)

    後援 この会議は豊橋技術科学大学,財団法人大幸財団に後援いただいています. 概要 言語処理学会第17回年次大会は,豊橋技術科学大学で開催します. 例年通り,自然言語に関する理論から応用まで幅広い研究発表を募集します. とくに,言語学教育学,心理学など,日頃「言語処理」とは縁が薄いと感じておられる人文系の研究者の方々からの積極的な発表を期待しています. 従来通り,研究発表の形態は口頭発表(質疑応答も含めて20分間程度を予定)とポスター発表のいずれかです. 口頭発表とポスター発表は時間帯を分け,両者が重ならないよう考慮する予定です.両種の発表とも,予稿集には最大4頁の論文を掲載する予定です. また,今大会でも分野を超えた議論を奨励するために,分野横断的テーマセッ ションを口頭発表の中に設けます.テーマセッションでは,セッションの最後 に総合討論の時間を取り,参加者の間でより活発な討論ができる

    zonoise
    zonoise 2011/02/07
  • http://atnd.org/events/12264

    http://atnd.org/events/12264
    zonoise
    zonoise 2011/02/06
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • 1