医療現場で生成される多様なデータの相当な部分は自然言語文であり,今後もそれはただちに変わりそうにあり...
※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚本が映画の公式サイトで公開されていることを最近知った.映画の脚本となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての
1. The document discusses n-grams and their use in natural language processing tasks. 2. It provides examples of n-grams of different sizes and describes how n-grams are used to calculate weights and similarity measures between words or phrases. 3. The document also mentions using n-grams with the Markov Clustering Algorithm to cluster similar words or phrases together.Read less
4. ラベル伝搬法とは? パターン インスタンス 素性(特徴) 例:単語, 文, 文書など シードから 負 ラベルを l グラフ上に 正 シード 伝搬させて M ? uの部分の ラベルを u … 推定する ? 方法の総称 枝の太さ=重み は色々 4 5. なぜ言語処理でグラフ? →分布仮説 Wikipediaによると: “words that occur in the same contexts tend to have similar meanings.” [Harris, 1954] Context: • Social context – 例:誰の発言か? • Verbal context – 例: words that occur in the same • 下線部がoccurに対するcontext 5 6. グラフ→行列 Y M 負 l i xi T l X 正 u M ? j u
Web内容マイニング (NECインターネットシステム研究所 楠村幸貴) Web上には膨大の情報が存在している.そこでWebを巨大な知識ベースと捉え,Webから有用な知識を取り出す情報抽出技術の研究が行われている.この技術はWeb内容マイニングとも呼ばれており, 複数のサイトをまとめて提示する情報統合システム[1][2]や,ブログからの評判抽出システム[3][4][5],コミュニティサイトからの人間関係の抽出システム[6]など,近年多くの研究が行われているトピックとなっている.そこで本ブックマークではこれらのWeb内容マイニング技術を取り上げたい. [1] TSIMMIS, http://infolab.stanford.edu/tsimmis/tsimmis.html [2] ARANEUS, http://www.dia.uniroma3.it/Araneus/ [3] BlogWa
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
うーむ。あんまり時間かけたくないので、この記事を参考にyumでpython26としてインストールした。 RPM置き場はこちら。記事の時点とはファイル名が変わってるので注意。 % wget http://dl.iuscommunity.org/pub/ius/stable/Redhat/5/i386/epel-release-1-1.ius.el5.noarch.rpm % wget http://dl.iuscommunity.org/pub/ius/stable/Redhat/5/i386/ius-release-1.0-6.ius.el5.noarch.rpm % sudo rpm -i epel-release-1-1.ius.el5.noarch.rpm % sudo rpm -i ius-release-1.0-6.ius.el5.noarch.rpm % sudo yum in
Natural Language Toolkit¶ NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an ac
共通テストが終わりましたね。 というわけで、フランス語を解いてみました。 結果は182点。 ちょっと落としすぎです。 試験本番なら見直しをするので、もう少しマシだったかもしれません(言い訳)。 さて、ここからが本題です。 問5を見てください。 下線部の発音が他の三つと違うものを選ぶ問題です。 それぞれの下線部分前後の発音は次のようになります。 ① /bjɛ̃.n‿el.ve/ ② /mi.sjɔ̃ ɛ̃.pɔʁ.tɑ̃.t/ ③ /ʒ‿ɑ̃.n‿e/ ④ /ɑ̃ plɛ.n‿ɛʁ/ 正解として示されているものは②です。 確かに、リエゾンによる/n/が生じているかどうかという視点では、リエゾンのない②が仲間外れとなります。 しかし、私は④の"en plein air"を見て、とっさにこれを選んでしまいました。 というのは、これだけ前の母音を鼻音化していないからです。 該当部分の母音をそれぞれ
#!/usr/bin/env python # -*- coding:utf-8 -*- """ feature_vector.py % python feature_vector.py file import feature_vector result = feature_vector.analyse(text) """ import MeCab def analyse(text): while node: surface = node.surface.decode('utf-8') node = node.next return feature_vector if __name__ == '__main__': import sys filename = sys.argv[1] file = open(filename).read() feature_vector = analyse(
A module treetaggerpoll.py, available in the repository near the wrapper, allows to use several taggers within a multiprocessing context (text tokenizationis realized in Python script), to achieve maximum use of your computing resources. $ python treetaggerwrapper.py --help treetaggerwrapper.py Usage: python treetaggerwrapper.py [options] input_file Read data from specified files, process them one
現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く