404 お探しのページは見つかりません GREE Engineering トップへ戻る
404 お探しのページは見つかりません GREE Engineering トップへ戻る
形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。 準備 ・Mecabのインストール 省略 ・Wikipediaのダウンロード wikipediaからコーパスの作成を参照 ・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。 この際、(曖昧さ回避)は除いておきます。 併せて、カンマが入っている見出し文は、別のものに置き換えておくこと c
初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの本文をテキストフ
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基本中の基本ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ
Twitter の ChirpUserStreams を WebSocket で垂れ流して閲覧できるアプリを作りました!WebSocket 対応ブラウザ(Chrome 等)でお楽しみください!WebSocket すごい!ユーザ体験が変わる! ChirpUserStreams => WebSocket ボク @june29 と @kei_s から見た世界を体験できるようにしてあります。ChirpUserStreams については、以前にエントリを書きました。 TwitterのChirpUserStreamsをごくごくしてみた 本家の API がベータ版であり、まだまだ不安定なので、たまにスクリプトの再起動をかけたりしながら動かしています。見てみたいけど「なんにも表示されないよ?」って方がいたら、@june29 や @kei_s に話しかけてみてください。対応できるかもしれません。 User
といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離
This page is a Japanese translation of the manual page of the command line tool 'curl'. (more about this page) curl.1 man ページ 名前 curl - transfer a URL curl - URL 転送 書式 curl [options] [URL...] 説明 curl is a tool to transfer data from or to a server, using one of the supported protocols (HTTP, HTTPS, FTP, FTPS, SCP, SFTP, TFTP, DICT, TELNET, LDAP or FILE). The command is designed to work without use
このページ は URL 転送のための汎用コマンドラインツール curl の 2016-05-30 現在( curl 7.40.0 〜 7.49.1 )の マニュアル (用例を交えた使い方)の日本語訳です(更新: 2016-06-30 )。 この翻訳の正確性は保証されません( その他の情報 )。 文中の【】は訳注を表します。 各章の見出しをクリックするとその章の原文が表示されます。 このページには外部リソースは利用されていないので、ページのみ( HTML ソースのみ)をローカルに保存しても閲覧には支障ありません。 このページに記された機能のうち,一部のものは、 curl のバージョン,あるいは curl のビルド時に利用されたライブラリに依存しています。 機能が利用できるバージョン/ビルドについての情報は マニュアルページ ( 和訳 )に。 Manual -- curl usage expl
「上野駅から夜汽車に乗って」改題 とうとう橋本治までなくなってしまった。 平成終わりの年にさらに改題してリスタート。 東浩紀が堀紘一と対立し、「もうやってらんないよ」と席を立つ騒動となった今回の朝生。ツイッターで、「退席」というつぶやきを見て、いったい何が!と思っていたが、夕べやっと、録画してた番組を見た。 かつての野坂昭如と大島渚の怒鳴り合いを知る世代としては、なんか久々の爽快感だった。東浩紀がガチで切れてたというのもあるが、この「退席」騒動で今回の放送、救われたみたいなもんだ。 パネリストはこんな感じ。 東浩紀(早稲田大学教授、批評家) 猪子寿之(チームラボ代表取締役社長) 河添誠(首都圏青年ユニオン書記長) 勝間和代(経済評論家) 清水康之(NPO法人「自殺対策支援センター ライフリンク」代表) 城繁幸(Joe's Labo代表取締役、作家) 高橋亮平(NPO法人「Rights」副代
クラスタリングツールbayonとOpenCVを使って、画像からbag-of-keypointsを特徴量として抽出する手順について書きたいと思います。bag-of-keypointsは自然言語処理でよく使用されるbag-of-words(文章を単語の集合で表現したもの)と同じようなもので、画像中の局所的な特徴量(keypoint)の集合で画像の特徴を表します。bag-of-wordsと同じ形式ですので言語処理と同じように、bag-of-keypointsデータを使ってクラスタリングツールに適用したり、転置インデックスに載せたりといったことが可能になります。 今回は画像からbag-of-keypointsを取り出し、そのデータを使ってbayonで画像集合をクラスタリングするところまでやってみます。ちなみに画像処理は完全に素人で、この記事もニワカ知識で書いているので、間違っている箇所やもっと効率
ロジスティック回帰(logistic regression)の学習が,確率的勾配降下法(SGD: stochastic gradient descent)を使って,非常に簡単に書けることを示すPythonコード.コメントや空行を除けば十数行です. リストの内包表記,条件演算子(Cで言う三項演算子),自動的に初期化してくれる辞書型(collections.defaultdict)は,Python以外ではあまり見ないかも知れません. リストの内包表記は,Haskell, OCaml, C#にもあるようなので,結構メジャーかも知れません. [W[x] for x in X] と書くと,「Xに含まれるすべてのxに対し,それぞれW[x]を計算した結果をリストにしたもの」という意味になります.sum関数はリストの値の和を返すので,変数aにはXとWの内積が計算されます. Pythonでは,三項演算子を条
私が昔所属していたNaCTeMで公開している,略語辞書サービスAcromineをひっそりと更新しました.以前のバージョンからの変更点は,以下の通りです. 2009年版Medlineのアブストラクトで略語抽出をやり直した 略語の完全形のクラスタリング方法を改良した 略語の完全形の異表記を表示できるインタフェースにするため,辞書検索結果の表示を表形式からツリービューに変更した 辞書引きサービスのAPIを,SOAPからREST/JSONに変更した 単に辞書の中身を新しくするだけではつまらないので,ツリービューをウェブブラウザ上で実装するときに,YUI Libraryを初めて使ってみました.ノード・ラベルの遅延ロードを行うツリービューが簡単に実装できて,便利ですね. 辞書引きサービスのAPIを使うには,登録手続きが必要になるようです(残念ながら私のコントロール範囲外).アカデミックな人たちは問題無
先週まで論文執筆モードだったので,ご報告が遅れましたが,娘の名前は心優(みゆ)にしました.この名前を聞いて「当て字っぽくて読めねー」と感じるか,「ありがちな名前」と感じるかで,最近の子供の名前に対する精通度が分かります.人気の名前はあまり付けたくなかったのですが,2009年の名前のランキングに普通に出てきます.文字通り「心優しい」ですが,「優」を漢語林で引くと,「上品で美しい」「みやびやか」「おだやか」「しとやか」「情深い」「のびやか」「ゆるやか」など,女の子にはうってつけの多義が並べられています. 名前を決めるのは本当に大変でした.考えれば考えるほど,自分の探索空間が足りているのか不安になりました.結局は,コンピュータが生成した6,084個(読みで数えた数)の名前の候補から,私と嫁で一つ一つチェックしながら結論を出しました. 名前の候補を生成する流れは,次の通りです. 名前辞典などを見な
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く