指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。 圧縮新聞 このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。 生成例 しょうゆ・みそ業界大手のNOVA(大阪市)が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが21日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに6者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。 しくみ こういった人工無脳みたいな文章生成をするには形態素解析と
gooとNTT研究所のコラボレーションによる次世代の検索システムの実験の場それがgooラボです。NTT研究所で開発された新技術を活用し、先進的なインターネットサービスの可能性を提示します。BLOGRANGER TGとは BLOGRANGER TGは、世の中のブログから作られた仮想大陸の上をマウスを使って移動することにより、仮想大陸上の場所に応じてジャンルが絞られたブログ記事を次々と閲覧することのできる新しいブログ検索サービスです。仮想大陸の画像をマウスでスクロールすれば、もう気分は探検家!ぜひあちこちを探検してあなたの興味に合ったブログ記事を見つけてくださいね。 BLOGRANGERに関する最新情報は、BLOGRANGER TGスタッフブログをご参照ください。 使い方 初期状態では、以下のような画面が表示されます。 画面上部には、キーワードによる検索を行うための入力ボックスと「探検」ボタ
キーウォーカーは10月18日、ブログに書かれた文章の意味を解析し、ブロガーの属性をグラフなどで表示するブログ解析エンジン「BlogSphere」のアルファ版を公開した。 キーウォーカーは人工知能の技術を応用して自社で開発した「日本語自然文意味検索エンジン」を採用した ブログ検索サイト「KEYWALKERブログ検索」を2006年3月に公開している。 今回発表したBlogSphereは、同社のブログ検索の技術開発をさらに進めたものだ。従来のKEYWALKERブログ検索では、キーワードを入力して検索すると、その検索キーワードを含んだブログ記事が一覧表示されるだけだったが、BlogSphereではそれに加えて、検索キーワードを含むブログを書いたブロガーの属性情報を分析し、グラフなどでビジュアル化して表示する。 BlogSphereアルファ版では、約3000万ページのブログ記事から、ブロガーの男女比
1.専門用語(キーワード)自動抽出システムとは? 当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。 専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。 自作の文章からキーワードを抽出したい! メタデータ作成のためにウェッブサイト
Google Suggestのようなものを高速に実現するサーバsuggestedというものを書いてみた。 が、しばらく放置していた。とりあえず公開してみる。 特徴 epollやkqueueを使っていてネットワーク部分が速い Sennaを使っていてSuggest部分が速い Sennaを使って正規化している。「トン」とか「ミリバール」(組み文字)とか「Wiki」(全角)とかでも検索可能 置き場 CodeResosに置いてあります。 http://svn.coderepos.org/share/lang/c/suggested/trunk 一応、2008/01/17バージョンの全ソースコードを貼っておこう。 #include <sys/types.h> #include <sys/time.h> #include <stdlib.h> #include <err.h> #include <sys
CEEK.JP NEWS の2009年1月から2011年12月の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。 ナイーブベイズ(Naive Bayes)分類法を用いており、概ね80%の精度で分類できます。 コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月) http://labs.ceek.jp/classify/cm.pdf 表の縦(グラフ)は、推定分野。表の横は、正解分野。 参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料) Tackling the Poor Assumptions of Naive Bayes Text Classifiers
このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです! このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。 次のいずれかで専門用語(キーワード)を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定 文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定 入力ボックス下のチェックボックスから和文、英文を選択。 専門用語(キーワード)抽出ボタンをクリック しばらくすると専門用語(キーワード)が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く