タグ

自然言語処理に関するglcsのブックマーク (60)

  • 展望台システム

    展望台システム(Panoramic View System) 重要文抽出により、文章要約を行います。 指示的要約と、報知的要約のいずれかを選択して実行することができます。 <動作条件> 日形態素解析器 ChaSenがインストールされていること。 また、実行プログラムの生成にはCコンパイラが必要です。 <ダウンロード> インストールされているChaSenと同じ文字コードのものをダウンロードしてください。 panoeuc.tar.gz(EUCコード) panosjis.tar.gz(SJISコード) コードの違いは、ソースコード内のコメント部分、設定ファイルspeech、サンプルテキストurashima、README内の日語、およびバックスラッシュ記号です。 <更新履歴> 2007/4/5 jread.h:キーワード候補のない文を結合する際の、文の長さのカウントミスを修正 20

  • Rerank.jp

    検索結果中のキーワードを選択し または をクリックすることにより、検索結果を並び変えることができます。 操作方法 検索を実行すると、通常の検索結果に加えて、右側の枠内に検索結果内から抽出されたキーワード群が表示されます。 検索結果のタイトルや要約文、URLの中から好きなキーワードを選択(反転)するか、 右枠内に表示されているキーワードをクリックするととというボタンが現れます。 をクリックすると、そのキーワードを含む検索結果を上位に再ランキングします。 をクリックすると、そのキーワードを含む検索結果を下位に再ランキングします。 以上の操作で、手軽に検索結果を並び変えて閲覧することができます。

  • 危険なコンテンツを自動的に検出する : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 犯罪を事前に予知するの続きです。 というわけで作りました。 alarming description 今はブログエントリしか見ていません......原理的には、どんなコンテンツにたいしても(※wwwに限らず)適応できます。 当は、当に危険なコンテンツはこんな表層には出てこないでしょう。 何度も主張しているように、webダークマターを見なければいけないのです。 ネット上の「犯行予告」を止める一番の近道は 秋葉原事件の容疑者は携帯向けのマイナーな掲示板サイトを利用していた。あらゆる予告に対応するためには、ネット上のあ

    危険なコンテンツを自動的に検出する : 研究開発
  • 犯罪を事前に予知する研究 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 東京大学大学院情報理工学系研究科電子情報学専攻 A教授 の話 「君ら知ってる?犯行予告を検出する政府のプロジェクト あれの話が来るかもしれないんだよね。 だいたいどこの先生もやりたがらないから回ってくるのよ。 あんなの原理的に出来るわけないじゃん。 不可能だよ。 でも"できません"とか言えないから..         」 マイノリティ・リポート 総務省が犯行予告自動収集システムの開発を企画……が、0円で作っちゃった人が登場 スラッシュドット ジャパンのコメントの通りですが「深い技術」を使ったアプローチもなくはないです

    犯罪を事前に予知する研究 : 研究開発
  • alarming description 違法 犯罪情報 検知

    127 | 126 | 125 | 124 | 123 | 122 | 121 | 120 | 119 | 118 | 117 | 116 | 115 | 114 | 113 | 112 | 111 | 110 | 109 | 108 | 107 | 106 | 105 | 104 | 103 | 102 | 101 | 100 | 99 | 98 | 97 | 96 | 95 | 94 | 93 | 92 | 91 | 90 | 89 | 88 | 87 | 86 | 85 | 84 | 83 | 82 | 81 | 80 | 79 | 78 | 77 | 76 | 75 | 74 | 73 | 72 | 71 | 70 | 69 | 68 | 67 | 66 | 65 | 64 | 63 | 62 | 61 | 60 | 59 | 58 | 57 | 56 | 55 | 54 | 53

    glcs
    glcs 2008/11/08
    真面目な予告.in.基本的に精神が病んでいる人の文章と小学生のような罵倒(これも前者の一種か)が大目.ガチの犯行予告なんてそんなにたくさんあるもんじゃないのかな.
  • 独立行政法人 国立国語研究所:日本語話し言葉コーパス

    『日語話し言葉コーパス』第2刷の受付を開始しました(更新:2008.05.02) 報告書『日語話し言葉コーパスの構築法』がダウンロードできるようになりました。(更新:2008.03.24)

  • ”レンコン”は拳銃 総務省が犯罪検知ソフト開発へ - MSN産経ニュース

    総務省がネット上の殺人予告や、隠語を使った拳銃取引など犯罪の情報を検知し、サイト運営企業へ自動的に知らせる新しいソフトウエアの開発に乗り出すことが20日、分かった。サイト運営企業はネット上の有害情報対策を強化しているものの、監視人員の確保が困難な上、通常の検知ソフトでは、隠語のような特殊言語への対応は困難という。開発は平成21年度から3年程度かけて取り組み、総事業費は十数億円規模を想定している。 開発するソフトは通常の言葉だけでなく、「レンコン=拳銃」など、一般の閲覧者に内容を知られないように使用されている隠語などもデータベース化して盛り込む。また、「自然言語技術」と呼ばれる手法を使い、文章全体の構成から犯罪との関連性を推測する機能も備える。サイト上の情報を犯罪性有りと判断すれば、運営企業へ自動的に知らせ、サイト運営企業は内容を確認した上でその情報を削除する。 総務省は平成21年度予算で、

  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • 発想支援ナビ

    発想支援ナビは、 入力した単語となにかしらの関連のある単語(関連ワード)と、 それらの関連度、利用例を一気にブラウズできるサイトです。 関連ワードは、「類語」「シソーラス」などと比べると、 語同士のつながりが非常に緩い・弱いものが多いため、 ブレインストーミング(一人ブレスト)、アイデア出し、企画会議などの、 思考の飛躍を必要とする場面での発想支援に非常に有用です。

  • カミナギ/ハヅキ - 人工無能 - うさだBlog / ls@usada's Workshop

    # およそ1時間に1回程度喋ります。内容は各サービスごとにバラバラです。いくつかのモデルはReplyを送ると反応します。 形態素解析エンジンはMecabを使用。開発言語はPHP。データベースはMySQL。 - カミナギ(神無) / Kaminagi 01 http://h.hatena.ne.jp/kaminagi/ http://twitter.com/kaminagi/ http://wassr.jp/user/kaminagi カオス担当。 - ハヅキ(葉月)/ Hadzuki 02 http://h.hatena.ne.jp/ha_dzu_ki/ http://twitter.com/hadzuki/ http://wassr.jp/user/hadzuki 実務担当。 - Undecimber 13 http://h.hatena.ne.jp/undecimber/ メンヘル担当

  • 自然言語処理技術講習会2008 - コーパスいぢり

    今年もあるみたいです。毎年行きたいと思うのだけれど、一度も行ったことがない。。。 以下、コピペですみません。 ----------(ここから引用)---------- Webなどの電子情報の大規模化に伴って、その解析や検索を行うための自然言 語処理技術はますます重要になっています。 コースは、自然言語処理の概要の把握に加えて、比較的標準化された技術・ ツールの修得、及びそのための背景知識・基的概念の理解を主眼としていま す。分野において活発な研究活動を行っている(特に当該ソフトウェアを設 計・開発した)講師陣が講義・実習指導を担当します。自然言語処理の研究を 始めようとされる方、自然言語処理を用いてアプリケーションを開発予定の方、 また言語資料の作成・検索に言語処理ツールの利用を考えておられる方には、 貴重な機会になると思います。 日時: 平成20年9月8日(月)〜10日(水) 場所

  • アマゾンのレビューを要約してくれるFirefoxのアドオン『PLURIBO』 | 100SHIKI.COM

    アマゾンのレビューは便利だが、ときにその数が多すぎて読む気がなくなるときがある(ごくたまに、だが)。 そんなときに便利そうなのがPLURIBOだ。 このツール、Firefox専用のアドオンだが、なんとアマゾンのレビューをざっくり要約して表示してくれるというものだ(現在は英文のみ対応)。 独自のアルゴリズムで全てのレビューを解析し、「これは良い製品だが、ひっかき傷がつきやすい。デザインはいい」といった具合の結果を返してくれる。 しかも要約文の中に現れるキーワードにマウスを持っていくとさらに詳しいデータ(グラフやら)も提示してくれる。 要約の精度に若干の疑問がないわけではないが、あまり時間がない人には悪くないかもしれないですな。

    アマゾンのレビューを要約してくれるFirefoxのアドオン『PLURIBO』 | 100SHIKI.COM
    glcs
    glcs 2008/07/11
    [?]日本語には対応しないだろうな
  • マイクロソフト、自然言語検索のPowerset買収を正式発表

    最初はうわさに過ぎなかったのだが、その後に事実確認はなされていないニュースとして流れ、そしてついに正式な取引成立が発表された。Microsoftは、Powersetを買収する。 Microsoftは米国時間7月1日、Live Searchの公式ブログ上で、買収を正式に発表した。 Microsoftは、同ブログへの投稿で「サンフランシスコに社がある、セマンティック(自然言語)検索を専門とするPowersetの買収に関して、正式な合意に至った発表が行えることを非常に喜ばしく思う」と述べている。Powersetの従業員は、Microsoftのコア検索関連チームに加わり、引き続きサンフランシスコを拠点とする。Microsoftは、Powersetのテクノロジが、Microsoftの研究部門内で進められている、既存の自然言語処理プロセスの開発事業を補うものとなることを明らかにした。 買収に関する(

    マイクロソフト、自然言語検索のPowerset買収を正式発表
  • 日本語形態素解析 - Japanese Morphological Analyzer

    Visited: 5294 アルゴリズムによる日形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

  • ヤフー、日本語入力API「かな漢字変換API」を公開 | ネット | マイコミジャーナル

    ヤフーは27日、Yahoo!デベロッパーネットワークを通じて日本語入力プログラム「VJE」のWeb API「かな漢字変換API」を公開した。同APIでは、かな漢字変換/推測変換/辞書指定などの機能を利用できる。 かな漢字変換APIは、ローマ字/かな入力、文節の区切り変更、推測変換といった機能を備えるほか、人名/地名/顔文字/郵便番号辞書の指定利用が可能。基辞書は月1回更新される。同社は同APIの利用によって、「日本語入力環境を持たない海外仕様のパソコンなどの機器向けのWEBサービス」「郵便番号から住所への変換、入力文字から顔文字への変換を利用したWEBサービス」などの構築が可能になるとしている。 Yahoo!デベロッパーネットワークではこのほかにもテキスト関連Web APIを公開。校正支援Webサービス形態素解析Webサービスなどのテキスト解析Webサービスも利用することができる。

    glcs
    glcs 2008/05/27
    最近Yahoo!がこの分野頑張ってるなあ
  • asahi.com:コピペしたリポート、ばれちゃうぞ 検出ソフト開発 - 暮らし

  • blogeye.jp : ブログを通して社会をのぞく

    「新しいサラリーマン金太郎最悪」 「金太郎・・・」 「【サラリーマンなめんじゃねぇ!】」 「「サラリーマン金太郎」」 「金太郎」 「夜中のTV。」 「サラリーマン金太郎」 「サラリーマン金太郎。」 「サラリーマン金太郎(1)」 「どうもー」 「サラリーマン金太郎 1話」 「初聞き♪」 「なんか(笑)」 「サラリーマンをなめんじゃねぇ。」 「永井金太郎」 「思ったよりも」 「シシカバブー」

  • 自然言語処理の学会 - DO++

    プログラミング言語の学会に触発された作った。私視点で書いたので、間違ってたりしたら突っ込んでください。 自然言語処理は、情報検索、ウェブ、機械学習とかとの境界領域だったりするのですが、そういうのは除いてます。 大体の学会情報はACL wiki 論文はACL anthology から得られると思います ACL The Association for Computational Linguistics ACL2008 自然言語処理の一番でかい会議。理論からアプリケーションまで何でも集まるが、強いて言えば 機械翻訳、構文解析が多い。いろいろなワークショップ(10ぐらい)も併設される。 EMNLP Conference on Empirical Methods in Natural Language Processing EMNLP2008 言語情報から統計的な情報を取り出して機械学習を使って自然

    自然言語処理の学会 - DO++
  • Googleはダジャレも“ロボット検索”していた

    エイプリルフールをまたいだ先週のアクセス1位は、各社のエイプリルフールネタに関する記事。今年は日Googleが、検索結果の一部にダジャレが表示される――というネタで初参戦した。 「ガンダム」で検索すると「ひれ伏してオガンダム」、「ショッピング」なら「そんなわけないデショッピング」、「国内線」だと「面白いけどシツコクナイセン」などなど、定番とはひと味違うダジャレを表示していたダジャレサーチ。人手は一切介在させず、機械的にダジャレを“生成”していたようだ。 その仕組みを解説したGoogle Japan Blogのエントリーによると、生成には3つの技術を活用していたという。世界中のWeb上のドキュメントから面白みのある文章を見つけてくる「OyajiBot」、その文章と検索キーワードと無理矢理つなげてダジャレ候補を作成する「BakaUke」、候補から最もくだらないダジャレを見つけ出す「Kuda

    Googleはダジャレも“ロボット検索”していた
  • https://jp.techcrunch.com/2008/04/06/20080405powerset-will-launch-in-coming-weeks/

    https://jp.techcrunch.com/2008/04/06/20080405powerset-will-launch-in-coming-weeks/