タグ

日本語処理に関するokanesanのブックマーク (18)

  • 「成分解析」研究室

    「成分解析」のロジックに関して ビットシフト処理 並び替え処理 文字コードの扱いなど 「難読化」したい人向け 更新履歴 ――最終更新日: 2006年6月19日 成分解析の実装例 2006年6月19日現在、当方で把握している実装です。(敬称略、順不同) 解析結果に互換性があるもの オリジナル版(v0.1)と、全く同じ構成比を出力するもの。家オリジナルも、ここにおいてあります。 なお、v0.1a以降で追加された機能等が実装されていない物も、ここに分類しています。 作者 作品名 実装言語 プラットフォーム 備考

  • 情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

    昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は研究寄りですが,少しでも誰かの役に立てば幸いです. 僕は網羅的にサーベイを,キーワード検索以外に主に二つの方法で行っています. 会議毎にサーベイ 研究者毎にサーベイ 1.はさておき,2.ですが,僕は研究者のDBLPをチェックしています.気になる論文の著者のDBLPを眺めると,知らなかった要チェックや!論文を拾うことができます. なので,一線で活躍する研究者の論文は定期的にチェックする必要があります. 今回はIR研究者の中でも,戦闘力が高く,この人は常にウォッチせねばという研究者の一部を紹介したいと思います. 下記は若輩の独断と偏見に基づくものです.一線で活

    情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ
  • Google IMEという可能性 - nokunoの日記

    先日リリースしたSocial IMEの新しい予測変換エンジンについて書いてみたいと思います。 新変換エンジンは、Googleが提供しているデータを使って開発されました。このデータ形式はNグラムと呼ばれていて、例えば3グラムなら、次のように3つの単語と、それがWeb上に連続して現れた回数(頻度)が記録されています。 単語1単語2単語3頻度今日の天気357935ソフトウェア開発を37191GoogleのNグラムは、抽出元のWeb上の文章が200億文で、解凍後のサイズが100GB以上という大規模な統計データです。最大で7グラム、つまり単語7つの組み合わせで、頻度が20以上のものを全て記録しているので、このように大規模になります。 かな漢字変換における同音異義語の選択、予測変換における入力予測などは、変換結果を一意に決めることができないという点で質的に問題を抱えています。このような曖昧性の問題に

  • cicindela2 - Google Code

    Code Archive Skip to content Google About Google Privacy Terms

    okanesan
    okanesan 2008/12/27
    レコメンデーションエンジン
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

  • 形態素解析の基礎

    形態素解析の基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report  No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり,自然言語処理の最も基となる処理である.報告では,形態素解析に必要な技術形態素解析ツールについて述べる. 1  はじめに 近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日語においては, 文章を単語に分

  • [B! 形態素解析] torutoのブックマーク

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

    okanesan
    okanesan 2008/07/23
    形態素解析
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    okanesan
    okanesan 2008/07/21
    形態素解析ライブラリ
  • textsearch-ja: Project Home Page

    形態素解析を使用した、組み込み型の日語全文検索です。 この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 日語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、 英語文書の検索と同様の方法で、日語文書を検索することができます。 検索は形態素解析を利用した単語単位で行われます。 形態素解析には MeCab を使用しています。 利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。 また、既に tsea

    okanesan
    okanesan 2008/07/21
    postgresql内の全文検索プロジェクト
  • さくらレンタルサーバへのMeCabインストール - jitsu102's blog

    FreeBSDなさくらレンタルサーバへのMeCabインストールメモ。 UTF-8な環境です。 $HOME/usr以下にインストールしました。 1. MeCabのインストール %gzip -dc mecab-0.97.tar.gz | tar xvf - %cd mecab-0.97 %./configure --prefix=$HOME/usr --exec-prefix=$HOME/usr --enable-utf8-only %make %make check ================== All 3 tests passed ================== %make install .././install-sh: Permission denied *** Error code 126install-shの実行でエラーになっています。 パーミッションが644になって

    さくらレンタルサーバへのMeCabインストール - jitsu102's blog
    okanesan
    okanesan 2008/07/19
    さくらへMeCabをインストール
  • Pythonでのキーワード抽出実装

    初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの文をテキストフ

  • 【コラム】Yet Another 仕事のツール (45) 日本語形態素解析ツール「ChaSen」 | エンタープライズ | マイコミジャーナル

    ITの世界は理系の人間が幅をきかせていると思われがちだが、システムインテグレーションの現場では、意外と文系的な素養が求められることも多い…… などという無理なこじつけはさておき、今回は「日語」を扱う上で欠かせないツールを紹介しよう。 以前、「MUSASHI」というオープンソースのツールを使って「データマイニング」の基的な手法を紹介したことがあったが、データはなにもデータベースやXMLとして整理されたものばかりではない。むしろ日語なら日語という自然言語で記述されたデータの方が、量的には圧倒的に多いはずだ。例えば、顧客や同僚と毎日のようにやりとりしているメールなどは、データとしてみれば宝の山だし、実際昔のメールを消せずにずっと残しているという人も多いだろう。ただ、日々増え続けていくメールを溜まるがままにしておいても、せいぜいメールソフトの検索機能を使って備忘録にするぐらいしか有効な使い

  • [B! 日本語解析] bwhrのブックマーク

    オラクルが「Oracle Secure Enterprise Search」を,グーグルが「Google検索アプライアンス」を,住友電工情報システムが「QuickSolution」を提供するなど,製品の動きは活発である。 メーカーの動きが活発化しているのは,検索エンジンに対する企業のニーズが再燃しているからだ。以前は「社内のナレッジを生かしたい」など漠然とした理由で検索エンジンを導入する事例も多かったが,最近では「RDB内の顧客マスターと,グループウエア内の顧客サポート情報,ファイル・サーバー上の営業日誌をくし刺しにして検索し,顧客管理システムに統合したいなど,業務上の明確な意図に基づいて導入されている」(ジャストシステム システム営業推進グループ 商品企画・推進 三谷安世氏)。 [知る]構成要素は三つ,言語解析の方法に特性あり ここで採り上げる検索エンジンは,次の3要素で構成される(

  • Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • http://neta.ywcafe.net/000669.html

  • http://itpro.nikkeibp.co.jp/err/notlogin.jsp?URL=http%3A%2F%2Fitpro.nikkeibp.co.jp%2Fmembers%2Fbn%2Fmokuji.jsp%3FOFFSET%3D0%26MAXCNT%3D20%26TOP_ID%3D287457%26ST%3Dsaas

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 1