[B! 日本語処理] okanesanのブックマーク

「成分解析」研究室

「成分解析」のロジックに関してビットシフト処理並び替え処理文字コードの扱いなど「難読化」したい人向け更新履歴 ――最終更新日: 2006年6月19日成分解析の実装例 2006年6月19日現在、当方で把握している実装です。(敬称略、順不同) 解析結果に互換性があるものオリジナル版(v0.1)と、全く同じ構成比を出力するもの。本家オリジナルも、ここにおいてあります。なお、v0.1a以降で追加された機能等が実装されていない物も、ここに分類しています。作者作品名実装言語プラットフォーム備考

okanesan 2010/03/03

リンク

情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

昨年書いた教科書編が（僕にとっては）嬉しくて跳ね上がるほどブックマークされたので，調子に乗って第二弾を書いてみました．皆様ありがとうございます（ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです）．今回は研究寄りですが，少しでも誰かの役に立てば幸いです．僕は網羅的にサーベイを，キーワード検索以外に主に二つの方法で行っています．会議毎にサーベイ研究者毎にサーベイ 1.はさておき，2.ですが，僕は研究者のDBLPをチェックしています．気になる論文の著者のDBLPを眺めると，知らなかった要チェックや！論文を拾うことができます．なので，一線で活躍する研究者の論文は定期的にチェックする必要があります．今回はIR研究者の中でも，戦闘力が高く，この人は常にウォッチせねばという研究者の一部を紹介したいと思います．下記は若輩の独断と偏見に基づくものです．一線で活

okanesan 2009/02/14

リンク

Google IMEという可能性 - nokunoの日記

先日リリースしたSocial IMEの新しい予測変換エンジンについて書いてみたいと思います。新変換エンジンは、Googleが提供しているデータを使って開発されました。このデータ形式はNグラムと呼ばれていて、例えば3グラムなら、次のように3つの単語と、それがWeb上に連続して現れた回数（頻度）が記録されています。　単語１単語2単語3頻度今日の天気357935ソフトウェア開発を37191GoogleのNグラムは、抽出元のWeb上の文章が200億文で、解凍後のサイズが100GB以上という大規模な統計データです。最大で7グラム、つまり単語7つの組み合わせで、頻度が20以上のものを全て記録しているので、このように大規模になります。かな漢字変換における同音異義語の選択、予測変換における入力予測などは、変換結果を一意に決めることができないという点で本質的に問題を抱えています。このような曖昧性の問題に

okanesan 2009/01/10

日本語処理

リンク

cicindela2 - Google Code

Code Archive Skip to content Google About Google Privacy Terms

okanesan 2008/12/27

レコメンデーションエンジン

リンク

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

okanesan 2008/10/31

リンク

形態素解析の基礎

形態素解析の基礎大西祥代，廣安知之，三木光範 ISDL Report　 No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり，自然言語処理の最も基本となる処理である．本報告では，形態素解析に必要な技術や形態素解析ツールについて述べる． 1 はじめに近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日本語においては, 文章を単語に分

okanesan 2008/07/23

日本語処理

リンク

[B! 形態素解析] torutoのブックマーク

はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。

okanesan 2008/07/23

形態素解析

日本語処理

リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

okanesan 2008/07/21

形態素解析ライブラリ

日本語処理

リンク

textsearch-ja: Project Home Page

形態素解析を使用した、組み込み型の日本語全文検索です。この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。バグレポートメーリングリストへの参加概要日本語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、英語文書の検索と同様の方法で、日本語文書を検索することができます。検索は形態素解析を利用した単語単位で行われます。形態素解析には MeCab を使用しています。利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。また、既に tsea

okanesan 2008/07/21

postgresql内の全文検索プロジェクト

日本語処理

リンク

さくらレンタルサーバへのMeCabインストール - jitsu102's blog

FreeBSDなさくらレンタルサーバへのMeCabインストールメモ。 UTF-8な環境です。 $HOME/usr以下にインストールしました。 1. MeCabのインストール %gzip -dc mecab-0.97.tar.gz | tar xvf - %cd mecab-0.97 %./configure --prefix=$HOME/usr --exec-prefix=$HOME/usr --enable-utf8-only %make %make check ================== All 3 tests passed ================== %make install .././install-sh: Permission denied *** Error code 126install-shの実行でエラーになっています。パーミッションが644になって

okanesan 2008/07/19

さくらへMeCabをインストール

日本語処理

リンク

Pythonでのキーワード抽出実装

初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ

okanesan 2008/07/19

日本語処理

リンク

【コラム】Yet Another 仕事のツール (45) 日本語形態素解析ツール「ChaSen」 | エンタープライズ | マイコミジャーナル

ITの世界は理系の人間が幅をきかせていると思われがちだが、システムインテグレーションの現場では、意外と文系的な素養が求められることも多い…… などという無理なこじつけはさておき、今回は「日本語」を扱う上で欠かせないツールを紹介しよう。以前、「MUSASHI」というオープンソースのツールを使って「データマイニング」の基本的な手法を紹介したことがあったが、データはなにもデータベースやXMLとして整理されたものばかりではない。むしろ日本語なら日本語という自然言語で記述されたデータの方が、量的には圧倒的に多いはずだ。例えば、顧客や同僚と毎日のようにやりとりしているメールなどは、データとしてみれば宝の山だし、実際昔のメールを消せずにずっと残しているという人も多いだろう。ただ、日々増え続けていくメールを溜まるがままにしておいても、せいぜいメールソフトの検索機能を使って備忘録にするぐらいしか有効な使い

okanesan 2008/07/15

日本語処理

リンク

[B! 日本語解析] bwhrのブックマーク

日本オラクルが「Oracle Secure Enterprise Search」を，グーグルが「Google検索アプライアンス」を，住友電工情報システムが「QuickSolution」を提供するなど，製品の動きは活発である。メーカーの動きが活発化しているのは，検索エンジンに対する企業のニーズが再燃しているからだ。以前は「社内のナレッジを生かしたい」など漠然とした理由で検索エンジンを導入する事例も多かったが，最近では「RDB内の顧客マスターと，グループウエア内の顧客サポート情報，ファイル・サーバー上の営業日誌をくし刺しにして検索し，顧客管理システムに統合したいなど，業務上の明確な意図に基づいて導入されている」（ジャストシステムシステム営業推進グループ商品企画・推進三谷安世氏）。 [知る]構成要素は三つ，言語解析の方法に特性ありここで採り上げる検索エンジンは，次の3要素で構成される（

okanesan 2008/07/14

日本語処理

リンク

Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

okanesan 2008/07/14

日本語処理

リンク

http://neta.ywcafe.net/000669.html

okanesan 2008/07/14

日本語処理

リンク

http://itpro.nikkeibp.co.jp/err/notlogin.jsp?URL=http%3A%2F%2Fitpro.nikkeibp.co.jp%2Fmembers%2Fbn%2Fmokuji.jsp%3FOFFSET%3D0%26MAXCNT%3D20%26TOP_ID%3D287457%26ST%3Dsaas

okanesan 2008/07/14

日本語処理

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

okanesan 2008/07/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

日本語処理に関するokanesanのブックマーク (18)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス