タグ

nlpと形態素解析に関するkataringのブックマーク (3)

  • 人物情報検索のトレンドご紹介 part3 テキストマイニング技術について

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Yahoo! JAPAN 研究所の山下達雄です。 今回は「Yahoo!人物名鑑」の一要素である「関連人物モジュール」について技術的な解説をしていきたいと思います。よろしくお願いします。 関連人物モジュールは、人物名鑑のページの右カラムにある「関係ありそうな人物名」で使われています。 例)夫木聡さんの場合 ウェブ上のさまざまなテキストデータを分析して、人物同士の関連度を計算し、その関連度の高い人物をタグクラウド形式で表示しています。 関連度の計算には様々なテキストマイニング的な手法を用いていますが、ここではウェブ検索を利用した簡単で効果的を方法を説明します。 ■処理の流れ 分かりやすくするため、関連人物ではなく関連語を

    人物情報検索のトレンドご紹介 part3 テキストマイニング技術について
  • 教師なし形態素解析 - mots quotidiens.

    LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

  • きまぐれ日記: Mac OS X Leopard に「標準で」インストールされている MeCabを使ってみる

    Mac OS X Leopard の Spotlight に MeCab が使われているらしいという情報を聞いたので、実際に深追いしてみました。 いとも簡単に /usr/lib/libmecab* , /usr/include/mecab.h と /usr/lib/mecab/dic/apple/{ja,tc,sc} というディレクトリを発見しました。ts, sc は traditional/simplified Chinese (繁体字/簡体字) の略で、中国語の辞書だと推察されます。辞書のディレクトリはさらに dic/apple/ja/{LE,BE} という風に、エンディアンごとに分かれています。MeCabの辞書はエンディアン依存なので、こうするしかないのかもしれません。 さて、この辞書を使って、UTF8の文字列を流し込んでみたのですが、うまいこと解析してくれません。MeCabのバイナ

  • 1