1. 第2回さくさくテキストマイニング勉強会 WordNetで作ろう! 言語横断検索サービス Shintaro TAKEMURA d.hatena.ne.jp/taos twitter.com/stakemura facebook.com/shintaro.takemura 2. 背景 • 社内Google Codeみたいなものを想定してください – 登録されるプログラムが増え続けるとどうなる? → 欲しいものがすぐに見つからない状態に – 生産性を上げるためにより賢いアプローチが必要! 機能がたくさん あるけど、何を 使えばいいか わからない… 3. そこで提案 • 検索性能の強化(バイリンガルの如く) – 日英表記揺れを解決 • 例:“vertex”と”頂点” – 語義あいまい性も解決 • 例:”divide”と”separate” • 推薦機能の搭載(貴方に合った結果を) – 操作履
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
wn.py ����"V #!/usr/bin/env python2.6 # encoding: utf-8 import sys import sqlite3 from collections import namedtuple conn = sqlite3.connect("wnjpn-0.9.db") Word = namedtuple('Word', 'wordid lang lemma pron pos') def getWords(lemma): cur = conn.execute("select * from word where lemma=?", (lemma,)) return [Word(*row) for row in cur] def getWord(wordid): cur = conn.execute("select * from word where w
こういうことがしたい。 変換前: ヨーグルト を 食べる。 変換後: 乳製品 を 食べる。 こんな感じに言葉を抽象的にしたい。 WordNetを使えば簡単にできる。hypernym(上位語)をたどればそれだけでOK。 そして、日本語WordNetを使うのは以下のコードを使うとすごく楽。すごい。 http://subtech.g.hatena.ne.jp/y_yanbe/20090314/p2 やってることは、 lemma(見出し語) => word(単語) => sense(意味?) => synset(同義語)とたどって、 synsetのリンクから hype(上位語) => word(単語) と順番にたどっています。 このあたりのモデルは以下のページの図が分かりやすい。 http://w-it.jp/shima/2009/03/wordnet_java_api.html import w
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く