タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

言語とツールに関するuraxのブックマーク (2)

  • MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される

    MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
  • 英語翻訳・学習方法まとめ - 萌え理論Blog

    外国語・英語に関するサービス・ツール、その使用法や語学学習のアドバイスなど、英語習得の際に参考になるサイトを集めました。 辞書・翻訳サービス 辞書.辞典.翻訳.語学検索 英辞郎 on the web(スペースアルク) 訳GO.com クイックな逆引き辞書 POP辞書 単語力(タンゴリキ) 翻訳ブックマークレット ボタン ネットを日語化する:Japanize 窓の杜 - 【NEWS】“英辞郎”の辞書データをマウスオーバー検索できる「Firefox」v2専用拡張機能 Sumibi.org ローマ字を日語に変換できる無料サイト Ajax IME: Web-based Japanese Input Method 語学・学習ツール Podcastでリスニングの練習まとめ @Wiki - トップページ ITmedia Biz.ID:インターネット時代のお手軽英語勉強術――リスニング編 ITmedi

    英語翻訳・学習方法まとめ - 萌え理論Blog
  • 1