タグ

ブックマーク / blog.mwsoft.jp (5)

  • boilerpipeを使ってみる : mwSoft blog

    ■概要 HTMLから文を抽出してSolrに登録する用事があったので、Java文抽出ライブラリを探してみたところ、boilerpipeという子を見つけた。 英語色が強そうだけど、そこそこに精度は出そうに見えたので使ってみた。 ■導入 とりあえずjarをダウンロード http://code.google.com/p/boilerpipe/downloads/list もしくはMavenから http://mvnrepository.com/artifact/de.l3s.boilerpipe/boilerpipe ■文抽出を実行してみる URL url = new URL("http://www.yahoo.co.jp/"); String text = DefaultExtractor.getInstance().getText(url); System.out.println(te

  • MeCabの未知語(unk.def)と戯れた記録 : mwSoft blog

    今年の初めくらいにメモして後でまとめようと思っていた話なんだけど、さっぱりまとめる暇が取れないまま放置されていたので、メモをそのままブログに貼っておく。 MeCab(辞書はNAIST)で遊んでいたら、スクエニが以下のように解析された。 echo スクエニ | mecab スクエニ 感動詞,*,*,*,*,*,* EOS 感動詞になっている。出来れば名詞が良いなぁと思う。 スクエニは未知語として判定されていると思われる。 未知語判定されているかどうかは、-F%Sすれば分かる。 1が出れば未知語、0は辞書にある語。 echo スクエニ魔法 | mecab -F"%m\t%s\n" スクエニ 1 魔法 0 EOS 未知語については「/usr/local/lib/mecab/dic/naist-jdic/unk.def」を見れば分かる。 KATAKANA,1358,1358,3869,名詞,一般,

    yuiseki
    yuiseki 2011/11/03
  • システム開発におけるフリーマンの役割について : mwSoft blog

    という資料を捏造したい気分だったので書いてみた。特に意味はないしオチもない。 フリーマンを置く目的は、以下である。 ・システムの品質向上 ・プロジェクトに潜伏している問題の早期発見 ・メンバーの技術レベルの把握と向上 フリーマンは明確なタスクを持たず、名前の通り、手の空いた状態でプロジェクトに携わるエンジニアである。 システム開発におけるフリーマンが行うべき主な作業は以下である。 ・ソースコードレベルでの問題の発見と指摘 ・テストコードの不足分の拡充 ・仕様が曖昧且つ後日問題となりそうな点の明確化 ・メンバーの技術レベルの把握と作業分担の適正化 フリーマンは直接コードは書かない。その代わり、製造されているすべてのソースコードを把握し、問題があれば指摘を行う。 また、技術レベルに問題があるメンバーがいる場合は、指導もしくは適切な作業の割り当てを提案する。 フリーマンの存在が効果を発揮するのは

    yuiseki
    yuiseki 2011/09/17
  • 知らなかったらNGなWEBアプリケーション脆弱性一覧 : mwSoft blog

    先日、AmebaなうがCSRFという非常にポピュラーな脆弱性を披露したかと思ったら、ここ数日はセブンネットショッピングでXSSの脆弱性と、ID推測による他ユーザの個人情報閲覧の問題が発生しているという噂が流れています。 ユーザの情報を預かっておきながら、基的なセキュリティの対策もできていないというのは、銀行に例えるなら、お金を預けようとした時に「お金は預かります。ちゃんと保管します。でも警備はあまりしないので盗まれたらスイマセン」と言われるようなものだと思う。 警備に穴があったというのではなく、まともに警備してませんでした、というのはさすがにありえないことです。 そこで、野良WEBプログラマである私が知っている脆弱性を列挙してみた。 私はプログラマであってセキュリティの専門家ではないです。しかも今年の春辺りからずっと外向けのWEBプログラムは組んでません。 その人間が知っているものを並べ

  • スパムメールから収集したテキスト装飾 : mwSoft blog

    先日、我が家の捨てアドを久々に開いたら、数千件のスパムメールが溜まっていることに気づいた。 オオアリクイみたいなセンスの良いスパムがないかなぁと思って軽く見てみたが、残念ながら良質な内容は見当たらなかった。 ただ、見ていると、テキスト装飾が凝ったものが多くて感心した。 仕事でも情報をテキストで残すことがあるけど、そんな時にちょっと見やすくするのに使えるのではないかと思って収集してみた。 ============================================================ ************************************************************ ============================== ----------------------------------------------------

    yuiseki
    yuiseki 2009/09/27
  • 1