タグ

自然言語処理に関するsasamistreetのブックマーク (4)

  • 生きあたりまったりブログ

    休学中の過ごし方…うつ状態で何してた?就活やバイトは?大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

    生きあたりまったりブログ
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • はてなブックマーク全文検索機能の裏側

    そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

    はてなブックマーク全文検索機能の裏側
  • 日本語形態素解析 - Japanese Morphological Analyzer

    Visited: 5294 アルゴリズムによる日形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

  • 1