タグ

ブックマーク / komachi.hatenablog.com (3)

  • べた書きかな文の分かち書き再考 - 武蔵野日記

    最近仕事の行き帰り、片道自転車が40分あるので、研究というかなんというかいろいろ頭の体操をしながら自転車を漕いでいるのだが、今日は @sassano さんに教えてもらって文節をどう区切るかを再読する。いや、N文節最長一致法というヒューリスティックがどういうものだったか(アルゴリズム的にはなにをしていることに相当するのか)考え始めてしまって、なんなんだろうなぁ、と思って……。(もしかしてこのヒューリスティックを統計的な手法で説明できたらおもしろそうだな、と考えたのが事の発端) 基文献としては以下の3点。いずれも(かな漢字交じり文ではなく)かなだけからなる入力をいかに分かち書きするか、という問題に取り組んでいる。前読んだ気がするのだがすっかり忘れていた。かな漢字交じり文であれば漢字からひらがなやカタカナになったり、数字になったりするという、字種の切れ目の情報が使えるのだが、べた書きかな文は字

    べた書きかな文の分かち書き再考 - 武蔵野日記
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • Google サジェストのローマ字検索機能 = Google IME - 武蔵野日記

    Google サジェストがもっと便利にという記事で、検索窓にローマ字で入力しても Google サジェストに変換した候補が出るようになったことを知る。(前からできたような気もするが……Google サジェストではなかったかも) それでこの記事に関するはてなブックマークのコメントを見ていて、これ migemo の発展版と見ている人が大勢いるのかぁ、とはっとする。自分的にはかな漢字変換の発展版だと思っていたのだが……(ローマ字→かな漢字変換してくれて検索する、という意味で。多言語情報検索の単言語版と見てもよいかも)。以下、実際どういう技術でやっているのかは推測にすぎないが、Migemo との比較で考察してみる。 Migemo としては 仕組みは簡単です。利用者が 1文字入力するたびに、ローマ字列か ら正規表現を生成して、それで検索するという力技な方法です。 ということで、たぶんクエリに対する検

    Google サジェストのローマ字検索機能 = Google IME - 武蔵野日記
  • 1