タグ

2011年11月19日のブックマーク (2件)

  • Billions Lost by Olympus May Be Tied to Criminals (Published 2011)

    An advertisement for Olympus in Tokyo. Japanese officials said at least $4.9 billion in Olympus funds were missing.Credit...Tomohiro Ohsumi/Bloomberg News Editors’ Note, Aug. 3, 2021: This article, relying on statements made in a police memo, includes errors. It refers incorrectly to payments being probed by Japanese police. While some of the payments identified in the police memo were made by Nob

    Billions Lost by Olympus May Be Tied to Criminals (Published 2011)
  • 検索エンジンの常識をApache Solrで身につける

    検索エンジンの常識をApache Solrで身につける:ビッグデータ処理の常識をJavaで身につける(1)(2/4 ページ) 【2】言語同定器 検索エンジンで複数の言語からなる文書集合のインデックスを生成する際、入力文書の記述言語によって処理が異なることがあります。 例えば、日語文書では単語の区切りがないため、トークナイザが文中に含まれる単語を確率的に推定して単語を切り出してあげる必要があります。一方で、英語の文は単語の区切りが自明であるため、トークナイザが行う処理はほとんどありません。このように、入力文書の記述言語が複数存在する状況では、入力文書の記述言語によって利用するトークナイザなどのコンポーネントを変更する必要があります。 上記のように入力言語によって処理内容を変えるためには、そもそも入力クエリや文書が、どの言語で記述されているのかを同定する必要があります。「言語同定器」というコ

    検索エンジンの常識をApache Solrで身につける