タグ

NLPに関するYasSoのブックマーク (143)

  • きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う

    iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 WindowsiTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、 クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮 玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは 使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更は うまく

  • Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

    SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基中の基で,自然言語処理では当たり前のように使われていてもおかしくな

  • gr.jp

    This domain may be for sale!

  • https://jp.techcrunch.com/2010/02/17/20100216google-goggles-getting-ocr-translations/

    https://jp.techcrunch.com/2010/02/17/20100216google-goggles-getting-ocr-translations/
  • 思いどおりの日本語入力 - Google 日本語入力

    日、Google 日本語入力 (ベータ) をリリースしました。 Google 日本語入力Windows (現時点では 32 ビットのみ) および Mac に対応した日本語入力ソフトウェア (インプットメソッド) です。豊富な語彙と強力なサジェスト機能で思いどおりの日本語入力をサポートします。 Google 日本語入力は桁違いの語彙力を持っています。Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます (この辞書および統計的言語モデルの作成は Google の大規模分散処理システム MapReduce を用いて、数千台規模

    思いどおりの日本語入力 - Google 日本語入力
  • luululu

    【背景】 平成13年度に政府が発表した「保健医療分野の情報化にむけてのグランドデザイン」において, 電子カルテシステムの普及が課題の一つとして掲げられて以降, 我が国では急速に電子カルテが普及し,その結果,大量の臨床データが電子化された状態でストックされつつあります. このデータをフル利用できれば,過去に類をみない大規模な統計的な臨床研究が実現可能になり, 大きな期待がよせられています. しかし,カルテ中の一部の情報は自然言語で記述され,カルテデータをフルに利用するためには, 自然言語処理技術が必須となります. 【目的】 このような背景から,プロジェクトではカルテ文章から 臨床情報を抽出/可視化する手法を研究/開発しています. 大量のカルテに含まれる情報を構造化することで, 新たな医療知識の発見、また臨床の現場での活用につながることが期待できます. 【技術】 開発された技術により

    YasSo
    YasSo 2009/11/23
    「カルテ文章から 臨床情報を抽出/可視化する手法を研究/開発」「テキストを表に変換する」
  • p1dlab:ほめられて育つ子のためのネガティブコメントフィルタ

    「ほめられて育つ子のためのネガティブコメントフィルタ」は、なずき感性抽出APIの提供終了に伴い、公開を終了しました。 ご利用ありがとうございました。 [2010.10.28] 「せっかく書いたブログにネガティブなコメントがたくさん付いてヘコんでしまった」なんてことはありませんか? ほめられて育つ子のためのネガティブコメントフィルタ(以下、ネガコメフィルタ)は、株式会社NTTデータによる日語解析エンジン「なずき」のなずき感性抽出APIを使用し、はてなブックマークに登録されたネガティブコメントを見ないで済むようにするためのFirefoxプラグインです。 ネガコメフィルタはGreasemonkeyのユーザースクリプトとして作成されているため、動作させるにはあらかじめFirefoxにGreasemonkeyをインストールしておく必要があります。Greasemonkeyのインストールについては、G

    YasSo
    YasSo 2009/11/16
    やはり時代はKYS (Kuuki Yomeru System) に進んでいってるんだと思うんだ。 #setoseto2009
  • [O] Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文

    Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文 Tweet [日記] なんかあんまり日語の言及が無いですけど、「Opinion mining and sentiment analysis」というサーベイ論文が書籍化されていて、おまけにその内容が無料で閲覧できるようになっています。 - Opinion mining and sentiment analysis (survey) -- http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html Bo Pang and Lillian Lee Foundations and Trends in Information Retrieval 2(1-2), pp. 1–1

  • NECの「翻訳メガネ」、互いに母国語での会話が可能に

    NECが発表した、相手が話す言葉を自動的に自国語に翻訳し映し出す眼鏡型翻訳装置(2009年11月5日撮影)。(c)AFP/Yoshikazu TSUNO 【11月5日 AFP】NECは5日、都内で開いた同社の展示会で、相手が話す言葉を自動的に自国語に翻訳し映し出す眼鏡型翻訳装置を発表した。ブラザー工業が製造したメガネ型網膜走査ディスプレイシステムを利用したユビキタス業務支援システム「テレスカウター(Tele Scouter)」を活用したもので、日語と英語の翻訳に対応している。一般発売は来年の予定。(c)AFP

    NECの「翻訳メガネ」、互いに母国語での会話が可能に
  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

  • 日本語解析エンジン「なずき」 | NTTデータ

    なずき感性抽出APIは、ブログ記事など日語で書かれたテキスト情報に含まれる感性を抽出するAPIです。APIを利用することによって、指定されたテキスト情報内から、「好評」や「苦情」、「要望」といった感性情報を、その表現とともに抽出することが出来ます。また、同時にテキスト情報を形態素に分割し、品詞、読みかなといった情報を取得できる形態素解析や、形態素に分割された単語の係り受け関係情報を取得できる構文解析の機能も提供します。 この度は、多数ご応募いただき、誠に有難うございました。( 応募作品一覧はこちらでご確認頂けます。) なずき感性抽出APIを利用された作品から、最優秀賞を受賞された「SocialCombat V」をはじめ、「UNIQLO NOW」、「Tmeeting(仮)」など、多数受賞作品が選ばれました。その中から、なずきの特長を一番表現出来ているという理由から、NTTDATA賞として

  • はてなブックマーク開発ブログ

    はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク数ランキング」。2024年2月のトップ50です*1。 順位 タイトル 1位 マンションリフォーム虎の巻 2位 死ぬほど嫌でした|佐藤秀峰 3位 「面倒なことはChatGPTにやらせよう」の全プロンプトを実行した配信のリンクを整理しました|カレーちゃん 4位 管理職必読 順番に読むと理解が深まる「マネジメントの名著」11冊 | 日経BOOKプラス 5位 メルカリで値段の「¥マーク」を小さくしたら購入率が伸びた理由、ペイディがサービス名を「カタカナ表記」にする理由など、プロダクトのマーケ施策まとめ30(2023)|アプリマーケティング研究所 6位 7年適当に自炊してきて調味料について思ったことを書く 7位 ウクライナ軍に入隊したアジャイルコーチが、さまざまなメソッドを駆使して中隊長としてのリーダーシップを実現した話(

    はてなブックマーク開発ブログ
  • six6s লগইন: জুয়া সাইটে প্রবেশ করুন - সবচেয়ে সুরক্ষিত প্রবেশ!

    six6s লগইন অনলাইন ক্যাসিনো এ 10,000 টাকা পর্যন্ত বোনাস পেতে জুয়া খেলা শুরু করুন, 150% বোনাস সাথে। লাইভ ক্যাসিনো অফার করে 50% প্রথম ডিপোজিট বোনাস এছাড়াও 12,000 টাকা। অত্যাধুনিক অনলাইন গেমিং প্ল্যাটফর্মে ক্যাসিনো প্রচারটি নতুন খেলোয়াড়দের জন্য প্রথম ডিপোজিটে বোনাস দেওয়া হয়। অনলাইন গেমিং খেলোয়ারদের একাউন্ট যাচাই করার পর স্বাগত বোনাস দেওয়া হবে। নতুন খেলোয়াড়দেরকে অনলাইন গেমিং সাইটে 700 টাকা উপ

  • ワードサラダ技術について

    後半部分が重要で、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である ということです。 さて、実例です。たとえば次の文章を考えてみます。 「通信販売大手セシールは9日、生命保険の販売に格参入する方針を明らかにした。」 まず形態素解析するとこんな感じになります。 通信 名詞,サ変接続,*,*,*,*,通信,ツウシン,ツーシン 販売 名詞,サ変接続,*,*,*,*,販売,ハンバイ,ハンバイ 大手 名詞,一般,*,*,*,*,大手,オオテ,オーテ セシール 名詞,固有名詞,組織,*,*,*,セシール,セシール,セシール は 助詞,係助詞,*,*,*,*,は,ハ,ワ 9 名詞,数,*,*,*,*,9,キュウ,キュー 日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ 、 記号,読点,*,*,*,*,、,、,、 生命 名詞,一般,*,*,*,*,生命,セイメイ,セイメイ 保険 名詞,一般

  • ワードサラダ - Wikipedia

    ワードサラダ(英: word salad)とは、文法としては正しいが、意味が破綻している文章のこと[1]。言葉のサラダ(ことばのサラダ)とも。 精神医学にて[編集] 精神医学では思考障害の一つに分類され、認知症、統合失調症、頭部損傷患者、言動性チックなどにみられる。 コンピューティングにて[編集] 検索エンジンの検索結果やブログ、迷惑メールに多く見られる。 検索エンジンやメールのスパムフィルタを回避して、閲覧者を特定のウェブサイトに誘導することを目的としている。 誘導先のサイトは、アドセンスやアフィリエイト収益のみを目的としたサイトや、アダルト・違法サイト、閲覧者をウイルスに感染させることを目的としたサイトが多い。過去に著名人や企業が保有しており、所有権が失効したドメインを悪用したケースも存在する。 ワードサラダは多くの場合、検索エンジンの検索結果やRSSなどのウェブ上に存在する文章を元に

    YasSo
    YasSo 2009/07/06
  • 翻訳者のための作業ツール『Google Translate Toolkit』公開 | ネット | マイコミジャーナル

    Googleは6月9日(現地時間)、『Google Translate Toolkit』を公開した。同社はWebページ等のテキストを自動的に機械翻訳するツール「Google Translate」の提供を行っているが、Translate Toolkitはこうしたツールを活用しつつ、翻訳者がより自然な形で翻訳を行うための補助ツールのような位置付けになる。 WebブラウザからGoogle Translate Toolkitを実行すると、基となる文書管理画面が出現する。ここで翻訳元となる文書を「アップロード」し、ブラウザ上のエディタで細かい修正を加え、最終的に「ダウンロード」で出力を行う。アップロード/ダウンロードの対象は、テキストデータのような文書ファイルでもいいし、特定のWebページでもいい。ファイルまたはURLを指定すると文書の読み込みを行い、左右に分割された画面上で翻訳前後の文書が表示

  • 統計的機械翻訳の基本文献リスト - 武蔵野日記

    今日は機械翻訳勉強会だったのだが、修士の人も入ってきてくれたので、一度基的な論文からしっかり勉強しましょうか、という感じで原典を読むことに。(上記リンク先に eric-n さんが統計的機械翻訳の基礎的な論文のリストを作ってくれている) 今日は IBM Model 1 で終わり。そういえば M1 で入学したとき、一番初めに論文紹介したのはこの論文だった(入学した当初は機械翻訳の研究をするつもりだったので)。 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 2009/12/17メディア: ハードカバー購入: 1人 クリック: 12回この商品を含むブログ (16件) を見る 2年くらい前から出る出る言っていた統計的機械翻訳のテキストだが、とうとう今年の8月に出る

    統計的機械翻訳の基本文献リスト - 武蔵野日記
  • テキスト解析:キーフレーズ抽出API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:キーフレーズ抽出API - Yahoo!デベロッパーネットワーク
    YasSo
    YasSo 2009/06/03
  • ohmm(オンラインEMによるHMM学習)をリリースしました - DO++

    Ohmm-0.01をリリースしました [Ohmm 日語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。 使う場合は、単語(アクセス履歴とかなんでもよい)に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報(DNA)といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。 ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法(スケーリング、スパースな期待値情報の管理)もいれているので、そこそこ高速に動きます 速度的には100万語、隠れ状

    ohmm(オンラインEMによるHMM学習)をリリースしました - DO++
  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン