タグ

nlpに関するtarchanのブックマーク (3)

  • 長文を圧縮し要約する「長文要約生成API」を公開中 | お知らせ | 朝日新聞社の会社案内

    新聞社ならではのデータを活用 株式会社朝日新聞社(代表取締役社長: 中村史郎)は、自然言語処理研究(注1)の成果の一つである「長文要約生成」の機能を体験できるAPI(Application Programming Interface)(https://cl.asahi.com/api_data/longsum.html )を公開しました。 (注1)「自然言語」は、人間が使う言葉の総称で、自然言語処理は人工知能(AI)を支える研究分野の一つです。 APIは、長い文章を入力すると要約された文章を返します。文字数や割合を指定する事ができるので、用途に応じた文章を生成できます。過去30年分の朝日新聞記事のデータおよび、記事を生み出すフローで生み出される内部データを活用し、学習データとしての処理効率を上げるためのフィルタリングなどをした上で、ディープラーニング(深層学習)により可能となった技術です

    長文を圧縮し要約する「長文要約生成API」を公開中 | お知らせ | 朝日新聞社の会社案内
  • 検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog

    先月ハワイに行ってきてオルオルな (ハワイ語で '楽しい' という意味) 気分の takahi-i です。最近ログデータの有効活用が話題になっていますが、検索エンジンが出力する検索クエリログを使用してどんなことができるのかについて紹介させていただきます。 検索クエリログ 検索クエリログ (以下検索ログ) は検索エンジンを使用するユーザから発行された検索の履歴を保存したファイルです。検索ログのフォーマットは使用する検索エンジンや Web サーバによって異なります。さらにまた検索ログが含む情報にも差異があることが考えられますが、稿では検索ログは解析を行う上で重要な三つの要素を含むと仮定します。三つの要素とはユーザ ID (もしくは IP アドレス)、クエリ文、そしてクエリが検索エンジンに処理された時間です。以下検索ログの一例を載せます。 ユーザID クエリ文 クエリ発行時 438904 Su

    検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog
  • 「くだけた表現」を自動修正する技術をKDDI研究所が開発 | スラド IT

    ストーリー by hayakawa 2009年12月05日 16時30分 「伏せ字」が無意味になる時代、到来 部門より RBB TODAYの記事によると、これまでの言語解析技術では困難だった、口語やギャル文字などの「くだけた表現」を自動修正する技術をKDDI研究所が開発したとのこと。これは、情報通信研究機構(NICT)からの委託研究(インターネット上の違法・有害情報検出技術の研究開発)の一部として開発されたもので、Web上の文書を高精度に解析するもの。 同記事中には一例として、 「ゎナ=∪も行くょ~」→「わたしも行くよ」「この携帯ヵゎいいね」→「この携帯かわいいね」「オ●マ大統領来日」→「オバマ大統領来日」 といった変換が可能であると紹介されている。 今後は、違法・有害情報フィルタリング技術などに応用されるそうだ。これが各種ブラウザに装備されれば解読に四苦八苦する時間が減ると思うのは、もう

  • 1