こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。 先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。 内容 「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、 トピック生成の精度が低い トピックタイトル生成が難しい という問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。 トピック生成 これまでキーワードなどを用いて記事をクラスタリ
NTTレゾナントは12月3日、日本語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。 公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出」、漢字混じりで書かれた文字列をひらがなかカタカナに変換する「ひらがな化」のAPI。 今後も、企業や大学などからニーズが高い技術を公開し、オープンコラボレーションを加速するとしている。 関連記事 変わるAPIのエコシステム ヤフーはなぜ、検索APIを有料にしたか TwitterのAPI利用制限が厳しくなり、ヤフーが検索API有料化を発表し……昨年は、大規模サービスのAPI公開姿勢に大きな変化があっ
米Twitterは2月5日(現地時間)、公開されているTwitterデータ(いわゆる「Firehose」)を学術研究者に無償で提供する試験的なプロジェクト「Twitter Grants」を発表した。 参加を希望する非営利の学術研究機関はエントリーページから申し込める。締め切りは3月15日。選考後、一部の参加希望者がFirehoseに無償でアクセスできるようになる。 公開ツイートは1日当たり5億件以上投稿されており、累計すると膨大な量になる。Twitterは米Microsoftなどの企業には有償でこのデータへのアクセスを提供している。Twitterが同日発表した2013年10~12月期の決算によると、データライセンスなどの売り上げは2300万ドルだった。 Twitterは社内のエンジニアリングチームで開発したツイートデータを使った幾つかの視覚化動画を発表している。また、これまで一部の学術機関
GoogleReaderが終焉し、SmartNews,Gunosyなど寝ててもおすすめコンテンツが降ってくるサービスが注目を集めている今、ここでひとつ自分もなんか気の利いたものを作ってみたい。 というわけで、はてブの人気エントリーから記事を引っ張ってきて、 ズバリ一行に要約するプログラムを書いてみた。 はいこれ。 要約くん http://xiidec.appspot.com/markov.html これを使うと・・・ けだるい猫ライオンがこの国でエリートコースに乗れると日本の真相。 こんな感じで なぜ高学歴の差別発言が求められるのかって生産性を欲しがった話をどうするか。 今話題のニュースがごちゃ混ぜになって一行に要約される。 浜崎あゆみの件、原子炉に十分届かず 炉心溶融の差別発言が続出。 Webの今が1行で分かる! 仕組み サーバサイド(Python)で、はてなブックマーク人気エントリーの
テキストを自動で要約します このサービスはごくシンプルなルールに基づいてテキストの自動要約を行う実験的サービスです。与えられたニュース記事の中から最も重要な3つのポイントを抜き出すことで、限られた時間の中でも効率よく情報を吸収できることを目的にしています。なお、商用利用をご希望の方は、白ヤギコーポレーション(info at shiroyagi.co.jp) までお問い合わせ下さい。なお、現在のところ英語のサイトには対応しておりませんので、ご了承下さい。
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日本語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日本語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日本語形態素解析Webサービス」[2007-06-18-1] で試すことができ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く