タグ

ブックマーク / qiita.com/okappy (2)

  • 米googleの研究者が開発したWord2Vecで自然言語処理(独自データ) - Qiita

    Word2Vec」は、米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法であり、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にした自然言語処理の手法。 Word2Vecは、その名前の表す通り、単語をベクトル化して表現するする定量化手法である。例えば日人が日常的に使う語彙数は数万から数十万といわれるが、Word2Vecでは各単語を200次元くらいの空間内におけるベクトルとして表現する。 その結果、今まで分からなかったり精度を向上するのが難しかった単語同士の類似度や、単語間での加算・減算などができるようになり、単語の「意味」を捉えられるようになった。 というわけで、かなり興味深いないようなので、早速実践してみることにします。 1.環境構築 subversionを使ってWord2Vecのソースコードをcheckoutする。 mkdir ~/word2vec_t

    米googleの研究者が開発したWord2Vecで自然言語処理(独自データ) - Qiita
  • グーグルのバグ予測アルゴリズムを実装したツール「bugspots」について - Qiita

    bugspotsはgoogleが開発した、バグ予測アルゴリズムをオープンソースとして開発されたツールです。 細かい説明は後にまとめますが、実際に使ったのを見るほうが分かりやすいので早速使ってみます。 実際に使ってみる 1.bugspotsをgemでインストール 3.結果を見てみる このHotspotsの下に出力されている左の数値がバグが起こりやすい度合いを表すスコア、右が対象のファイルになる。 メチャクチャ簡単に導入できるので、 リファクタやコードレビューなどで目星をつけるという意味では有用なツールな気がしました。 背景の説明 googleでは、チェックイン前にユニットテストやコードレビューが行われているが、コードが大量になってくると、ユニットテストやコードレビューをすり抜けたバグも少なからず発生してします。 googleではこの問題に対処するために、独自の「バグ予測アルゴリズム」を採用し

    グーグルのバグ予測アルゴリズムを実装したツール「bugspots」について - Qiita
  • 1