2020年3月5日のブックマーク (7件)

  • コサイン類似度

    コサイン類似度について 概要 コサイン類似度とは、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度計算手法。 コサイン類似度は、そのまま、ベクトル同士の成す角度の近さを表現するため、三角関数の普通のコサインの通り、1に近ければ類似しており、0に近ければ似ていないことになる。 だいたいは、tf-idfの値で計算を用いて計算される場合が多いと思います。 コサイン類似度計算式 以下の式で計算できる。 正規化された単位ベクトルについての計算は、以下で可能。 計算例 正規化後の値 ターム 文書1 文書2 文書3

  • 自然言語処理 100本ノック - Google 検索

    言語処理100ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です.

  • Named-entity recognition - Wikipedia

    "Named entities" redirects here. For HTML, XML, and SGML named entities, see List of XML and HTML character entity references. Named-entity recognition (NER) (also known as (named) entity identification, entity chunking, and entity extraction) is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories such as p

  • 素人の言語処理100本ノック:まとめ - Qiita

    言語処理100ノック 2015の挑戦記録のまとめです。 これは言語処理100ノック 2020の挑戦記録ではありません。古い2015年版が対象です。ご注意ください 挑戦した環境 Ubuntu 16.04 LTS + Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。 (問題00と問題01だけはPython 2.7です。) 第1章: 準備運動 テキストや文字列を扱う題材に取り組みながら,プログラミング言語のやや高度なトピックを復習します. 投稿へのリンク 主に学んだこと、コメントで教えていただいたことなど

    素人の言語処理100本ノック:まとめ - Qiita
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • 【競プロ】AtCoder早解きテクニック10選 (灰 ~ 緑コーダー向け) - Qiita

    少し比較するコンテストが悪いような感じはしますが,同じ600点でもパフォーマンスに大きな差があることがわかります. 記事ではいかにして問題を早く解くのか,テクニック (アルゴリズム) を10個ほど紹介したいと思います. スニペット(ライブラリ)作成テクニック 多くのテキストエディタ(VScode, Atom, Emacsなど)には「スニペット」という機能があります. この機能を使うと,あらかじめ書いておいたコードを,画面に瞬時に表示させることができます. 例えばVSCodeの場合はこちらのサイトを参考にすると登録することができます. 他のエディタを使用されている方は「(ここにエディタ名) スニペット」とかで検索🔍すると簡単にヒットします! 以降,スニペットに登録しておくと便利なアルゴリズムを紹介します. (注意: 紹介しているAtCoderの問題はちょっと難しいかもしれません.これは検

    【競プロ】AtCoder早解きテクニック10選 (灰 ~ 緑コーダー向け) - Qiita
  • コマンドラインプログラムにおける引数、オプションなどの標準仕様 | プログラマーズ雑記帳

    コマンドラインプログラムの引数、オプションといったインターフェースには ちゃんと仕様、ガイドラインといったものが存在しています。 Unix(Linux) では慣習としてなんとなく合うものなのですが、 WindowsJava のプログラムなどでは、インターフェースがめちゃくちゃなプログラムも結構あります。 今回はコマンドラインプログラムの標準的なインターフェースの仕様、動作を紹介します。 プログラムを作る際の参考にしてもらえればと思います。 標準インターフェースはよくあるケースを考慮されて作られているものです。 自分の作っているプログラムは標準的なケースと違うといったことがあるかもしれません。 しかし、 標準のスタイルは合わせること自体に意味があります。 作成する場合にはなるべく標準インターフェースにあわせて作るべきだと思います。 Windows or Unix スタイル コマンドライ

    kamocyc
    kamocyc 2020/03/05
    標準仕様があるのを知らなかった