タグ

indexとpythonに関するslay-tのブックマーク (8)

  • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日語検索を実装する方法を紹介します(日語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基的なQuery RewritingやBM

    検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
  • BlenderとPythonとUnityを用いて、巨大な立体迷路を作成する。 - Qiita

    概要 この度、このようなゲームを作りました。基的には迷路のゲームです。(サイトのリンク) 記事ではこのゲームの製作過程を掲載すると共に、様々な分野の方に対しきっと有益になるだろうという情報をまとめてあります。楽しんで頂けたら幸いです。 Step0 前提 まず用語を整理します。 Blender : 3DCG制作ソフト。Pythonによって操作が可能になっています。 Python : 言わずと知れた有名プログラミング言語。 Unity : ゲーム制作ソフト。スタート画面の表示やゲームオーバーの判定などをしてくれます。言語はC#です。 大まかな流れとしては、 Step1. Blenderで3Dオブジェクトを作成 Step2. Pythonでそれを迷路に組み立てる Step3. Unityゲームとして完成させる という風になっています。 コードに関しては、読みやすさも考え記事中においては一部

    BlenderとPythonとUnityを用いて、巨大な立体迷路を作成する。 - Qiita
  • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

    PythonAI機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

    Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
  • 機械学習のための日本語前処理 - Qiita

    はじめに 機械学習を使ったチャットボットの仕組みを理解するために、テキストを訓練データとする簡単なニューラルネットワークを作成した際の備忘録。 目的 英文テキストで作成したルールベース型チャットボットを、日語テキストにも適用して動作させること。日語テキストを前処理し、それをニューラルネットワークへ通せることを確認する。訓練データとして、Niantic社の"Pokemon GO"に関連したサポートページをWebスクレイピングしたものを使用した。 Nianticサポートページ 使用しているCSVファイル(GitHub) マルチクラス分類 予め用意された応答文を入力にあわせて返す「ルールベース型」を参考に、"Intents"(意図)を識別して予測するマルチクラス分類の部分までを形にした。 「生成型」ではなく、入力情報から関連した「よくある質問(FAQ)」を予測するものであるため、”RNN”で

    機械学習のための日本語前処理 - Qiita
  • Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog

    ABEJA で Research Engineer をやっている中川です.普段は論文読んだり,機械学習モデルを実装したり,インフラを構築したりしています.今回のブログでは,Insight for Retail の一機能として提供しているリピータ分析に用いる特徴量DBの改善に向けた言語選定について紹介します. ※ たくさんの方々からのコメントありがとうございます.いただいた観点をベースに「2020-04-14 追記」以下に実験を追加しました. モチベーション リピート分析では,任意の特徴量をクエリに最も類似した特徴量を数100msec以内に検索する必要があり,一般的なデータベースでは実現することが難しいという課題がありました.そこで,われわれは python で独自のインメモリデータベースを実装し運用してきました.このデータベースがサービスの成長に合わせて限界を迎えつつあるので,アルゴリズム

    Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog
  • 知っているようで意外と知らなかったPython小ネタ集 | DevelopersIO

    仕事ではよくPythonを書いています。 よく使うのでそれなりに知っている気になっていたのですが、 コードをレビューしてもらったりを読んだりしているうちに”もっと早く知っておきたかった・・・”というネタが溜まってきたので、その中から厳選した5つの小ネタをまとめてみました。 *この記事で使用しているPythonのバージョンはPython 3.7.3です。 この変数、一体何桁? 例えばこんな変数があったとします。 num1 = 100000000 num2 = 10000 num3 = 3023204903 こんな変数がたくさんあったらどうしましょう。 桁を数えるだけで目が疲れそうです。 ぱっと見でだいたい何桁あるかわかるといいですよね。 Pythonでは数値型に_を挟んでも、そのまま数値として計算することができます。 >>> num1 = 100_000_000 >>> num2 = 10

    知っているようで意外と知らなかったPython小ネタ集 | DevelopersIO
  • これからはPandas-Bokehを使おうぜ

    Bokeh Plotting Backend for Pandas and GeoPandas. Contribute to PatrikHlobil/Pandas-Bokeh development by creating an account on GitHub. インストール pip install pandas-bokeh 使い方 最初にpandas_bokehの読み込みコマンドを実行します。今回はjupyter notebook上で使いたいので、ouutput_notebook としました。 import pandas_bokeh pandas_bokeh.output_notebook() plotをplot_bokehに変えるだけ Pandasをよく使っている人は、DataFrame.plot.bar()でチャートを書くことができることは知っていると思います。Pandas-B

    これからはPandas-Bokehを使おうぜ
  • データ分析で頻出のPandas基本操作 - Qiita

    はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 頁では、データ処理の基ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

    データ分析で頻出のPandas基本操作 - Qiita
  • 1