並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 92件

新着順 人気順

lxmlの検索結果1 - 40 件 / 92件

  • 法律のデータ構造と検索

    デジタル庁は、法令標準 XML スキーマに準拠した、現行の法令データをe-Gov法令検索というサイト上で公開しています[1]。今回、この法令XMLをパースするPythonライブラリ ja-law-parser をつくり、法令データの全文検索をしてみました。 この記事では、日本の法令とそのデータ構造、法令XMLパーサについて解説し、最後に、それらを使った法令データの全文検索システムを実装する方法をご紹介します。法令検索の実装についても、GitHubリポジトリで公開しています。 この記事は、情報検索・検索技術 Advent Calendar 2023の16日目の記事です。 法律と法令 法律とは 法律の制定と公布 法律と法令の違い 法律の改正 法令のデータ構造 e-Govの法令データ 法令標準XMLスキーマ 法令番号と法令ID 題名 本則と附則 条・項・号 編・章・節・款・目 法令XMLパーサ:

      法律のデータ構造と検索
    • サーバーレスのセキュリティリスク - AWS Lambdaにおける脆弱性攻撃と対策 - Flatt Security Blog

      はじめに こんにちは、株式会社Flatt Security セキュリティエンジニアの森岡(@scgajge12)です。 本稿では、AWS Lambda で起こりうる脆弱性攻撃やリスク、セキュリティ対策を解説し、サーバーレスにおけるセキュリティリスクについて紹介します。 はじめに AWS Lambda について サーバーレスにおけるセキュリティリスク AWS Lambda で起こりうる脆弱性攻撃 Lambda での脆弱性攻撃によるリスク 脆弱性攻撃による更なるリスク OS Command Injection XML External Entity (XXE) Insecure Deserialization Server Side Request Forgery (SSRF) Remote Code Execution (RCE) AWS Lambda におけるセキュリティ対策 セキュリティ

        サーバーレスのセキュリティリスク - AWS Lambdaにおける脆弱性攻撃と対策 - Flatt Security Blog
      • Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ

        はじめに Webスクレイピングの基本事項 Webスクレイピング(Scraping)とは Webスクレイピングの活用シーン Webスクレイピングの基本的な仕組み Webスクレイピングの注意事項 取得先への攻撃とみなされたり、規約違反や、著作権法違反に問われることもある 取得先の変更に影響を受ける 取得先がAPIを公開しているならそちらを活用する方が良い Webスクレイピングの実践方法 Webスクレイピングを実践するには 1. ベンダーのサービスやツールを利用する 2. 自分でプログラムを作成する なぜPythonなのか? Pythonでのスクレイピング実践方法 事前準備 BeautifulSoup4のインストール 模擬Webサイトの構築 Webサーバーを立ち上げる 初級編:特定の要素から単一の要素を抜き出す 中級編:あるページから繰り返しを伴う複数の要素を抜き出す 上級編:複数のページから複

          Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ
        • WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp

          鈴木たかのり(@takanory)です。今月の「Python Monthly Topics」では、Webブラウザ上でPythonが動作するPyScriptについて、内部構造なども含めて詳しく解説したいと思います。 PyScript公式サイト(https://pyscript.net/) Warning:PyScriptは現在非常に活発に開発が進んでいるプロダクトのため、将来的にこの記事のサンプルコードが動かなくなる可能性があります。記事執筆時点では最新バージョンであるPyScript 2023.03.1で動作確認しています。うまく動かない場合はPyScriptの公式ドキュメントなどを参照してみてください。 PyScript - PyScript documentation PyScriptとは? PyScriptは公式サイトに「Run Python in Your HTML」と書いてあると

            WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp
          • 有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

            はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日猫カフェデビューをして, 猫アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 本記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します。 有価証券報告書をダウンロードするところからご紹介するのでご安心を。 こんな方が見たら役に立つかも 企業分析をプログラミングでやりたいが何してい

              有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ
            • 外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

              はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ

                外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
              • 競馬必勝本は本当に当たるのかを検証!〜Pythonで実装する馬券自動選択ツール〜 - エニグモ開発者ブログ

                こんにちは、サーバーサイドエンジニアの竹本です。 この記事は Enigmo Advent Calendar 2020 の3日目の記事です。 みなさまは2020年に買った中でよかったものはなんでしょう? 私はiPadです。 最新 Apple iPad Pro (12.9インチ, Wi-Fi, 128GB) - シルバー (第4世代) 発売日: 2020/03/25メディア: Personal Computers 主にkindleを見開きで読むことに活用しています。 エニグモの福利厚生の一つ「エンジニアサポート」で5万円の補助を受けました。わーい。 https://enigmo.co.jp/recruit/culture/ そしてみなさまは馬券、買っていますか? 馬券は競馬に賭ける際に購入する投票券です。 1口100円から、ネットでも気軽に購入することができます。(競馬は20歳から) 弊社にも

                  競馬必勝本は本当に当たるのかを検証!〜Pythonで実装する馬券自動選択ツール〜 - エニグモ開発者ブログ
                • 新刊『現場で使える Django 管理サイトのつくり方』頒布のお知らせ - akiyoko blog

                  2020/9/12(土)から開催される「技術書典9@技術書典オンラインマーケット」まであと1ヶ月となりましたが、そこで「あきよこブログ」として5回目のサークル参加をします。 あきよこブログ(技術書典9) 4冊目の新刊は『現場で使える Django 管理サイトのつくり方』です。 安心してください。今回も Django 本ですよ~ 😉 タイトルからお察しの通り、Django の管理サイト(Django Admin)だけにフォーカスした、ニッチでオンリーワンな一冊 です。注目すべきはイカレたその分厚さ。「Django」という Python 製の Webフレームワークの中の「管理サイト」という一機能だけに特化したオンリー本でありながら、本文 152ページの大ボリュームに仕上がっています。 技術書典9の開催まであと1ヶ月あるのですが、実は すでに執筆は終わっていて、あとは入稿するだけという状況 で

                    新刊『現場で使える Django 管理サイトのつくり方』頒布のお知らせ - akiyoko blog
                  • 仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball

                    お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく読む(レビューする)のですが, 煩雑なことやってるけどこれ一行で書けるやで 最初からデータを整理するとそんな面倒くさいことしなくても大丈夫やで ...といったコメントを返す機会が増えてきました. これらは当人たちにフィードバックしているのですが, このフィードバックの内容が案外重要な気がしてきたのでブログに書いてみることにしました. 読んだ方の理解・生産性の向上および, 「つまらない仕事が334倍楽になる」ような感じにつながると嬉しいです🙏 TL;DR pandasのread関数にはとりあえずURLを渡しておけ &使うカラ

                      仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball
                    • 極値理論を使って多摩川の氾濫は推測できたのか検証してみる - Qiita

                      はじめに 令和元年の台風19号の被害が凄いことになっていますが、様々な河川の氾濫が報道されています。気候変動の影響があり、今回のような規模の水害は想定できなかったという意見も聞こえてきますが、本当にそうなのかと素人ながら疑問に思っていました。というのも、堤防を作る際に、異常降水を外れ値とみなして削除して計算しているということも耳にしたからです。 そんなわけで、今回は異常値を外れ値とはみなさない極値理論を用いて、今回の氾濫が推定できたのか検証してみました。 <やったこと> PythonのBeautiful Soupを使ったスクレイピング RのAmeliaを使った多重代入法による時系列分析の欠損値補完 RのismevとextRemesを使った極値理論解析 <環境> Windows Subsystem for Linux Ubuntu 18.04 Python 3.6 R 3.6.0 極値理論と

                        極値理論を使って多摩川の氾濫は推測できたのか検証してみる - Qiita
                      • Pythonのライブラリで小説全文をテキストマイニングしよう

                        テキストマイニングとは? テキストマイニングとは、テキストをプログラムに分析してもらい、文章の特徴を図や色などで表現することを指します。 SNSで注目されている単語やGoogle検索トレンドなども瞬時で分析でき、データサイエンティストやマーケターなども活用できます。 今回行うテキストマイニングで特に重要な処理が「形態素解析」と呼ばれるもので、繋がっている文章の中から単語を抜き出して意味を割り出す分析方法です。 例えば、私たち人間が「このサイトは非プログラマーが日常業務で使えるシンプルなPythonを紹介するメディアです。」 をという文章を読む時には 「この/サイト/は/非/プログラマー/が/日常/業務/で/使える/シンプル/な/Python/を/紹介/す/る/メディア/です。/」 と区切ることができます。しかし(英語は単語ごとにスペースを開けるのでプログラムで処理をしなくても問題はありませ

                          Pythonのライブラリで小説全文をテキストマイニングしよう
                        • 政府統計の総合窓口(e-Stat)のAPIを使ってみよう - Qiita

                          e-Statでは政府が提供する様々な統計データをXMLやJSONで取得するAPIを使用できます。 APIの利用登録と動作テスト 1.下記のURLからAPIの利用申請をします。 http://www.e-stat.go.jp/api/regist-login/ 2.APIを登録申請が完了すると「メールアドレス」と「パスワード」でログインが可能になります。 3.ログイン後、再度ログイン画面に行くと「利用者情報変更/削除」と「アプリケーションIDの取得」がおこなえる画面が表示されます。 利用者情報変更では、登録時に指定したデータを変更することができます。 4.appIDの発行を行う。 「アプリケーションIDの取得」画面で名称とURLを入力して、「発行」ボタンを押すとappIDが取得できます。 urlは存在しない場合は「http://localhost/」等を入力してください。 appIDは3個ま

                            政府統計の総合窓口(e-Stat)のAPIを使ってみよう - Qiita
                          • Pythonパッケージの依存関係とライセンスを確認する | DevelopersIO

                            はじめに データアナリティクス事業本部のkobayashiです。 Pythonを使って開発を行っていると、AWSのリソースを扱う際にはboto3でしたりデータ解析を行う場合はPnadas,Scipyなど様々なパッケージを使っているかと思います。 今回、その利用しているパッケージの依存関係やパッケージを調べる機会があったのでその方法をまとめたいと思います。 環境 Python 3.7.4 pipdeptree 1.0.0 pip-licenses 2.2.1 パッケージ依存関係とライセンスを調べるツール 今回使用したツールは以下になります。どちらのツールもきちんと継続的にメンテナンスされており、pipでインストールできるのでこれらを使いました。 パッケージ依存関係をツリーで表示するツール pipdeptree · PyPI pipでインストールしたPythonパッケージを依存関係ツリー形式で

                              Pythonパッケージの依存関係とライセンスを確認する | DevelopersIO
                            • PythonでAmazonの商品検索アプリの作成

                              管理者権限のない環境で必要なモジュールをインストールし、python言語を使ってAmazonの商品検索api(Amazon Product Advertising API)によりISBN番号で書籍を検索してみました。 Python実行環境の構築 管理者権限のない環境では、Pythonで書かれたパッケージソフトウェアをインストール・管理するためのパッケージ管理システム「pip」を最初に使えるようにインストールします。自分でインストールするパッケージは、$HOME/.local/以下にまとめてインストールします。まずディレクトリを次のコマンドで作成します。 $ mkdir /home/hoge/.local/lib/python2.7/site-packages vi等を使って、$HOMEにある.cshrcを編集します。「set path=~」の部分に、以下のように「$HOME/.local/

                              • Full Text, Full Archive RSS Feeds for any Blog

                                RSS and ATOM feeds are problematic (for our use-cases) for two reasons; 1) lack of history, 2) contain limited post content. We built some open-source software to fix that. If you are reading this blog post via a 3rd party source it is very likely that many parts of it will not render correctly. Please view the post on dogesec.com for the full interactive viewing experience. If you prefer, you can

                                  Full Text, Full Archive RSS Feeds for any Blog
                                • 図解!PythonでSeleniumを使ったスクレイピングを徹底解説!(インストール・使い方・Chrome) - ビジPy

                                  Seleniumとは Seleniumとは、ブラウザを自動的に操作するライブラリです。主にWEBアプリケーションのテストやWEBスクレイピングに利用されます。 主にWEBスクレイピングでは、JavaScriptが使われているサイトからのデータの取得や、サイトへのログインなどに使われています。 ここではまずスクレイピングの流れを確認し、その中でSeleniumがどのように使われるかを説明します。 スクレイピングの流れ スクレイピングは、大まかに3つのステップに分けることができます。 1つ目はWEBサイトのHTMLなどのデータ取得です。ただし、HTMLには必要な文章のデータだけでなく、タグなどのデータも混じっているので、必要なものだけを抽出する作業が必要になります。 そこで2つ目のデータの抽出が欠かせません。ここでは、複雑な構造のHTMLデータを解析し、必要な情報だけを抽出します。データの抽出

                                    図解!PythonでSeleniumを使ったスクレイピングを徹底解説!(インストール・使い方・Chrome) - ビジPy
                                  • 旅行予約サイトの「今あなた以外に○○人が見ています」はウソなのか - Qiita

                                    旅行予約サイトの「今あなた以外に○○人が見ています」はウソだったことが判明 - GIGAZINEという記事が注目されています。 本記事の内容を要約すると、下記のような内容です。 Harpaz氏がOneTravelで飛行機の搭乗券を予約しようとした時、「38人がこの搭乗券をチェックしています」と表示された。 Harpaz氏がJSのソースコードをチェックすると、28から44までの数字がランダムに生成・表示されているだけだった。 こういうやつの話ですね。 では、日頃わたしたちが使う、他のサイトはどのようなロジックになっているのでしょうか。 流石に日本にも進出しているような大手サイトは、OneTravelのようにJSソースからロジックを確認できそうにありませんので、統計的に確認しようと思います。 本記事では、ぱっとみで同様のUIが見つかった、 Expedia Agoda に言及します。 なかなか興

                                      旅行予約サイトの「今あなた以外に○○人が見ています」はウソなのか - Qiita
                                    • 【Python】嵐の歌詞をWordCloudで可視化して、結成20年でファンに伝えたかったことを紐解いてみた - Qiita

                                      【Python】嵐の歌詞をWordCloudで可視化して、結成20年でファンに伝えたかったことを紐解いてみたPythonスクレイピング自然言語処理Python3wordcloud きっかけ 嵐の活動休止まで残り一年ですね。スケスケ衣装の登場からなんともう20年。マルチで活躍する国民的アイドルは結成20年でファンに何を伝えたかったのか?直接お会いして伺いたいとこだが、そんな訳には。ですので、「歌詞を可視化」して、ファンに伝えたいメッセージを6人目のメンバーである私が嵐ファンに伝えることにしました。 環境 ・Python 3.7.3 ・windows10 参考資料 ・Uta-Net ・米津玄師の歌詞をWordCloudで可視化してみた。 大まかな流れ 歌詞の収集(スクレイピング) 歌詞を単語にする(形態素解析) 可視化(WordCloud) 1. 歌詞の収集(スクレイピング) import r

                                        【Python】嵐の歌詞をWordCloudで可視化して、結成20年でファンに伝えたかったことを紐解いてみた - Qiita
                                      • にゃんテック x SAP(電気ショックver)やってみた - Qiita

                                        import picamera class Camera: def takePicture(): camera = picamera.PiCamera() #'picture.jpg'という名前で画像を保存する camera.capture('picture.jpg') print('撮影しました') camera.close() human_sensor.pyで人感センサーを起動し、センサーが検知したらTrueをreturnします。camera_v2.pyでは写真を撮影してjpeg形式で保存するようなロジックを実装しています。 この写真は次のパートで画像判定APIに送られます。 2. 画像分類APIによる猫判定 SAP Leonard MLには機械学習系の便利なAPIがあります。今回はその中でも以下の画像分類APIを使用します。 こちらのAPIを使用するに当たってAPIキーが必要となるの

                                          にゃんテック x SAP(電気ショックver)やってみた - Qiita
                                        • バーチャルYoutuberの配信アーカイブからコメントとスパチャを取得する方法(Python)|おあ

                                          Vtuber沼にハマって配信を見ていると気になるのがスーパーチャット。 いわゆる投げ銭である。 一回の配信でどれくらいのスパチャが投げられているのか? 赤スパを投げる人はVtuberにどれくらい投げ銭しているのか? 気になったので、それらのデータを取るプログラムをPython3で書いた。 Qiitaでやれって話だが、Vtuber関連noteの続きなのでこちらで書く。 動画の情報はYoutube Data APIから取れるまずは動画の情報をとる方法から。動画の情報はYoutube Data APIから取得できる。Search.listに調べたいVtuberのチャンネルIDを与えて日付、タイトル、VideoId(あとで重要)を取得する。一度に取得できるResultは50件が最大なので、nextpagetokenが空になるまでループさせている。チャンネルIDはYoutubeのチャンネルページのU

                                            バーチャルYoutuberの配信アーカイブからコメントとスパチャを取得する方法(Python)|おあ
                                          • 【2020年版】とりあえず入れておくべきおすすめPythonパッケージ25選【Python】 - なろう分析記録

                                            Pythonはパッケージを使うことで高度なことが手軽に実現できる Python上達の近道はパッケージを知ること Pythonは追加パッケージを導入することよって統計解析から画像処理まで様々なことが出来るようになります。 今回は数多く存在するPythonパッケージの中から、メジャーなものを25個ご紹介したいと思います。 パッケージのインストール・管理にはpipを使う pipを使うことでPythonパッケージを簡単にインストール・管理することが出来ます。 pipコマンド 現在入っているパッケージの確認 pip list 現在入っているパッケージリストの書き出し pip freeze > requirements.txt コマンドを実行する前にcdコマンドを使ってあらかじめrequirements.txtを書き出す場所に移動しておきましょう。 pip freeze Pythonパッケージのインス

                                              【2020年版】とりあえず入れておくべきおすすめPythonパッケージ25選【Python】 - なろう分析記録
                                            • Python Asyncio入門 - Qiita

                                              Asyncioは、大雑把に言えば、PythonでNodeのような非同期プログラムを行えるようにするモジュールです。Pythonでは、スレッド(concurrent.futures)を用いて並行プログラムを書くことができますが、Asyncioではもう少し軽量の並行プログラムを実現できます。 この辺は「Fluent Python」に詳しいですが、いかんせんAsyncioの箇所は最新のPythonのバージョンで大きく変更されています。以下の公式サイトが貴重な情報源になります。 Asyncio公式サイト ここでは、最も有名なAsyncioライブラリであるaiohttpを使ったソースコードを説明することで、Asyncioの概念を見ていきたいと思います。 aiohttp公式サイト 以下の関連記事を投稿しました (追加 2021/02/13) Django 3.1のAsync Views - Qiita

                                                Python Asyncio入門 - Qiita
                                              • 【Python】nlplotで企業特徴を把握できたら最&高じゃないですか? - Qiita

                                                きっかけ 現在、SEOライティングツールを開発する株式会社EXIDEAで、データ分析のインターンをしています。勤め始めて4ヶ月経ちましたが、コロナの影響で社内の方とまだ一度も面識がありません。が、定期的なオンライン飲み会やデイリーミーティングでどういった特徴を持った方が多いのか?ようやくわかってきました。また、最近の月次ミーティングで「採用」という言葉をよく耳にします。ベンチャー企業に限らず、Wantedlyを利用して採用活動に力を入れている企業は多いのではないでしょうか?この記事では、Wantedlyに投稿したストーリー記事を自然言語の可視化を手軽にできるようにしたパッケージnlplotを使用して、応募者に伝えたい企業特徴や想いを再認識しようというストーリーになります。 Githubにソースコードを公開していますので、よかったらどうぞ。 https://github.com/yuuuus

                                                  【Python】nlplotで企業特徴を把握できたら最&高じゃないですか? - Qiita
                                                • amazon-redshift-python-driverを使ってPythonからRedshiftに接続する | DevelopersIO

                                                  データアナリティクス事業本部の森脇です。 本日AWSから、PythonのRedshiftドライバーに関する情報 がアナウンスされました。 元々クローズドで開発されていたドライバーがOSS化され、amazon-redshift-python-driver という名称で一般公開されました。 以下の特徴をそなえています。 Apache 2.0 License Pure Pythonライブラリ Database API 2.0 準拠 pandas, numpyと簡単に連携可能 今まではpsycopg2を使うことが一般的でしたが、今後はこちらのドライバーを使うのが良さそうですね。 早速試してみました。 (pythonのバージョンは3.8.3で試しています) インストール pipを使ってインストールできます。 [tmp]$ python --version Python 3.8.3 [tmp]$ rm

                                                    amazon-redshift-python-driverを使ってPythonからRedshiftに接続する | DevelopersIO
                                                  • AWSでAlexaスキルを動作させる

                                                    皆さんこんにちは。 GMOアドマーケティングで顧客対応や開発・RPAを担当しているR.Aです。 以前、Alexaのスキル開発について執筆を行いましたが、AWS環境での設定方法について記述していませんでしたので、今回はLambdaを使用し、Alexaスキルを動かす方法を記載したいと思います。 ①AWSのLambda画面で関数の作成 まず、Lambdaでスキルを動かす為に、初期設定の関数の作成を行っていきます。 Lambda画面へログインを行い、「関数の作成」をクリックし、作成画面を開きます。 設定プリセットから作成というものもありますが、今回はシンプルに作成したい為、 「一から作成」を選択し、画像のように必要事項を記入し作成ボタンをクリックします。 前回はAlexaスキルをRubyで作成しましたが、今回はPythonで作成してみたいと思います。 なお、ロケーションは「東京」で作成をしてくださ

                                                      AWSでAlexaスキルを動作させる
                                                    • プログラミング初学者が7週間でPython 3 エンジニア認定基礎試験に合格するまでの記録 - Qiita

                                                      この記事の概要 プログラミング初学者です。 2021年7月13日にPythonの勉強を始めて、2021年8月29日にPython 3 エンジニア認定基礎試験に合格しました。 この7週間は日々頑張ってたなーと思っているので、その経過を記録しておこうと思って書いた記事です。 前提 Pythonを勉強する前の私のスペック 文学部卒 30代前半 女性 今の勤務先(非IT系)に2021年6月に就業し、社内SEみたいな人の後継者になることを前提にOJTを受けている。 父の影響でPC自作もするので、文系だがコンピュータ全般に関してぼんやりとした知識がある。 HTMLの基本を理解しているが、知識は00年代で止まっている。 コマンドプロンプトにコマンドを打つとコマンドに定義された命令が実行されるということが分かっている。 Wordやテキストエディタで文字列を検索・置換するための正規表現が分かっている。 夫が

                                                        プログラミング初学者が7週間でPython 3 エンジニア認定基礎試験に合格するまでの記録 - Qiita
                                                      • Python転職初心者向けエンジニアリングブログ

                                                        Pythonプログラムのフローチャートについて Pythonのプログラムは、その直感的な構文と柔軟性から、多くのプログラマーに愛用されています。しかし、プログラムが大規模になると、コードの理解や修正が難しくなる場合があります。そのため、プログラムの構造や流れを視覚的に表現する手法が重要となります。その代表的な手法がフローチャートです。この記事では、Pythonプログラムをフローチャートで表現する方法について詳しく解説します。 サンプルコードと解説 fruits = ["apple", "banana", "cherry"] colors = ["red", "yellow", "blue"] for fruit in fruits: for color in colors: print(fruit, color) このプログラムは、fruitsとcolorsという2つのリストを定義し、それ

                                                          Python転職初心者向けエンジニアリングブログ
                                                        • 2020年12月18日号 『Ubuntu on Windows』のプロトタイプ・DirectX12のためのmesaの調整 | gihyo.jp

                                                          Ubuntu Weekly Topics 2020年12月18日号『Ubuntu on Windows』のプロトタイプ・DirectX12のためのmesaの調整 『Ubuntu on Windows』のプロトタイプ Bash on WindowsとしてWSL上のUbuntuが登場して約4年、『⁠Ubuntu on Windows』と呼ばれる新しい挑戦が始まりました。これは『WSL向け』に調整されたUbuntuで、ubuntuwslを始めとする各種ツールを用いて、「⁠箱から出しただけで」(⁠=インストールしただけで)Windowsとの連携機能がセットアップされたUbuntuが使えるようになるというものです。開発はまだ「コミュニティからのフィードバックを求めるためのテスト版がリリースされた」という段階で、今後のためのサンプル的な位置づけです[1]⁠。 現状では「起動すると専用のセットアップ画面

                                                            2020年12月18日号 『Ubuntu on Windows』のプロトタイプ・DirectX12のためのmesaの調整 | gihyo.jp
                                                          • Qiitaタグ自動ジェネレータ - Qiita

                                                            試せるWebアプリ(2019.12.22追記) 以下でWebアプリとして公開したので、自分のQiita記事だとどんなタグが生成されるのか試したい方はどうぞ。 https://auto-create-qiita-tags.herokuapp.com/ Heroku使ってます。詳細は別のQiita記事として書いたので興味あれば見てみてください。 Docker+GitHub+HerokuでCI/CDっぽく やったこと 自然言語処理を用いて、Qiitaの記事から自動的にタグを生成するプログラムを作ってみました。 専門用語(キーワード)を抽出するPythonモジュールtermextractを使いました。 以下、ざっくり全体図です。 Qiita記事のタグ付け Qiitaで投稿するときにタグつけますよね。 でも、タグってみなさんどうやってつけてますか? 私は正直あまり深く考えずそれっぽいかなという軽い感

                                                              Qiitaタグ自動ジェネレータ - Qiita
                                                            • BERTで6感情の感情分析モデルを作ってみた【機械学習、自然言語処理】 - アプリとサービスのすすめ

                                                              画像と違って文章から感情を予測すること(emotion prediction from text)は未だ自然言語処理(NLP)界隈では、うまくいった事例が少ない。 特に、単純なネガポジ判定ではなく、6感情(怒り、驚き、幸せ、嫌悪、恐れ、悲しみ)を分析する感情分析は、研究が頻繁に行われてる。 今回はBERTでなるべく精度の高い感情分析モデルを作ってみた。 目次 ・感情分析について 1.twitterからスクレイピングしてデータセット作成したcase 2.スクレイピングした映画レビューからデータセットを作ったcase 3.気づいたこと 4.まとめ 感情分析について感情分析は英語でも日本語でも未だにうまくいってなくて、論文が頻繁にでてる分野。 難しい理由の一因は「データセットの作成が難しい」とか「ノイズの多い日本語のような難解な言語での感情判定が困難」だから。 比較的処理しやい英語でも、kagg

                                                                BERTで6感情の感情分析モデルを作ってみた【機械学習、自然言語処理】 - アプリとサービスのすすめ
                                                              • Pythonで文章要約!自然言語処理を使ってExciteの記事を要約してみた - エキサイト TechBlog.

                                                                こんにちは。 いつものtaanatsuです。 今回は、自然言語処理で文章要約をしてみます。 それではやっていきましょうか。 ターゲット エキサイトニュースの記事 「カーシェアリング各社を比較 タイムズ、カレコ、オリックスの対抗にdカーシェア」 を要約してみます! 。 (正しく要約できているかは、記事に飛んでチェックしてみてください!) バーチャルenv環境の準備 Python標準の venv を使っていこうと思います。 # バーチャルenvの作成 $ python3 -m venv venv # ターミナルにバーチャルenvを反映 $ source venv/bin/activate 必要モジュールのインストール $ pip install sumy $ pip install tinysegmenter $ pip install ginza ja-ginza 実行コード 「LexRan

                                                                  Pythonで文章要約!自然言語処理を使ってExciteの記事を要約してみた - エキサイト TechBlog.
                                                                • はてなブログ記事をテキストファイルに一括保存するプログラムを製造【pythonプログラミング】 - 有給医のライフハック記録

                                                                  はてなブログの月別の記事をテキストファイルに一括保存するプログラム イメージする挙動 ソースコード 動作原理 課題 はてなブログの月別の記事をテキストファイルに一括保存するプログラム 自然言語処理の機械学習のために、普段書いている僕のブログ(まさにこのブログ)の記事を取得するpythonスクリプトを作成しました。精度のよい学習をさせるにも、大量のテキストデータが必要で。せっかくこうやってブログをやっていることですし、自分の著作物を使わない手はないわけです。 いままで、せっせと手作業でコピペして、ご丁寧に何故かWordファイルに蓄えていたのです。ですがWordファイルのままですと、のちのちpythonスクリプトでデータとして使用するのが一般的ではないため(出来ないこともないが)、改めてテキストファイル形式でデータが欲しくなりました。 最近はスクリプトを作る暇もなく多忙だったので、練習がてら、

                                                                    はてなブログ記事をテキストファイルに一括保存するプログラムを製造【pythonプログラミング】 - 有給医のライフハック記録
                                                                  • Tutorial — openpyxl 3.1.2 documentation

                                                                    Note There is support for the popular lxml library which will be used if it is installed. This is particular useful when creating large files. Warning To be able to include images (jpeg, png, bmp,…) into an openpyxl file, you will also need the “pillow” library that can be installed with:

                                                                    • chatGPT-4に「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」で作ってと頼んだら・・・コード1行も書かずに出来た😅|hantani

                                                                      chatGPT-4に「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」で作ってと頼んだら・・・コード1行も書かずに出来た😅 ある所で、「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」は案件定義で3日かかりますよと書いてありました。 chatGPT-4使ったらどうなるんだろうと思ってやってみました。 結論をいうと「余裕で案件定義もプログラムもコードを一行も書かずに出来ました」 以下、「Q.」が質問(プロンプト)です。「A.」がchatGPT-4からの回答です。 プロンプタ(魔術師)とchatGPTとのリアルなやり取りです。長いですよ😅 Q.あなたはプログラマです。ウェブスクレイピング→情報をPDF保存の自動化ツール開発はどのような案件がひつようでしょうか? A.ウェブスクレイピングと情報をPDF保存の自動化ツールを開発するには、以下の要件が必要です。 プロジェクトの

                                                                        chatGPT-4に「ウェブスクレイピング→情報をPDF保存の自動化ツール開発」で作ってと頼んだら・・・コード1行も書かずに出来た😅|hantani
                                                                      • 【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】

                                                                        日本語の全文検索ぜんぶんけんさく (full-text search, FTS) を、高速に実行する Python コード例です。 Python の標準モジュール sqlite3 を使用しました。 sqlite3 から、SQLiteエスキューライト の全文検索 (FTSエフティーエス) を使ってみました。 試したのは、FTS4エフティーエスフォー と FTS5エフティーエスファイブ の2種類です。 ところで、SQLite の読み方は色々ありました。YouTube では、エスキューライト、エスキューエライト、スィクライト、スィクエライト、などの発音を聞きました。 全文検索の使い方(FTS の使い方)ですが、テキストを N-Gram にして、FTS4 か FTS5 の仮想テーブルに INSERT するだけでした。 (2022年2月5日 追記)MeCab の使い方も書きました。 MeCab で

                                                                          【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】
                                                                        • 株情報を取得するAPIどれが良い - Qiita

                                                                          株情報を取得するAPIどれが良いのか 株価情報などをAPIで取得したいニーズはすごいあると思う。株式会社東京証券取引所が今年1月(2021年)に東証APIサービスの提供を始めたみたい。日本株のデータ取得に関しては、本家本元、取引所の東証が提供するAPIなのでデータの正確性では他のAPIベンダーが追随することはできないだろう。でも有料。使いたいのは無料API。 ということで、外国株も含めて株価情報を取得できる無料で使える(オープンソースで公開されている)APIの紹介です。 pandas_datareader pip できる 元々pandasの一部だった。(いろんなデータベースへのアクセスにも使える) import pandas_datareader.data as web import datetime as datetime import matplotlib.pyplot as plt

                                                                            株情報を取得するAPIどれが良い - Qiita
                                                                          • Pandasで超簡単!WEBスクレイピング(表・htmlのtable取得) - ビジPy

                                                                            WEBスクレイピングとは、WEBサイトから情報を自動的に取得し、必要に応じて、情報の加工などを行うことです。取得したデータは、ファイルやデータベースに保存します。 WEBサイトに公開されている情報は、テキスト情報や画像、動画など様々な情報がありますが、その中の1つとしてテーブルに格納されている情報があります。 Pythonのデータ分析用ライブラリPandasではread_htmlという関数を利用して、WEBサイト上のテーブルに格納されているデータを非常に簡単に取得することができます。 また取得したデータはPandasのDataFrame(データフレーム)と呼ばれるデータ構造を利用してすぐに分析やグラフ化、データ保存することもできます。(DataFrameの詳しい説明は、こちら「Pandas DataFrameの基本」を参照ください。) これらPandasを用いたWEBスクレイピング方法は、

                                                                              Pandasで超簡単!WEBスクレイピング(表・htmlのtable取得) - ビジPy
                                                                            • ChatGPT のCode interpreterまとめ(更新中)

                                                                              2023年7月7日にアナンウンスがあり、Interpreter 機能がChatGPT Plusユーザに順次開放される コードの実行と、アップロードしたファイルへのアクセスが可能。 Pythonの環境 この環境は、OpenAIが提供する対話型のPythonコード実行環境です。具体的な特性は以下の通りです: Python 3.7+を使用しています。 機械学習やデータ分析に使われる主要なライブラリ(pandas、numpy、scikit-learnなど)がプリインストールされています。 インターネットアクセスが無効化されています。したがって、新たなパッケージのインストールや外部APIへのリクエストなどが行えません。 状態はセッション間で保持されません。つまり、セッションが終了すると、それまでの変数の値や計算結果は全てクリアされます。 ユーザーがアップロードしたファイルやユーザーへのファイルのダウ

                                                                                ChatGPT のCode interpreterまとめ(更新中)
                                                                              • サイバーセキュリティプログラミング 第2版

                                                                                情報セキュリティ技術者の必携書がPython 3に対応して大幅改訂。本書ではPythonを使ったサイバー攻撃手法について解説します。基本的な通信プログラムからProxyやRawデータ、Webアプリケーションへの攻撃やトロイの木馬の動作、そしてフォレンジック手法やOSINTまで、攻撃者の実践手法から防御方法を学びます。日本語版オリジナルの巻末付録として「Slackボットを通じた命令の送受信」「OpenDirのダンプツール」「Twitter IoCクローラー」を追加収録しました。 賞賛の声 序文 訳者まえがき まえがき 1章 Python環境のセットアップ 1.1 Kali Linuxのインストール 1.2 Python3のセットアップ 1.3 IDEのインストール 1.4 コードの健全性 2章 通信プログラムの作成・基礎 2.1 Pythonによるネットワークプログラミング 2.2 TCPク

                                                                                  サイバーセキュリティプログラミング 第2版
                                                                                • HTML から本文のテキストだけを抽出する Python コード例(見出しタグと見出しに属するテキストを取得)

                                                                                  HTML から『本文だけ』をキレイにスクレイピングする簡単な Python コード例を書きました。 ※ 通常のテキスト取得方法はこちらに書きました。 【Python】HTML からテキストを抽出するコード例【lxml.html】 種々雑多しゅじゅざったな HTML から、本文だけをねらって抽出する、汎用的はんようてきなコード例です。 for 文と while 文を使用して、『見出しタグと同じ階層にあるタグ』を取得していくアプローチになります。 『見出しタグ』と『見出しタグに属するテキスト』を対応づけて抽出していきます。 このアプローチで本文抽出を行った結果、本文以外のノイズを含まない、キレイなテキストを取得することができました。 サイドバーやフッターなど、本文とは関係ないテキストを、キレイに除去することができました。 本文に『見出しタグ (h1-h6)』を使用している普通の HTML であ

                                                                                    HTML から本文のテキストだけを抽出する Python コード例(見出しタグと見出しに属するテキストを取得)