タグ

ブックマーク / zenn.dev/shu223 (9)

  • WWDC23 "Integrate with motorized iPhone stands using DockKit"の要約

    DockKitが初めて発表されたときのWWDC23のセッション "Integrate with motorized iPhone stands using DockKit" (DockKitを利用した電動iPhoneスタンドとの統合)を要約しました。 なおiOS 18でのDockKitの新機能について知りたい方はWWDC24の "What’s new in DockKit" を要約した下記記事をご参照ください。 またDocKit入門には下記記事がおすすめです。 セッションは一世代前のものではありますが、しくみの解説等このセッションでしか述べられていない内容も多く、WWDC24以降でDockKitに興味を持った方にも有益かと思います。 DockKit入門 - Introduction to DockKit DockKitとは DockKitは、iPhoneを電動カメラスタンドの中央演算装置

    WWDC23 "Integrate with motorized iPhone stands using DockKit"の要約
  • ローカルLLM on iOS の現状まとめ

    2024年3月5日に開催されたイベントで発表した内容です。 スライドはこちら: またLTで全然時間が足りなかったので、イベント終了後にひとりで撮ったプレゼン動画がこちら: 以下、発表資料を記事として再構成したものになります。登壇後に調査した内容も追記しています。 「ローカルLLM on iOS」のデモ オンデバイスで [1]処理してます APIは叩いていません 倍速再生していません 8.6 tokens/sec iOSローカルでLLMを動かすメリット オフラインでも動く プライバシーが守られる(データがどこにもアップされない) どれだけ使っても無料 モバイル端末スタンドアローンで最先端の機能が動作することには常にロマンがある iOSでローカルLLMを動かす方法 大きく分けて2つ llama.cpp Core ML llama.cpp LLMが高速に動くランタイム C/C++製 Georgi

    ローカルLLM on iOS の現状まとめ
  • [visionOS] ARKitで検出したシーンのメッシュを可視化する

    記事でやりたいこと: visionOSで、ARKitのScene Reconstructionで検出したシーンのメッシュを可視化したい。 iOSでScene Reconstructionのメッシュを可視化した例。これをvisionOSでやりたい。 方法のひとつとしては、Xcodeの "Visualizations" 機能を使えば、ポチッとチェックを入れるだけで可視化できる。 が、そうではなくて、プログラムからシーンのメッシュを描画するにはどうするか、という話。 公式サンプルの実装は何が足りないか visionOSにおけるARKitのScene Reconstructionについて、公式チュートリアルが公開されている: 以前はドキュメントだけだったが、サンプルコードも最近公開された。(※ ARKitなのでVision Pro実機でしか動作確認できない(シミュレータでは動かない)) このチュ

    [visionOS] ARKitで検出したシーンのメッシュを可視化する
  • エンジニアと労働集約からの脱却

    長年フリーランスエンジニアとしてごはんをべてきた著者が、時給ベースの労働集約型「ではない」マネタイズ方法をいろいろと模索した内容をまとめました。(カバーイラスト by リルオッサ)

    エンジニアと労働集約からの脱却
  • iOSで文字認識(Text Recognition)

    iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

    iOSで文字認識(Text Recognition)
  • iOSでインドアマップ(屋内の地図)を表示する

    iOSで、次のようにインドアマップ(屋内の地図)を地図上にオーバーレイ表示する機能があります。 地図上にインドアマップの「画像」をオーバーレイすること自体は昔から可能だった[1]のですが、iOS 13以降から IMDF (後述)というフォーマットで記述された GeoJSON をMKGeoJSONDecoderというAPIでデコードし、MKMultiPolygon, MKMultiPolyline, MKMultiPolygonRenderer, MKMultiPolylineRendererといったAPIを使用してマップ上にオーバーレイできるようになりました。データフォーマットが規格化され、さらに描画APIが整備されたことにより、汎用的かつ統一感のあるインドアマップ表示が可能になったわけです。 Indoor Mapping Data Format(IMDF) IMDFは、インドアマップを表

    iOSでインドアマップ(屋内の地図)を表示する
  • Core ML版Stable DiffusionをiOSで快適に動かす

    概要 Stable Diffusionとは 画像生成AI 入力テキストに応じて画像を自動生成するtext-to-imageモデル プロンプト: sadhu man in Rishikesh, India meditating near the Ganges river 2022.8 オープンソースとして公開 Core ML Stable Diffusion とは Core ML フォーマットに変換された Stable Diffusion のモデル 従来のモデルをAppleハードウェアで動かす => CPUのみ利用 Core MLモデル => CPU, GPU, Neural Engineを利用 → Appleのハードウェアを最大限活かせるのがCore MLモデル 詳細な最適化の解説: Core ML Stable Diffusion のリポジトリ Apple謹製 モデル変換コード、macO

    Core ML版Stable DiffusionをiOSで快適に動かす
  • Core BluetoothのL2CAP関連のドキュメントを全部読む - APIリファレンス編

    Core Bluetooth の L2CAP [1] 関連の公式情報はかなり少ない。WWDC 2017のセッション "What's New in Core Bluetooth" で言及はあったもののもう公式では動画は公開されていないし、サンプルは認識している限りでは公式では出てなくて、APIリファレンスがほぼ唯一に近い貴重な一次情報となっている。 そんな希少な一次情報を一通り網羅して把握すべく、Core BluetoothのL2CAP関連の全APIについてApple公式ドキュメント(APIリファレンス)の記載を集めてみた。 ストリーム系等、Core Bluetoothフレームワーク外のものは割愛。 翻訳は基的にはDeepL頼みだが、"peripheral manager" → 「周辺管理者」のような読みにくい翻訳結果は適宜修正 また記事は「APIリファレンス編」としているが、もう1つの

    Core BluetoothのL2CAP関連のドキュメントを全部読む - APIリファレンス編
  • whisper.cppのCore ML版をM1 MacBook Proで動かす

    OpenAI音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。

    whisper.cppのCore ML版をM1 MacBook Proで動かす
  • 1