2024 3Q 制作ノート 藤田麟太郎


作成日:2024.12.09

作成者: Rintaro Fujita


外部からの介入を通じた既製品の創造的誤用

1.導入

創造的な実践の発展は,しばしば誤用によって独創的な技術を生み出すことがあります.例えば,グランドマスター・セオドアとグランドマスター・フラッシュがターンテーブルを誤用してスクラッチを発明したことや,リード・ガザラのサーキットベンディングは,ショートや抵抗の変化を通じて電子楽器を新たな境地へと持っていきます.
これらの例は、意図的な誤用から生まれた表現の例として知られています.
今学期は,それらの手法を参考に外部からの介入を通じた既製品の創造的誤用をテーマに制作を行いました.また,交換留学先でのデザイン的取り組みも取り入れました.

2.背景

Figure 1: “Hackognition”

「音声認識のブラックボックスシステムにおける簡易的介入法の研究と創作物への応用」(Fujita & Allen, 2023)で,これらのシステムを理解し,創造的に活用する方法について議論しています .この研究では,高度なブラックボックス音声認識システムに介入するためのアナログ手法を探求しています.従来の介入手法をより洗練化されたものでも対応するべく,これらのシステムと対話するための並行アプローチが開発され,この手法を利用した創造的な作品が生まれました.その後,その有効性を評価するために,視聴者を対象にアンケート調査が行われました.図 1 に示す創造的な作品「Hackognition」は,この研究で開発されたシステムを適用しています.

Figure 2: “Recognition: capture(scene)”

図2に示すように,iPhoneのパノラマ機能を意図的に誤用した作品「Recognition: capture(scene)」が,コンピュータグラフィックスの国際会議であるSIGGRAPH ASIA 2024 Art Galleryに採択されました(SIGGRAPH ASIA Art Gallery,2024年).さらに,WIRED CREATIVE HACK AWARD 2024のファイナリストにも選ばれました(WIRED CREATIVE HACK AWARD,2024年)

そして,今学期取り組んでいるプロジェクトは,iPhoneの画像から文字を認識する機能を誤用した作品です.通常,この機能は,レシートや本などを撮影すると,画像から文字を選択できる機能ですが,今回のプロジェクトでは,この機能を誤用して,一見文字が見つからないような画像から文字を認識できる画像をデザインします.

3.目的

この研究の主な目的は、誤用の可能性を創造的ツールとして活用し、新しい芸術的表現を開発することです。これを実現するために、研究は以下の具体的な目標を中心に構成されています。

3.1. 誤用による新たな表現を模索する

この研究では,既存の技術やシステムを意図的に誤用することで,革新的な芸術技法や独自の表現形式が生まれる仕組みを検証します.ブラックボックスシステムの本来の使い方を覆すことで,技術的制約の中で創造性を発揮する機会を発見することを目指します.

3.2. 誤認識を誘発する画像のデザイン

テキスト認識ソフトウェアによる誤認識を意図的に引き起こす画像をデザインを目的にします.この研究では,そのような画像がどのようにして予期しない解釈を生み出すのかを探ります.

3.3. 多角的な誤認識する画像の調査

この研究では,視覚的構成を用いた制御された実験を通じて,iPhone のテキスト認識アルゴリズムの機能と限界を検証します.意図的に誤認識を引き起こすことで,どのような画像がどのような認識をするのかを明らかにすることを目的としています.iPhone のテキスト認識システムに焦点を当てるだけでなく,この研究ではデジタル カメラのスマイル シャッター機能も調べ,両方のテクノロジーを意図的に誤用して,その根底にある偏見と限界を明らかにする方法を探ります.

4.関連研究

Figure 3: “Google Maps Hacks”


この研究を裏付ける重要な例として,図 3 に示す Simon Weckert の Google Maps Hacksが挙げられます.この研究では,スマートフォンを詰め込んだカートを使用して,Google マップ上に架空の交通渋滞を作成しました.カートを道路に沿って繰り返し移動させると,システムの交通インジケータが赤に変わり,渋滞が再現されました.この例は,Google マップのようなブラック ボックス システムでも創造的に操作でき,誤用を芸術的表現に変えることができることを示しています.

Figure 4: “FATCHA”


関連する作品のもう 1 つの例が図 4 に示されています.これは,創造的なシステムの誤用に関する興味深い例です.「FATCHA」は,よく知られているテクノロジーの目的を反転させて,その限界や前提を浮き彫りにします.従来,CAPTCHA は,人間には簡単でコンピューターには難しいタスクに依存して,人間だけがクリアできるようにしています.「FATCHA」は,コンピューターだけが確実に達成できるタスク (画像内の顔認識) を要求することでこの考え方を覆し,人間の方が「失敗する」可能性が高いと位置付けています.この顔検出の誤用または再利用は,コンピューター ビジョンが芸術的かつ批判的に挑戦される方法を示し,機械と人間の知覚の境界に疑問を投げかけています.

5.方法

研究プロセスは,iPhone のカメラ機能の誤用可能性の調査から始まり,特に画像からテキストを認識する機能に焦点を当てました.当初,このプロジェクトはパノラマカメラ機能の拡張可能性を調査することを目的としていました.しかし,実験を通じて,iPhone のテキスト認識機能が意図的に誤用され,誤認識を引き起こす可能性があることが明らかになりました.

5.1. 事前検証

この可能性を探るため,iPhone のテキスト認識システムの限界をテストする一連の実験が行われました.これらの実験は,入力テキストをさまざまな方法で操作して誤認識を引き起こすことを目的としていました.図5に実験の結果を示します.

Figure 5: Scenes from each experiment


5.2. シミュレータ開発

これらの調査結果に基づいて,誤認識プロセスをさらにスムーズにシミュレートしてテストするためのシミュレータをSwift を用いて開発した.制御された仮想環境で iPhone のテキスト認識システムを再現するように設計した.

Figure 6: I2T iOS Simulator


図 6 は,Xcode のシミュレーション機能を使用して開発された I2T iOS シミュレーターを示しています.Xcode でiOS 17.4 で実行される iPhone のテキスト認識システムのシミュレーションを可能にします.これにより,テキスト認識アルゴリズムがさまざまな種類の画像をテストした際にどのように反応するかを体系的にテストできるようになりました.

6.制作プロセス

6.1. iPhoneのテキスト認識機能検証

Figure 7: Images used in initial experiments and their results


開発プロセスは,iPhone のテキスト認識システムの機能を評価するテストから始まりました.
人物画像のデータセットが使用され,6,000 枚を超える写真がシミュレーションされた結果,いくつかの画像が誤ってテキストとして認識されました.
図 7 は,これらの初期実験の一部とその結果を示しています.

Figure 8: Updated I2T iOS Simulator

Figure 9: Comparison before (left) and after (right) text recognition


その後,認識された領域を視覚的に表示するバウンディングボックスを追加し,結果を保存できるようにしました.さらに,複数の画像間で検出結果を区別するために色分けを組み込むことで,画像のどの領域が認識されているかを簡単に識別できるようになりました.図 9 は,領域がバウンディングボックスで強調表示された結果を示しています.

Figure 10: Comparison before (left) and after (right) text recognition

Figure 11: Comparison before (left) and after (right) text recognition


さらに,テキスト認識に信頼度スコアが導入され,実際のテスト中に信頼度スコアの高い画像を優先できるようになりました.この段階では,約 300,000 回のシミュレーションが完了し,信頼度スコアが 100% の画像を使用したテストが開始されました.図 10 は画像の信頼度値を示し,図 11 はこれらの信頼度値に基づく検証プロセスを示しています.

Figure 12: Comparison before (left) and after (right) text recognition

Figure 13: Testing with 30% confidence


これらのテストを通じて,信頼度スコアが約 30% の画像は,実際のテストで認識される可能性が低いことがわかりました.
同じバージョンのシミュレーションでも,認識されるテキストはテスト条件によって異なることが実験によってわかりました.図 12 は信頼度スコアが 30% の画像を示し,図 13 はこの信頼度レベルでテストされている画像を示しています.
当初は機械学習用のデータセットの画像をテストに使用されていましたが,誤認識を引き起こす画像をデザインすることにしました.

6.2. アルゴリズムによる視覚的特徴の識別
6.2.1. エクササイズ1: カメラのスマイルシャッターの誤用と,そのクリエイティブな活動やデザインへの応用.


目的:誤認識を引き起こす画像をデザインするにあたってどのようなものが反応するのかまずはシンプルなアルゴリズムで検証を行った.

使用ツール:
1) Stable Diffusion Web UI (https://github.com/AUTOMATIC1111/stable-diffusion-webui)を使用して画像を生成します.
2) OpenCV-haarcascades (https://github.com/opencv/opencv/tree/master/data/haarcascades)を使用した顔認識と笑顔の抽出

3) 生成モデル v1-5-pruned-emaonly (https://civitai.com/models/62437/v1-5-pruned-emaonly) を使用します.

4) Canon SX620HS カメラを使用して実際の画像を収集します.

方法:

1) 「Stable Diffusion」生成ツールを使用して画像を作成します.

2) 白い背景に正面から笑顔の人物を描いた抽象的な一線画としてデザインされた画像を約 1,300 枚収集します.

3) Canon SX620HS カメラのスマイル シャッター機能が,上記の画像で作成された抽象的な顔表現にどのように反応するかをテストします.

結果:

スマイル シャッター機能を抽象的な一筆書きのようなラインでテストしたところ,興味深い結果が得られました.

笑顔がはっきりと見えないにもかかわらず,スマイル シャッターは多くの場合笑顔を検出できました.これは,最小限の表現でも笑顔を認識できるシステムの堅牢性を示しています.

Figure 14: 1,300 generated images.


これは,笑顔の要素が抽象化されているにもかかわらず,システムによって認識された画像で明らかでした.図 14 には,生成された約 1,300 枚の画像の結果が表示されています.

Figure 15: Generated images that don’t look like smiles


システムをさらに強化するために, I2I を適用し,笑顔を隠すために水や木などの要素を追加しました.図 15 は,笑顔が判別しにくくなったものの,スマイル シャッターによって検出された画像を示しています.これらの画像を基に,

Figure 16: Images generated using I2I that look even less like a
smile


図 16 は,笑顔をさらにカモフラージュしながらも,スマイル シャッターが笑顔を認識できるようにするために I2Iを適用した例を示しています.
これらの変更にもかかわらず,スマイル シャッターは笑顔を検出し続け,笑顔がすぐに認識できない状況でも機能する能力があることを証明しました.この発見は,スマイル シャッターの認識アルゴリズムが,目に見える笑顔以外の微妙な手がかりに頼ることができ,顔の構造や目や眉毛などの主要な特徴などの要素を利用できる可能性があることを示唆しています.

Figure 17: 3,123 generated images


さらに,OpenCV の Haar like (https://github.com/opencv/opencv/tree/master/data/haarcascades) を使用して,生成された 3,123 枚の画像のデータセットに対してテストを行​​いました.
このデータセットの結果は図 17 に示されており,3,123 枚の画像すべてが顔認識アルゴリズムによって処理されています.

Figure 18: 97 selected images

Figure 19: Enlarged image of Figure 17


これらのうち,1,744 枚の画像が顔認識プロセスに合格しました.図 18 は,このセットから笑顔検出アルゴリズムによって笑顔が含まれていると判断された 97 枚の画像を示しています.

Figure 20: The final images are designed like op art


笑顔をさらに目立たなくしながらも笑顔の認識を実現するため,オプアートのようなデザインを取り入れました.
顔として認識されにくいこれらの画像は,図 19 に示すように,顔検出アルゴリズムと笑顔検出アルゴリズムの両方で正常に認識されました.このシステムの実際のパフォーマンスは,YouTube(https://www.youtube.com/watch?v=1T7N53XgvL0) で見ることができます.


まとめ:

Canon SX620HS カメラのスマイル シャッター機能は,顔の抽象的な表現から,笑顔が直接見えなくても笑顔を検出できました.
水や木などの不明瞭または抽象化された要素があっても笑顔を検出できるこのシステムは,スマイル シャッターが微妙な顔の手がかりや,眉毛や顔の構造などの他の特徴に頼ることができることを示しています.
図 20 に示すように,オプ アートのような表現を取り入れることで,抽象的なデザインで顔や笑顔を認識するシステムの能力についてさらに理解が深まり,より複雑で難しい視覚表現を作成できる可能性が示されました.


6.3. iPhoneのI2T認識機能を使ったテスト
6.3.1. エクササイズ1: ランダムに生成されたテキストの識別


目的:

ランダムな線の構成,特にベジェ曲線の使用が,テキスト認識アルゴリズムによってテキストとして認識されるかどうかを調査.

使用ツール:

1) 画像の生成と処理のための Google Colab

2) 抽象的な線画をデザインするためのベジェ曲線

3) テスト用のテキスト認識シミュレーター

方法:

1) ベジェ曲線を使用して,10 個のランダムなアンカー ポイントを滑らかな曲線で接続することで,抽象的な線画を作成しました.

2) Google Colab を使用して約 160,000 枚の画像が生成.

3) 生成された画像は,テキスト認識をテストするために設計されたシミュレーターで処理.

4) 結果を分析して,生成された画像のうちテキストとして認識された画像を判定.

結果:

生成された 160,000 枚の画像のうち,176 枚がテキストとして正常に認識されました.この結果は,ベジェ曲線をランダムに接続して作成された抽象的な線画であっても,認識システムによってテキストとして検出できることを示しています.この結果は,明確な文字構成がなくても,テキストの抽象的な表現はテキスト認識アルゴリズムによって認識できるという仮説を裏付けています.

Figure 21: Program to draw a Bézier curves from 10 random
points


図 21 に示すように,Google Collab で実装したプログラムを使用して,10 個のランダムなポイントからベジェ曲線を生成しました.

Figure 22: 160,000 images generated using Bézier curves

Figure 23: Enlarged image of Figure 22

図22は、生成された 160,000 枚の画像から選択したもので、これによって作成されたさまざまな線画での可能性を示しています.

Figure 24: Image recognized using iPhone text recognition


最後に,図 24 はテキスト認識システムによって正常に認識された 176 枚の画像を示しており,非常に抽象的な形式でもテキストを識別できるシステムの能力を強調しています.これは,ランダムに接続されたベジェ曲線から作成された抽象的な線画内のテキストを検出するシステムの有効性を示しています.


まとめ:

この実験は,ベジェ曲線をランダムに接続して作成されたものであっても,テキストの抽象的な表現がテキスト認識システムによって認識できることを実証しました.生成された 160,000 枚の画像のうち,176 枚がテキストとして正確に識別され,抽象的で非線形な表現でもテキスト認識をトリガーできるという仮説を裏付けています.


6.3.2. エクササイズ2: 線の装飾とデザイン


目的:

この実験の目的は,ベジェ曲線で作成された抽象的な線画にデザイン要素を加え,テキスト認識に使用する可能性を探ることです.

目標は,これらの抽象的な形式がテキストとして認識されるかどうか,およびさまざまなパターン,モチーフ,テキスト要素がテキスト認識システムによる認識にどのように影響するかを検証しました.

使用ツール:

1) 画像の生成と処理のための Google Colab

2) Stable Diffusion を使用して線にデザインを追加

3) テスト用のテキスト認識シミュレーター

方法:

1) ベジェ曲線をさまざまな方法で接続して連続線を形成し,約 20,000 枚の画像を生成しました.

2) 生成された画像をテキスト認識システムで処理し,これらの抽象的な形式内でテキストを検出する能力を評価しました.

3) Stable Diffusion を使用して線画内に微妙なテキスト要素を埋め込むことで,デザイン アプローチを拡張しました.

4) テキスト認識システムで変更したデザインをテストし,意図的なテキスト認識をトリガーする可能性を探りました.

5) 結果を分析して,認識パフォーマンスを向上させる可能性のあるパターンまたはモチーフを特定しました.

結果:

Figure 25: 20,000 generated continuous Bézier curves

Figure 26: Enlarged image of Figure 25

Figure 27: Image of continuous Bézier curves detected by
iPhone’s text recognition simulator


図 25 に示すように,連続線を形成する異なる接続のベジェ曲線で生成された約 20,000 枚の画像のうち,図 27 示しているように,テキスト認識システムによって正常に認識された画像は 1 枚だけでした.

この結果は,連続的な線画がテキストとして認識される可能性があることを強調すると同時に,特定のパターンやモチーフが認識パフォーマンスに大きく影響する可能性があることも示しています.

Figure 28: Image of continuous Bézier curves detected by
iPhone’s text recognition simulator


同様に,装飾による視覚デザインの向上という文脈では,図 28 に示すように,Stable Diffusionを使用して線画内に微妙なテキスト要素を埋め込む実験をしました.

これらは,テキスト検出システムによる認識を時々引き起こしましたが,意図的なテキストが常に行われるわけではありませんでした.
この結果は,抽象要素とシステムの認識機能を踏まえてデザインをさらに改良する必要があるということを示しています.


まとめ:

実験では,ベジェ曲線を使用して作成された抽象的な線画はテキスト認識を誘発する可能性はあるものの,一貫性のある意図的な認識はできませんでした.

結果は,認識の有効性は線のデザインと配置​​,および抽象的要素とテキスト要素の統合に大きく依存することを示しています.


6.3.3. エクササイズ 3: つる植物からテキストを認識する


目的:

テキスト認識システムが自然物内のテキストに似たパターンを識別できるかどうか,特につる植物に焦点を当てて調査します.

線画がテキスト認識を誘発する成功にヒントを得て,この実験では,つる植物のような現実世界の線でも同様にテキストとして認識できるかどうかを調べることを目的としました.

使用ツール:

1) 写真撮影 Canon M50

2) 画像前処理用 OpenCV(https://docs.opencv.org/3.4/da/d97/tutorial_threshold_inRange.html)

3) iPhone テキスト認識シミュレーター

方法:

1) データ収集:

2) 前処理:

3) テスト:

結果:

処理済み 250 枚の画像のうち,2 枚は iPhone テキスト認識シミュレータによってテキストを含むものとして正常に認識されました.これは,つるのような構造がテキストとして解釈される可能性を示していますが,成功率はベジェ曲線で生成された線画を使用した以前の実験と比較して大幅に低くなりました.

Figure 29: Image of a vine taken at IIT Bombay

Figure 30: Image of a vine taken at IIT Bombay

図 29 は実験で使用したつる植物の画像を示し,図 30 はラボで画像を撮影するプ様子を示しています.

Figure 31: Captured image converted to black and white using
OpenCV

Figure 32: Enlarged image of Figure: 30

図 32 は,OpenCV を使用して作成された 250 枚の白黒処理済み画像を示しています.


Figure 34: Detecting characters from vines


最後に,図 33 は,テキスト認識システムによって正常に認識された 2つの画像を示しています.この場合,システムは文字を「*」,「1.7.0」として認識しました.

結論:

この実験は,つる植物などの自然物は,成功率は低いものの,テキスト認識を時々トリガーできることを示しています.

7.まとめ

この研究は,iPhone のテキスト認識システムが人物のデータセットから画像をどのように解釈するかをテストすることから始まり,ベジェ曲線で生成された線画,抽象的なデザイン,さらにはつる植物などの自然物など,より現実的な形式にまで拡げて検証を行いました.

このプロセスにより,シンプルまたは抽象的な表現でもテキスト認識がトリガーされることが明らかになり,人間の知覚と機械の認識との差異が可視化されました.

この研究の重要な焦点は,誤認識を引き起こす画像を意図的に設計することでした.このアプローチは,特に Canon SX620HS カメラのスマイル シャッター機能の検証でで興味深い結果をもたらしました.

この機能では,抽象的な 1 本の線画の笑顔でさえ,システムによって笑顔として認識されました.

これは,認識システムが特徴の明確な可視性だけに頼っているのではなく,顔の構造や重要なポイントなどの微妙な手がかりによって影響を受ける可能性があることを示唆しており,これらのテクノロジーの堅牢性と潜在的なバイアスの両方を浮き彫りにしています.

研究の後半では,線画とつる植物を使った実験で,抽象的な形や自然物がテキスト認識を引き起こすことはあるが,成功率はまちまちであることが検証によりわかりました.

これらの不一致は,パターンと構造がシステムの認識機能と一致する必要があり,認識アルゴリズムを創造的に使用することの複雑さを強調しています.

最終的に,この研究は,創造的誤用可能性を浮き彫りにしています.テキスト認識の限界を意図的に押し広げることで,誤認識されたパターンや画像が表現活動に利用できる可能性を示しています.

9.参考文献



twitter    github

© Copyright 2025 | Kyoto Seika Latent Media Lab. | Scott Allen