AI ロボット FRIDA は絵を描くことができます。 しかし、それは芸術を作っているのでしょうか?
広告
による支援
心
カーネギーメロン大学の研究者は、抽象的なアクリルをペイントできる AI 搭載アームを開発しました。 それは芸術ですか?
オリバー・ワン著
オーディオ ジャーナリズムやストーリーテリングをさらに知りたい場合は、ニュース購読者が利用できる新しい iOS アプリである New York Times Audio をダウンロードしてください。
最近のある日、ピッツバーグのリスヒル地区にあるジーン・オーの研究室のテーブルで、ロボットアームがキャンバスに向かって忙しく動いていた。 ゆっくりと、まるで空気が粘性があるかのように、パレット上のライトグレーの絵の具のプールに筆を浸し、振り回してキャンバスを撫で、他の筆跡の群れの中に長さ1インチの跡を残しました。 それから、自分の仕事を評価するかのように、後ろに下がって停止しました。
ストロークは主に異なる色合いのグレーで、何か抽象的なもの、おそらくアリ塚を示唆していました。 カーネギーメロン大学ロボットインテリジェンスグループの責任者であるオー博士は、「私たちの中にアーティストがいます」と書かれたスウェットシャツを着て、承認の目で見守った。 彼女の博士課程の学生、ピーター・シャルデンブランドも並んで立っていた。
オー博士の研究には、ロボット ビジョンや自律飛行のトピックが含まれており、多くの場合、シミュレーションと現実のギャップとして知られるもの、つまり、シミュレートされた環境で訓練されたマシンが現実世界でどのように動作するかについて触れられています。 近年、シャルデンブランド氏は、安定拡散などの洗練された画像生成プログラムと、図面や絵画などの物理的な芸術作品との間のシミュレーションと現実のギャップを埋める取り組みを主導してきました。 これは主に FRIDA として知られるプロジェクトで顕著であり、その最新版は研究室の隅でリズミカルに音を立てていました。 (FRIDA は、Framework and Robotics Initiative for Developing Arts の頭字語ですが、研究者たちは、それが何を表しているのかを決める前に、フリーダ カーロに触発されてこの頭字語を選択しました。)
オー博士は、ロボットは「現実世界のノイズ」を考慮する必要があるため、言語プロンプトからピクセル化された画像、ブラシストロークに移行するプロセスは複雑になる可能性があると述べた。 しかし、彼女とシャルデンブランド氏、そしてカーネギーメロン大学のロボット工学者でFRIDAの開発にも貢献したジム・マッキャン氏は、この研究には次の2つの理由から追求する価値があると信じている。それは人間と機械の間のインターフェースを改善できる可能性があること、そして芸術を通じて人の役に立つ可能性があることだ。人々を互いに結びつける。
「これらのモデルは全員のデータに基づいてトレーニングされています」とマッキャン博士は、ChatGPT や DALL-E などのツールを強化する大規模な言語モデルについて言及しました。 「ですから、このようなモデルを使用したこのようなプロジェクトがどのようにして人々に価値を還元できるのかを私たちはまだ考えているところです。」
シミュレーションと現実のギャップは、ロボット工学者やコンピュータ エンジニアにとって驚くほど厄介な問題となります。 一部の人工知能システムは、歩行に必要なステップ (大腿四頭筋を締めて脛骨を後方に曲げ、体重を後ろに傾け、大殿筋を緊張させる) をリスト化し、仮想世界でシミュレートされた身体歩行を実行できます。 したがって、これらのシステムが現実世界で肉体を簡単に歩かせることができるのではないかと考えたくなります。
そうではありません。 1980年代、コンピューター科学者のハンス・モラベックは、AIは複雑な推論や膨大な量のデータの解析には長けているが、水の入ったボトルを手に取るような単純な身体活動は苦手だと指摘した。 これはモラヴェックのパラドックスとして知られています。 (人間の身体的優位性は、私たちの体の長い進化の歴史によって説明されるかもしれません。私たちにとって単純なタスクは、何百万年ものダーウィンの実験によって裏付けられています。)
高い概念のアイデアと基本的な身体的動作が混合されることが多い絵画は、人間の意識の不条理を腕の動きでどのように捉えることができるのかというパラドックスを浮き彫りにします。
Midjourney、DALL-E、Stable Diffusion などの AI 画像生成ツールは、画像と対応するテキストの説明の巨大なデータベースをニューラル ネットワークに供給することでトレーニングされます。 プログラムされた目標は、単語の意味と画像の特徴の間の関係をモデル化し、これらの関係を「拡散モデル」で使用して、特定の説明の意味を保持したオリジナルの画像を作成することです。 (「公園でピクニックする家族」というプロンプトは、使用するたびに新しい画像を生成します。それぞれが公園でピクニックする家族として理解できます。)