インスピレーションの火花を灯す

2023/10/28



Spellbrushでは、AIツールの企業として直面している最大の問題の一つは、人間の創造性です。人々がテキストから画像に変換するテクノロジーに驚嘆しても、それはまだテキストを必要とします。世界中のあらゆる画像を表示できる高度なテキスト・ボックスに直面しても、50%の人々はすぐに去ってしまいます。理由は簡単で、彼らは何を入力すればいいのかわからないからです。

媒体を問わず、創造性の最大の敵は白紙のキャンバスです。

この闘争は現代の問題ではありません。古代より人類は創造性や発想を刺激するシステムを考案してきました。

この開発ログでは、イマジネーションツールと、想像力を刺激するために niji モバイル アプリを設計したユニークな方法についてお話します。

クレロマンシー:世界最古の乱数

そのようなシステムの最古の例の一つは、紀元前1000年に考案された六芒星を集めた「易経」です。

占い師はセイヨウノコギリソウの茎を描き、64文字の表に基づいて描かれた茎を解釈し、それをもとに神の意図を解釈します。

易経六芒星、ウィキペディアより

ここで、占いとインスピレーションとがどう関係しているのか疑問に思われるかもしれません。

実際、両者は非常によく似ています。考えてみてください。昔恐れられていた悪魔やドラゴンは、日私たちが想像上のものとして考える幻想的な生物です! そこで私たちは易経のような体系を研究します。なぜなら、"信念 "は "想像力 "の前兆だからです。

これを世界初の乱数発生器と呼ぶ人もいます! 私たちのシステムを「テキストから画像への変換」と考えると、これは「ランダム性からテキストへの変換」です。 当時、「易経」は興味深いアイデアの源泉を提供するだけでなく、神の行いや国家政策に直接関係するものとして崇拝され、さらに国家政策にも影響を与えました!

生成AI:ランダム性の意味

生成AI の時代になっても、人間は依然として、ランダム性によって想像力を刺激することに魅了され続けています。

生成AI 技術の第一波として、私たちの以前のプロジェクトであるWaifu Labsは、ランダム性を画像に変換するマシンです。

数字を1つずつ増やしていくと、このように滑らかでブレンドされた効果を得ることができます:

拡散技術が成熟すると、私たちは方程式の前半部分を置き換えました:つまり、「ランダム性から画像への変換」から「テキストから画像への変換」に変更しました。 乱数をふるいにかけてアイデアを見つける代わりに、それを直接促すことができるようになりました:

Girl with blonde twintails, blue eyes, black armor, roses

上のプロンプトでは、バラの色を指定しませんでしたが、AI が提案を行いました。 ただし、「ヘテロクロミア(※日本で言うオッドアイ)、ツートンカラーの髪」と入力しようとした多くのユーザーは気づいているかもしれませんが、このようなシステムの設計は、制御と偶然性、つまりユーザーの意図を解析することと、偶然性との微妙なトレードオフなのです。

しかし、この状況における矛盾は次のとおりです:言語は意図を示す最も直接的な方法です。 (「登場人物たちがただ会話していれば、こんなことにはならないのに」と思いながら見ているドラマがどれだけあるか考えてみてください。)

テキストがすでに最適なコントロール形式である場合、どうすればテキストから画像への変換より優れた形式を実現できるでしょうか?

ソーシャルメディア:洗練された偶然性

意図の問題を解決するために、想像力の問題を別の角度から評価してみましょう:人間がアイデアを形成するためには、既存のアイデアを消費する必要があります。私たちは、クリエイティブなインターフェースがランダムなアイデアを提案することを望んでいますが、できれば、ノコギリソウの茎の山の中にある天の力からの意図のランダムな断片ではなく、私たちが関心のあるアイデアを提案してほしい。

驚くべきことに、この解決策は生成AI が登場する前から存在していました。

ソーシャル メディア アルゴリズムは、あなたが意図を説明するテキストを入力することに依存しません。 代わりに、さまざまなコンテンツについてシグナルを送信すると、シグナルの内容に基づいてコンテンツが調整されます。

これは、生成に関係なく、驚くほどうまく機能します:

X(Twitter)/Tumblr: テキストからテキストへ

Pinterest: 画像から画像へ

TikTok: ビデオからビデオへ

あなたはこのXからYへのソーシャルメディアのパラダイムを「アルゴリズム」と呼ばれているのを聞いたことがあるかもしれません。ソーシャルメディアは、ユーザーの好みに応じてコンテンツを収集し整理することで、より整理されたランダム性を提案します。

今日、ソーシャル メディアはカジュアルなネットサーフィンに役立つだけでなく、現代のクリエイティブ業界の定番となっています。 私たちの消費を収集して分類することは、人間がアイデアを洗練する方法であり、今日のほとんどのフィード アルゴリズムはこの動作を拡張しています。

これらのアプリがあなたの考えを整理する方法には、多大な洗練(お金も!)がいります。

シングルアイテム、ネガティブシグナル

TikTokのようなアプリには、シングル幅のフィードが搭載されています。このタイプのアプリでは、ユーザーは順番にすべてのアイテムを処理するよう求められます。このタイプのアプリでは次のような質問が行われます:

「このアイテムを見て、好きですか、嫌いですか?」

ユーザーがビデオをスキップして通り過ぎるということは、そのビデオが気に入らないということを意味します。

マルチプルアイテム、ポジティブシグナル

対照的に、xiaohonshu のような複数幅のフィードを表示するアプリでは、並べ替えアクションが変更されます。このタイプのアプリでは次のような質問が行われます:

「この画面のアイテムを見て、最も気に入ったものを選んでください」

このタイプのパラダイムでは、スキップが必ずしも嫌いと見なされるわけではありません。それは同じページ上の他のものほど良くないだけです。

マルチプルアイテム、条件付きシグナル

次に、Pinterestのようなアプリがあります。これはまったく異なる質問をします。

「これらの選択肢の画面でどれが関連しているように見え、そしてそれらがあなたの心の枠組みのどこに属しているのか?」

それはxiaohongshuの質問の拡張であり、あなたに関連するものを選び、それにカテゴリを見つけるように頼むものです。

これらはすべて、AI を通じて人間の意図を表現しようとしたさまざまな方法です。 このインタラクションの重要な部分は、ユーザーが独自のコンテンツを作成するように求められるのではなく、既存のコンテンツについて決定を下すことで意図を表現することです。

描き方を知ることと、自分がどんな絵が好きなのかを知ることは違います。一般的に、人々は前者はできませんが、後者は非常に得意です!

既存のアイデアを分類することは、想像力を強力に刺激します!

アイデアのカササギ

※カササギ、世界で最も知的な生物の1つであると考えられているカラス科の鳥

niji モバイル アプリの制作中に、私たちは生成AIのワークフローでインスピレーションを呼び起こすために同様の方法を使えないか自問しました。AI画像モデルで「コンテンツ生成」の部分は対応しましたが、ユーザーをその意図に近づけるために、洗練されたインタラクションデザインを通じてガイドできるかどうかを考えました。

nijiモバイルのインタラクションの中心は、アイデアの収集です。プロンプトはクリック可能なタグに分割され、ユーザーはそれを自分のプロンプトに組み込むことができます。

断片的なアイデアのミックス

ピースごとのタグ付けシステムにより、ユーザーはコンセプトを分割して、それを自分のプロンプトに面白い方法で再配置することができます。

瞬間からアイデアを収集する

ユーザーはライブストリームからタグを収集することができます。これは、アプリ内ですべてのユーザーが生成しているものの瞬間瞬間のハートビートを表示しています。

コレクションからアイデアを収集する

新しいアイデアの大量供給を望まない場合は、ユーザーは特定の他のユーザーからタグを収集することができます。

テキストから画像への変換であることは変わりないが、テキストをより生き生きとしたものにしました。

私たちがここで作り上げているのは、アイデアは環境的なものであるというコンセプトです。建物上のマーキングがその機能に影響を与えないのと同じように、タグは作成フローに影響を与えません。しかし、私たちはあなたがカササギのように持って行くことができるプロンプトでアプリの隅々までカバーしています。

このやり取りを考えると、あるビデオゲームが思い浮かびます

ダークソウルでは、プレイヤー同士が環境にメッセージを書き込むことができます。

このテキストは、テキストから画像への変換システムがどのように機能するかについてあまり経験がない可能性がある新規ユーザーにとって特に重要です。 niji モバイル アプリに足を踏み入れた新しいユーザーは、チュートリアルで使い方を学ぶ必要はなく、周囲の他のユーザーのプロンプトを見て学ぶことができます。

テキストを越えて

もちろん、テキストは始まりにすぎません。 私たちの研究チームは、ユーザーの意図を解釈する新しい形式に興味を持っています。

絵を評価してもらうことで、あなたの個人的な好みを予測できるとしたらどうでしょうか? 携帯電話のカメラを使って絵にポーズつけることができたらどうでしょうか?

想像力研究の分野では、今は前例のない時代です。 Discord とモバイルの両方で私たちが取り組んでいる新しい制御スキームにご期待ください。

niji・journey はこちらからご覧いただけます。

いつものように、この旅にご一緒いただきありがとうございます!

関連する記事

にじジャーニー

にじジャーニーとはなんですか?

あなただけのオリジナルアニメイラストを描く、最先端 AI "にじジャーニー" へようこそ!SpellbrushMidjourney が共同でデザインした、魔法のようなツールです。キュートなちびキャラからダイナミックなアクションシーンまで、にじジャーニーはあなたの思いをカタチにします。皆さんが作成した作品を見るのが待ちきれません!

Download on the App StoreGet it on Google Play

Where can we find you?

AI 研究者でアニメが好きな方は、ぜひ [email protected] までメールでご連絡ください。

その他、就職活動中の有能な方には、当社の採用ページでその他の募集職種もご用意しております。

商用利用に関するお問い合わせやスタジオライセンスについては、[email protected] までお問い合わせください。