Gaudiy Tech Blog

Gaudiyの技術、開発組織、カルチャーについてお伝えするブログです

ファン国家のために"人類の失敗"を代替する。Gaudiyがデータサイエンスと機械学習をやっていく話

はじめまして。ファンと共に時代を進める、Web3スタートアップ Gaudiy の tatsuki (@tatsukiiine)と申します。

Gaudiyは、誰もが好きや夢中で生きられる社会「ファン国家」の創造をビジョンに掲げ、その実現をエンタメ領域から目指しています。

note.com

この「ファン国家」は、単一の巨大なコミュニティというよりは、多様な価値観や熱量をもっている無数の「マイクロコミュニティ」が相互に繋がり合うネットワークのようなものです。それは、情熱、創造性、ビジネス、テクノロジー、そして多くの人々の相互作用が渦巻く、複雑でダイナミックなエコシステムになるはずです。

しかし、このようなマイクロコミュニティが中心となるエコシステムの運営は、よく行われるプロダクト運営の手法では太刀打ちできないと考えています。

そこで本記事では、そんな課題に対する解決手段として、社会シミュレーションの技術と、それを支えるデータサイエンス・機械学習について書いていこうと思います。

意図と結果はよくずれる

まず前提として、社会をある結果に導くべく行動し、想定しない結果をもたらしたといった事象は、歴史上無数に存在します。

たとえば、コブラ効果はかなり擦られている話ではありますが、これは史実ではなく、経済学を説明するためにホルスト・ジーベルトにより導入された寓話、というのが真実に近いそうです。もちろんコブラ効果で括られる実話は数多く存在します。

インドを統治していた英国のインド総督府は、デリーにおける多くの毒ヘビ特にコブラの害を脅威と看做し[3]、コブラの死骸を役所に持ち込めば報酬を与えることにした。

最初のうちは報酬目当てに多くの蛇が捕獲されたので巧くいくと思われていたが、蛇の死骸を多く持ち込めば収入が多くなるのなら蛇を捕獲するよりは蛇を飼って増やせば良いと目先の利く連中がコブラの飼育を始めてしまうことになった。

蛇を減らす目的の筈が反って蛇を増やす原因になったことを重く見て、この施策は取り止めになった。

この結果報酬目当てに繁殖していたコブラが野に放たれ、コブラの数は施策が行われる以前よりも増加してしまった。一見正しそうな問題解決策は、状況をさらに悪化させた[2][4]

ja.wikipedia.org

また少しスケールが小さくなりますが、ストライサンド効果も類似の例として挙げられます。 ja.wikipedia.org

僕はこの手のうんちくを収集するのが好きなのですが、どの例をとっても想定通りいかなかった介入者の哀愁が垣間見えておもしろいです。

複雑なエコシステム

このような意図と結果の乖離には様々な要因が絡んでいますが、ここでは2つに着目したいと思います。

ひとつめは、社会が単なる部品の寄せ集めではなく、無数の要素が相互に影響し合い、非線形かつ予測不能な振る舞いを見せる複雑系であるということ。

こうした複雑系において特に注目されるのが、完全な秩序と無秩序なカオスとの狭間、いわゆる「カオスの縁」と呼ばれる状態です。この領域では、系は硬直化することなく、かといって崩壊するほどの不安定さもなく、自己組織化や新たなパターンの創発、そして環境への適応が最も活発に行われるとされています。

このような状態は、創造性や革新性が生まれやすい、社会のあるべき姿であるといえますが、絶妙なパラメータの調整が必要であり、狙って実現することは困難を極めます。

www.kodansha.co.jp

ふたつめに、そのシステムを構成し、ときに介入しようとする我々人間自身も、単純ではない「複雑な合理性」の中で動いているということ。

この点は、ノーベル経済学賞を受賞したハーバート・サイモンが提唱した「限定合理性」の概念によって深く掘り下げられています。人間は完全な情報や無限の計算能力を持つわけではなく、自身の認知能力の限界の中で意思決定を行っており、必ずしも常に「最適な」選択をするわけではない。むしろ、利用可能な情報の中から満足のいく結果をもたらしそうな選択肢を探索し、決定に至るという、より現実的なプロセスを辿ります。

ja.wikipedia.org

さらに、我々の意思決定は、経験則(ヒューリスティクス)に頼る一方で、それはいわゆる「認知バイアス」を生む原因ともなり得ます。たとえば、自分の信念を支持する情報を優先的に集めてしまう確証バイアスや、最初に提示された情報に過度に影響されるアンカリング効果などが知られています。

このように、人間の合理性は、認知的な制約や心理的な傾向によって、多層的に「複雑」なものとなっているのです。

高速なエコシステム

またIPコンテンツのマイクロコミュニティにおいては、システムが変化するその時間的速度についても言及すべきことがあります。それは、IPコンテンツのライフサイクルが早まりつつあるという言説です。

『コンテンツビジネスのデザイン』 https://www.unijapan.org/producer/pdf/producer_304.pdf

以前までは、製作委員会方式やメディアミックス戦略への言及が多かったようですが、近年ではさらに、グローバルプラットフォームによる流行の高速化や推薦アルゴリズムへの適合によるショート化が要因として加わり、そのスピードはますます早くなっています。(動画コンテンツを主題としていますが面白い議論があります)

www.cogitatiopress.com

ここで言いたいことは、「スピードを遅めよう」ということではありません。

クリエイターがしなければならない重要な意思決定が、コンテンツのライフスパンが短縮されたことにより、短いタームで押し寄せてくる状況にある、ということです。

意思決定のためのAgent Based Modeling

この意思決定において、人類は、その質を科学で進化させてきました。基本となるのは、小学校でやった「対照実験」です。

アサガオの鉢を用意して、葉の一部をアルミニウムはくで覆って1日暗所で寝かせる。その後日光に十分当てた後に脱色してヨウ素液につけると、はくで覆っていた場所以外が青紫色になるというアレです。

この「比較して確かめる」というシンプルな知恵は、近代、かのR・A・フィッシャーによって統計的な厳密さを与えられ、RCT(ランダム化比較試験)、つまり現代でよく言うところのA/Bテストへと発展しました。

bookplus.nikkei.com

重要な意思決定で致命的なミスを犯さないためには、A/Bテストが有効です。

名だたるTech企業の成功は、A/Bテストを徹底的に活用し、データに基づいてサービスを改善し続けたことに依る部分も大きいです。ソフトウェアプロダクトの世界では、ある新機能を試したいと思ったら、ユーザーの半分を「アルミはくで覆い」、残り半分に新機能を提供して、どちらが良いかを比較検証することができます。

www.uber.com

しかしながら、IPコンテンツはそれとは異なります。なぜなら、一つ一つの施策は本番であり、短いライフスパンの中で意思決定が連続するからです。

またファンコミュニティは、個々のファンが様々な相互に繋がり合う世界です。そのため、半分のユーザにだけイベントを実施したり、グッズを販売することができず、実験をすることが難しいという特徴があります。

そんなIPコンテンツにも、もしかしたら実験環境が用意できるかもしれません。それは、LLMの進歩によって現実味を帯びてきた「Agent Based Modeling(ABM)」による社会シミュレーションです。

もし、IPエコシステムを構成するファンやクリエイターの振る舞いをリアルに再現できるAgentを作り出し、彼らが相互作用する仮想世界を構築できたなら、 そこは、現実では不可能な「実験」を心ゆくまで行える、理想的なテストベッドになるはずです。

www.nature.com

この「社会シミュレーション」という手段は、Gaudiy AI Teamが以前から追いかけているテーマでもあります。

実は、Generative Agentsの取り組みは、自分が元々やりたいと思っていたことにかなり近いんです。それは、社会のシミュレーションを実現すること。金融のキャリアのなかで「社会科学系の実験のしづらさ」を感じていて、社会の実現するパスがひとつしかないために検証ができないのはバグだと思っていました。 (中略) この問題は、Generative Agentsを使った社会のシミュレーションを実現できれば解決に近づきます。そのために、人間の感情までも再現できるようにしていきたいと考えています。

note.gaudiy.com

この記事を書いている最中にも、いくつかの大学とAmazonの共同研究チームからある論文が出ました。

ユーザペルソナからLLM Agentの母集団を生成し、サンプリングしてControl/Treatmentに割り振り、Amazon.comのサイドバーにデザイン差分を作る。現実でも同じように当ててみて、現実と仮想における反応の傾向を見たら概ね一致していたという内容です。(ただしアウトカムに至るまでのアクション回数などは大きく傾向が違うそうで、これも考察のしがいがあります)

あくまで複雑系ではなく、個人とプロダクトのインタラクションにおける集団としての傾向を一致させられるということですが、部分的にはすでに実現できる可能性が高いといえます。

arxiv.org

人類の偉大な発明やイノベーションは、常にそれ以前の人類の能力の限界を代替してきました。馬車が自動車に、算盤がコンピュータに。

僕たちは、社会シミュレーションによって、IPコンテンツにおける「実験できない」という制約、そしてそこから生まれる「あり得たかもしれない」失敗を代替したいと考えています。

社会シミュレーションとデータサイエンス

僕はGaudiyの「ファン国家」の創造というビジョンのために、Gaudiyにデータサイエンスチームを立ち上げることにしました。

前章までで述べたように、IPコンテンツとファンが織りなす複雑でダイナミックなエコシステムにおいて、より良い意思決定を行うためには、社会シミュレーションが有望なアプローチとなります。

特にファン国家においては、単に経済圏を機能させるだけでなく、個々のファン活動がコミュニティ全体のIPコンテンツ認知や消費へ与える正負の影響――経済学でいうところの「外部性」を捉え、それが当人のインセンティブとして適切に評価される仕組みも重要になります。

この点で、ファンひとりひとりの貢献を計測・可視化しうる社会シミュレーションは、ファン国家の基盤技術とも言えると考えています。

そして、この信頼性の高い社会シミュレーションを実現するためには、データサイエンスや機械学習の力が不可欠となります。

なぜなら、シミュレーションを実現するという目標は、突き詰めれば、従来のデータサイエンスおよび機械学習が長年取り組んできた核心的な技術課題と深く重なり合っているからです。具体的には、以下の3つの技術要素が不可欠だと考えています。

image: Flaticon.com

第一に、「解釈」の技術。シミュレーションの根幹をなすAgentが現実の人間の複雑な振る舞いを、どれだけ忠実に再現できるかが肝です。

そのためには、人間の行動を深く「解釈」する能力が求められます。効果検証や因果推論の技術をベースに、心理学・社会学などを取り込んだMixed Methodsのような形が望ましいと考えています。

正直なところ、因果推論 x Mixed Methodsの全体像はまだ描けていない(業界でのコンセンサスもまだ薄い)ですが、いわゆる「定性リサーチ」の部分については、LLMを使ったプロダクトが台頭してきており、これから熱い領域になると思っています。

wondering.com

第二に、その解釈に基づいて未来を「予測」する技術。個体としてのAgentの行動(e.g. あるファンが次にどんなコンテンツに興味を持つか)から、それらが相互作用した結果として創発するマクロな現象(e.g. 特定のIPに関する話題がコミュニティでどれだけ拡散するか、市場全体のトレンドがどう変化するか)まで、様々なレベルでの予測が求められます。

個体レベルについては、短期的なコンバージョンの推定から始め、サロゲートインデックスなどを経由して長期指標の予測へと移っていくことになると思われます。

developers.cyberagent.co.jp

コミュニティレベルになると、相互作用を加味した予測が必要となるため、集団としての振る舞いから始めるのが良いと思います。グラフニューラルネットワークなどが先駆けとなっていると思われるので、そのキャッチアップに励んでいます。

そして第三に、予測に基づいてコミュニティを健全な成長へ導くための「最適化」の技術。これは画一的なトップダウン制御を意味せず、前述の「カオスの縁」のようなダイナミクスにより、全体のポテンシャルを最大化することを目指していきます。

これは冒頭のGaudiy CEOのnoteでも触れられていますが、人の多様性(参加人数)とコラボレーションの深度を両立した社会に求められる、適応型の行政システムと考えていただくと良いかと思います。

wrl.co.jp

こちらも個体レベルから始め、情報推薦や強化学習の知見を活かしていきます。コミュニティレベルでは、近年最適化自体をモデル学習の対象とする、Learn-to-Optimizeなども来ていそうです。

academic.oup.com

これらの「解釈」「予測」「最適化」という技術的要求に応えるためには、多様な専門性を持つデータサイエンティストと機械学習エンジニアが集い、協働することが不可欠です。要求される技術スタックは広範であり、その多くは日進月歩で進化しています。

正直に言って、たとえば人間の感情や文化といった本質的に捉えにくい要素のモデル化のように、未だ確立された方法論が存在しない領域も多く含まれていると認識しています。我々自身も、常に最新の知見をキャッチアップし、未知の領域を自ら切り拓いていく必要があると思っています。

データサイエンスチームがいまからやること

ここまでの話を読んで、どんな夢想家だ。と思われてしまっているハズなので、最後に直近の話もさせてください。

僕自身は、どちらかというとリアリストです。ファン国家というGaudiyのビジョンを成し遂げるためにも、足元のアウトカムについて重めに考えています。やるべきことは大きく2つあります。

ひとつめは、Gaudiyのプロダクトと組織へのデータサイエンスのインストールです。

Gaudiyのプロダクトは、新機能開発によるシード期から、既存機能の磨き上げとUXの追求というグロース期へと移行すべき段階にきています。効果検証・レコメンデーション・時系列解析など、グロース期に必要なものを、まずはプロダクトと組織にインストールするところから始めたいです。

ふたつめは、既にGaudiyでGenerative AIを中心に活動してきたGaudiy AI Teamとのコラボレーションです。

ABMでの連携は今まで論じてきた通りではありますが、データサイエンスチームが持つ統計解析、情報推薦、予測モデリング、最適化といった強みと、AIチームが持つGenerative AIの技術を組み合わせることで、単独では実現できない大きな価値を生み出せると考えています。

note.com

かくいう僕自身も、PdMとしてAIプロダクトを鋭意開発中ですが、Gen AIの技術だけでプロダクトインすることの難しさを感じています。

特にビッグデータのハンドリングにおいては、従来のML・DSの技術を積極的に活用した方がいいです。例えば、RAGの検索精度がAIプロダクトそのものの性能に大きく影響することは開発者であれば骨身にしみるところですが、検索結果をRe-Rankingする部分に、精度とパフォーマンスの観点で従来のLearning-to-Rankは今再注目を浴びています。

www.elastic.co

情報の解釈に関しても、構造/非構造化データに関わらず、データ量が多い場合には教師なし学習のアプローチを使った圧縮が有効であると思います。

aclanthology.org

長くなってしまいましたが、これが僕たちが描く構想とその現在地になります。

人類の未来を、データサイエンスと機械学習、そしてAIの力で明るくしたい。この挑戦に、少しでもワクワクしてくれたなら、ぜひカジュアルに一度お話しさせてください。

Gaudiyには、正社員でも副業でも、どんな形からでもコミットできる企業文化があります。

site.gaudiy.com

special.gaudiy.com