第14回 AIが進化しても、組織の同質化問題は避けがたいかもしれない―モデルを変えてもプロンプトを変えても超えられない壁

TOP Page

組織におけるAI活用術

AIと描く未来、働き方と組織の固定概念を変革し共に成長する物語。その先駆者となるマーケティング領域での実践的アプローチを、具体的な活用事例から探る。

組織におけるAI活用術

Text

中原柊

Date

May 11, 2026

組織におけるAI活用術

中原柊

Hakuhodo DY ONE

DXコンサルティング本部DXコンサルティング局
チーフAIストラテジスト

大手コンサルティングファーム、クリエイティブ系法人向けスタートアップを経て、現職。メディア、Webサービス、通信、エネルギー業界を中心に、DX企画、AI実装、CX改革、事業戦略、販促領域などに携わる。コンサルティング活動の傍ら、社内DX部門にて外部情報発信やAI系スタートアップとの協業に従事。クリエイティブ系法人向けSaaS企業にてCustomer Successを立上げ、契約更新率の大幅改善を達成。新規プロダクトの立ち上げ等も主導。現職においてはDXコンサルティング事業/組織の立ち上げを主導しながら、プロジェクトリード、及び、ブランディング/マーケティング活動に従事。また、博報堂DYグループでAI活用を進めるHCAI Instituteへ所属。主な著書に『DXの真髄に迫る』(共著/東洋経済新報社)。

過去のFresh EYEコンテンツは下記から読むことができます。

2023年4月からはこちら

前回、Andersonらの研究をもとに、AIが個人の発想を拡げる一方で、組織レベルでは発想の均質化が起きているという構造を紹介した。あの話を読んで、こう思った方もいるかもしれない。「それは特定のモデルの話でしょう？モデルが進化すれば解決するのでは？」

第14回 AIが進化しても、組織の同質化問題は避けがたいかもしれない
―モデルを変えてもプロンプトを変えても超えられない壁

前回、Andersonらの研究をもとに、AIが個人の発想を拡げる一方で、組織レベルでは発想の均質化が起きているという構造を紹介した。あの話を読んで、こう思った方もいるかもしれない。「それは特定のモデルの話でしょう？モデルが進化すれば解決するのでは？」「プロンプトを工夫すれば、多様な出力を引き出せるのでは？」と。

今回は、その楽観論に対して冷静なデータを突きつける二つの研究を紹介したい。結論を先に言えば、均質化はLLM（大規模言語モデル）の構造的な特性であり、モデルの世代交代でもプロンプトの技術でも、根本的には解消されない可能性が高い。

モデルは進化しても、創造性は進化していない

まず紹介するのは、Haaseらが2025年に発表した研究である（※1）。彼らはGPT-4、GPT-4o、o3-miniといったOpenAIの各世代モデルに加え、Claude、Llama、Grok、Mistral、DeepSeekを含む合計14のLLMを対象に、創造性テストを実施した。使われたのは、心理学で広く用いられる二つの課題だ。一つは、意味的に遠い単語を連想する「発散的連想課題（DAT）」。もう一つは、日常的な物の新しい用途を考える「代替用途課題（AUT）」。いずれも、人間の創造性研究で標準的に使用される指標である。

結果は明快だった。18〜24ヶ月にわたるモデルの進化を通じて、創造性スコアの向上は確認されなかった。そして、14のLLMが出した回答のうち、人間の創造性の上位10%に到達したものは、わずか0.28%だった。

Haase et al. (2025) Figure 2より。14の主要LLMが代替用途課題（AUT）で示した創造性スコアを、人間のパーセンタイルに換算して並べたもの。黒いダイヤが各モデルの平均値を示す。すべてのモデルが人間の中央値（赤い破線）を超えているが、大半は60〜80パーセンタイルに集中しており、上位10%に到達した回答はわずか0.28%にとどまる。GPT-4oやo3 Miniが比較的上位に位置するものの、モデルの世代が新しいほど創造性が高いという傾向は見られない。

この結果が示唆するのは、LLMの「賢さ」と「創造性」は異なる軸で動いている可能性があるということだ。推論能力やコーディング能力はモデル世代ごとに向上している。だが、発想の独自性や意外性といった創造性の核心部分は、モデルの規模やアーキテクチャの改善だけでは伸びていない。

なぜか。LLMは学習データの中から「最もありえそうな続き」を予測する確率モデルだ。いわば、膨大なデータから「最大公約数的な正解」を返す仕組みである。加えて、商用モデルには安全性や有用性を高めるためのアラインメント処理が施されており、これが出力の多様性をさらに狭める方向に作用することが複数の研究で指摘されている（※2）。つまり、モデルが「より賢く、より安全に」なるほど、出力は「より均質」になりうるのだ。

‍

プロンプトを工夫しても、集団の多様性は回復しない

「モデルの問題なら、使い方で補えばよい。プロンプトを工夫すれば多様な出力を引き出せるのではないか。」これもまた、自然な発想だ。Moonらの研究（※3）は、まさにこの問いに正面から取り組んでいる。

彼らは事前登録した三つの研究で、約2,200のエッセイを分析した。人間が書いたエッセイと、LLMが生成したエッセイを比較するのだが、LLMには複数の条件を設けた。何も工夫しないベースライン、創造性を促すプロンプト指示、出力パラメータの調整（温度や頻度ペナルティの変更）、さらにはChain-of-Thought（段階的な思考を促す手法）まで。いわば、現時点で考えうる主要な「多様化テクニック」を一通り試したのだ。

ここで彼らが導入した「多様性成長率」という指標が重要になる。これは、エッセイを1本ずつ束に追加していったとき、新たなアイデアがどれだけ増えるかを測るものだ。10本のエッセイを集めたとき、そこにどれだけの幅があるか。20本、50本と増やしたとき、アイデアの総量はどれだけ伸びていくか。まさに、組織としてアイデアのポートフォリオを積み上げていくときに問われる「規模に対する多様性の伸び」を捉える指標である。

Moon et al. (2025) Figure 1より。エッセイを1本ずつ集団に追加したときの累積的な意味的多様性の推移。赤い線が人間、青い線がベースのGPT-4。Study 1では人間のDGR（多様性成長率）が0.58に対しGPT-4は0.18と約3倍の差がある。Study 2ではプロンプト強化やパラメータ調整を加えても差は埋まらず、Study 3では多様な背景を持つ人間（Diverse Human, DGR=0.64）がさらに上を行く一方、CoTプロンプトを使ったGPT-4（DGR=0.31）も人間には及ばない。

結果はこうだ。人間が書いたエッセイは、LLMのエッセイと比較して、集団の意味的多様性を約2〜8倍多く増加させていた。注目すべきは、プロンプト強化やパラメータ調整を施した条件でも、この差が埋まらなかったことだ。一部の条件では、個々のエッセイが単独で見たときにはより多様な内容になっていた。にもかかわらず、それらを束ねて集団レベルで見ると、多様性の成長率は人間を下回ったままだったのだ。

ここに、第1回で紹介したAndersonらの知見との共通構造がある。個人レベルでは多様に見えても、集団レベルでは均質化する。プロンプトの工夫は個々の出力を改善しうるが、「みんなが同じ方向に多様化する」ために、集団としてのバラエティは増えないのだ。

さらに、この研究にはもう一つ重要な知見がある。人間のエッセイ著者の人種的・民族的背景を多様にすると、多様性成長率は上昇した。だが、LLMにはこの効果を再現できなかった。人間の多様性が生むアイデアのバラエティは、AIには代替できなかったのだ。

‍

組織設計への示唆：「効率化」が均質化を加速させる罠

この二つの研究から浮かび上がるのは、均質化がLLMの構造的な特性である可能性が高いという示唆だ。モデルの世代交代でも、プロンプトの技術でも、根本的には解消されない。これはAIツールの選定や設定を工夫すれば解決する話ではない。

厄介なのは、この問題がAI導入に伴う「効率化」の力学と正面からぶつかることだ。AIによって個人の生産性が上がれば、一つのタスクに関わる人数を減らす方向に議論が進みやすい。会議の参加者や、プロジェクトチームの規模も、「AIがあるのだから少人数で回せるはずだ」と判断されやすくなる。しかも、第1回で紹介したように、同じAIツールを使って協働すること自体が集団の発想を均質化させる。少人数化はその傾向をさらに強める。

だが、Moonらの研究が示したのは、人間の背景の多様性が生むアイデアのバラエティは、AIでは再現できなかったという事実だった。つまり、AIの均質化圧力に抗える唯一の供給源は、異質な視点を持つ「人間」の存在なのだ。それなのに、AI導入がまさにその供給源を縮小させる方向に作用する。ここに、この問題の袋小路がある。

効率化のためにチームを小さくすれば、均質化が加速する。かといって、人数を増やせばAI導入の意味が薄れる。この矛盾は、技術部門やAI推進担当者だけが解決に取り組む課題ではないはずだ。誰をチームに残し、どんな異質性を確保するか。それは管理職や経営層が、AI活用の設計と一体で向き合うべき組織設計の問題だ。

この連載では、次回以降も引き続きこの問題の構造を掘り下げていく。均質化のメカニズムが見えてきた。だが、具体的にどう抗うのか。その処方箋を描くには、もう少し深い理解が必要だ。

＜出典情報＞

※1 Haase, J.,Hanel, P. H. P., & Pokutta, S. (2025). "Has the Creativity ofLarge-Language Models Peaked? An Analysis of Inter- and Intra-LLMVariability." Thinking Skills and Creativity.https://arxiv.org/abs/2504.12320

※2 例えば、West,P. & Potts, C. (2025). "Base Models Beat Aligned Models at Randomnessand Creativity." Proceedings of CoLM 2025（arXiv:2505.00047）; Zhang, J. et al. (2025). "Verbalized Sampling: How toMitigate Mode Collapse and Unlock LLM Diversity." ICLR 2026採択（arXiv:2510.01171）。

※3 Moon, K.,Hickman, L., Upadhyay, S. & Green, A. E. (2025). "Homogenizing Effectof Large Language Models (LLMs) on Creative Diversity: An Empirical Comparisonof Human and ChatGPT Writing." Computers in Human Behavior: ArtificialHumans, 6, 100207.