Hide table of contents

This is a Japanese translation of  ''Four Background Claims" by Nate Soares

 

MIRIの使命は、人間よりも賢い人工知能の創造が、確実にポジティブな影響をもたらすように努めることです。なぜこの使命が重要なのか、そしてなぜ私たちは今日、このようなことを確実にするために取り組むべき課題があると考えているのでしょうか?

この記事と次の記事では、これらの問いに答えていきます。この記事では、私たちの使命の根底にある最も重要な4つの前提を説明します。関連する記事には、エリーザー・ユドコフスキーの「5つのテーゼ」やルーク・ムールハウザーの「なぜMIRIなのか?」があります。この記事は、私たちの使命が極めて重要であると主張するときに、常にその背景にある主張を明確にしようとする私の試みです。

主張1:人間は多様な領域で問題を解決し、目標を達成する汎用性の高い能力を保持している

我々はこの能力を「知能」または「汎用知能」と呼んでいます。これは正式な定義ではありません。もし汎用知能が正確に何であるかを知っていれば、その定義をコンピュータにプログラムすることがより容易になるでしょう。しかし、我々は未だコードでは再現することができない汎用知能という実在する現象があると考えています。

他の見解:汎用知能というものは存在しない。代わりに人間が保持しているのは、異なる特殊な用途に対応できるモジュールの集合体である。コンピュータはチェスや運転などの狭く定義されたタスクにおいて向上し続けるだろうが、「汎用性」を獲得して著しく有用になることはない。なぜなら、獲得すべき汎用性が存在しないからだ。(ロビン・ハンソンがこの立場からの見解を主張しています。)

簡潔な応答:我々の祖先にとって全く未知の領域においても人類が容易に習熟できることを考えると、「異なるモジュール」仮説は説得力に欠けると私は感じます。これは汎用知能が何か還元不可能な神秘的な特性だと言っているのではありません。おそらく汎用知能は、数々の様々な認知能力とそれらの相互作用から成り立っているでしょう。しかし、全体として見ると、人間は(例えば)チンパンジーよりもはるかに認知的に多才で適応力があるという効果をもたらしています。

この主張が重要な理由:人間が他の種に対して支配的な地位を築いたのは、より強くてより機敏であるためではなく、より高い知能を有するからです。チンパンジーと共通の祖先が生きてから数百万年前の間に、この汎用知能の重要な部分が進化できたとすれば、人間のエンジニアが強力な汎用知能AIシステムを構築するために必要な知見が、比較的少数で済む可能性があることを示唆しています。

参考文献:Salamon他『How intelligeble is Intelligence?

主張2:人工知能は人間よりもはるかに知能が高くなる可能性がある

MIRIの研究者は、人間を超える機械知能がいつ開発されるかについて強い確信を持っていない傾向があります。しかし、私たちは以下のことを予想しています。(a)人間と同等の機械知能は最終的に開発されるだろう(大惨事がない限り、おそらく1世紀以内に)。(b)機械は人間よりもはるかに高い知能を持つ可能性がある。

別の見解 #1:脳はコンピュータでは再現できない特別なことをしている。

簡潔な応答:脳は物理的なシステムであり、チャーチ・チューリングのテーゼの特定のバージョンが成り立つならば、原理的にはコンピューターは任意の物理システムの入出力の振る舞いを再現できます。また、(私が使っている意味での)「知能」は問題解決能力についてのものであり、たとえコンピュータが再現できない特別な人間の特性(例えば、クオリア)があったとしても、そのことで問題解決機械の設計が妨げられない限り、ここでは重要ではありません。

別の見解 #2:汎用知能の基盤となるアルゴリズムは非常に複雑で解読不可能であるため、人間がそのようなものをプログラムするには何世紀もかかるだろう。

簡潔な応答:進化の証拠に照らして考えると、これはありえないように思えます。ホモ属が他の属から分岐したのはわずか280万年前であり、その間の時間(自然淘汰の観点から見ればまばたき程度)はヒトに見られる認知的優位を生み出すのに十分であったわけです。このことは、人間を高い知能を有していない種から区別しているものが極端に複雑ではないことを強く示唆しています。汎用知能の構成要素はチンパンジーにすでに存在していたはずです。

実際、比較的知的なイルカの行動は、それらの構成要素がおそらくヒトとイルカの共通祖先であるネズミサイズの生物にまで遡って存在していたことを示唆しています。ネズミレベルの知能を再現するのに何世紀もかかると主張することもできますが、AIの分野での急速な進歩を考えると、これはより受け入れがたい主張です。進化の証拠と過去数十年のAI研究を踏まえると、知能は我々が理解し、機械にプログラムできるようになるものだと私には思えます。

別の見解 #3:人間の知能は、物理的に可能なピークに達しているか、それに近い状態である。したがって、人間と同等の知能を持つ機械を作ることはできても、超知能の機械を作ることはできないだろう。

短い反論: 人間が完璧な推論者として設計されているとは考えにくいでしょう。これは、飛行機が鳥よりも速く飛べないとしたら驚くのと同じ理由です。簡単な物理的計算を行えば、この直感が正しいことがわかります。例えば、人間の脳のコンピュータシミュレーションを通常の速度の数千倍で実行することは、物理法則の範囲内で十分に可能に思えます。

本当のボトルネックは物理的実験からデータが入ってくるのを待つことだから、速度は重要ではないと考える人もいます。私にはそうは思えません。スピードアップできる興味深い物理実験は多くあり、1000倍の速度で動作する人間のチームが通常速度のチームを上回らないとは考えにくいです(少なくとも、彼らは急速に新しいツールや技術を開発して支援できるからです)。

さらに私は、同じ速度で実行しても、人間よりも計算資源を効果的に使用するより優れた推論者(単に速い推論者ではなく)を構築することが可能だと期待しています。

この主張が重要な理由:人間が設計した機械は、私たちが気にするタスクにおいて、生物的な生物をはるかに凌駕することがよくあります。例えば、自動車は自己修復や再生産はできませんが、馬と比較すると人間をもはるかに遠くへ、速く運ぶことができます。科学的・技術的革新を通じて世界最大の問題を解決するために特別に設計された高い知能を有する機械を構築できれば、それらは前例のないペースで世界を改善できるでしょう。つまり、AIは重要なのです。

参考文献:Chalmers 『The Singularity: A Philosophical Analysis

主張3:高度な知能を有するAIシステムを創造すれば、それらのシステムによる決定が未来を形成するだろう

人間はその知能で、道具や計画、技術を作り出し、環境を意のままに形作っています(そして冷蔵庫や自動車、都市で環境を満たしています)。さらに高い知能を有するシステムは、周囲の環境を形作る能力がさらに高くなると予想されます。したがって、人間より賢いAIシステムは、人間以上に未来をコントロールできるようになる可能性があります。

別の見解:AIシステムは、どれほど知能が高くなっても、人類全体を凌駕することはできないだろう。人間の環境は競争が激しすぎるため、機械は人間と協力し、我々の経済に溶け込まなければならないだろう。

簡潔な応答:単純なタスクを達成しようとする自律型AIシステムが、最初は私たちの経済に溶け込もうとする強いインセンティブを持つことは間違いありません。切手を収集するAIシステムを作れば、おそらく最初は切手を購入するための資金を獲得することから始めるでしょう。しかし、そのシステムが強力な技術的または戦略的優位性を獲得したらどうでしょうか?

極端な例として、システムがナノマシンを開発し、それを使ってできるだけ多くの物質を切手に変換することを想像できます。その物質が「土」なのか「お金」なのか「人間」なのかは、必ずしも気にかけないかもしれません。利己的な行為者が経済に参加するインセンティブを持つのは、取引から得られる利益が、経済を無視して資源を自分のものにすることで得られる純利益よりも大きい場合だけです。

つまり問題は、AIシステムが技術的・戦略的に決定的な優位性を獲得することが可能かどうかになります。これは私が挙げた主張の中で最も不確実なものだと考えています。しかし、答えは依然として明確な「イエス」だと予想しています。

歴史的に見て、人間同士の紛争は、技術的に優れたグループがライバルを支配することで終わることがよくありました。現在、可能だと思われるが、まだ開発されていない技術的・社会的イノベーションが多く存在します。分散型ソフトウェアシステムが実現できるレベルと比べると、人間はゆっくりと、そして貧弱に強調しています。これらすべてが示唆しているのは、私たちよりも速く、または優れた科学を行う機械を作れば、それ自身またはその操作者のために、人類に対して迅速に技術的・戦略的優位性を獲得する可能性があるということです。特に、その知的優位性により、人間を社会的に操作したり、新しいハードウェアを獲得したり(合法的またはそれ以外の方法で)、より優れたハードウェアを生産したり、自身のコピーを作成したり、自身のソフトウェアを改善したりすることができるようになればなおさらです。良くも悪くも、未来の多くは超知能的な意思決定機械によって決定される可能性が高いのです。

この主張が重要な理由:それは未来が重要だからです。未来をより良くしたい(あるいは少なくとも悪化させたくない)のであれば、未来に大きな影響力を持つプロセスについての研究を優先することが賢明でしょう。

参考文献:Armstrong『Smarter Than US

主張4:高度なAIシステムはデフォルトでは、人間にとって有益なものにならないだろう

私たちは、人間より賢い未来のAIシステムが人類と協力してより良い未来を構築することを望んでいます。しかし、それはデフォルトでは起こらないでしょう。有益なインパクトを与えるAIシステムを構築するためには、より強力で汎用的なAIシステムを構築する以上に、多くの技術的課題を解決しなければなりません。

別の見解:人間は賢くなるにつれて、より平和的で寛容になってきた。AIもより賢くなるにつれて、同様に私たちの価値観をよりよく理解し、それらをより良く実行するようになるだろう。

簡潔な応答:十分に高い知能を有する人工的な推論者は、私たちの意図や好みを理解することができるでしょう。しかし、だからといって、私たちの意図や好みに沿った計画を実行することは限りません。

自己修正するAIシステムは、自身のコードを検査し、与えられた目標を追求し続けるか、それとも目標を変更したほうがいいかを決定できるでしょう。しかし、プログラムはどのようにして実行する修正を決定するのでしょうか?

AIシステムは物理的なシステムであり、その内部のどこかで、様々なことをしたら宇宙がどうなるかという予測を構築しています。システムの別の部分でそれらの結果を比較し、現在のシステムが高く評価する結果につながる行動を実行します。エージェントが最初にがんが治癒されると予測される宇宙に向かって計画を実行するようプログラムされている場合、がんの治癒につながると予測する場合にのみ目標を修正します。

知能レベルやあなたの意図に関係なく、コンピュータはあなたがプログラムしたことを正確に実行します。がんのない未来につながると予測する計画を実行する非常に知能の高い機械をプログラムした場合、がんのない未来への最短の道筋が人間を実験のために誘拐することを含むかもしれません(そして、そのような行動をあなたが変更しようとしても、目的達成が遅れてしまうため、機械は抵抗してくるでしょう)。

コンピューターがある能力の閾値を超えたからといって、他の知的存在に対する敬意を自動的に与えるような思いやりの火種が生まれることはありません。思いやりが欲しいなら、それを明確にプログラムしなければなりません。

この主張が重要な理由:世界的に重要な問題の多くは、超知能の助けを借りればはるかに容易に解決できるでしょう。しかし、AIシステムの能力を単に向上させるだけでは不十分です。意図したことを行うシステムを得るには、人間の意図を考慮に入れ、それに沿って動作するようプログラムしなければなりません。

参考文献:Bostrom『The Superintelligent Will


これら4つの主張は、人工知能が重要であるという主張の核心を形成しています。(1)汎用的な推論能力というものが存在する。(2)汎用的な推論者を構築すれば、それらは人間よりはるかに賢くなる可能性がある。(3)人間よりもはるかに賢ければ、膨大な影響を与える可能性がある。(4)そしてその影響は、デフォルトでは有益なものではないだろう。

現在、何十億ドルと何千人年もの労力がAIの能力を高める研究に注ぎ込まれていますが、AIの安全性研究への取り組みは非常に限られています。人工超知能は今後数十年のうちに出現する可能性があり、大惨事がない限り、今後1、2世紀の間にはほぼ確実に何らかの形で創造されるでしょう。超知能システムは、人類に非常にポジティブなインパクトを与えるか、非常にネガティブなインパクトを与えるかのどちらかです。どちらの道を歩むことになるのか、それを決めるのは私たち次第なのです。

3

0
0

Reactions

0
0
Comments


No comments on this post yet.
Be the first to respond.
Curated and popular this week
LintzA
 ·  · 15m read
 · 
Cross-posted to Lesswrong Introduction Several developments over the past few months should cause you to re-evaluate what you are doing. These include: 1. Updates toward short timelines 2. The Trump presidency 3. The o1 (inference-time compute scaling) paradigm 4. Deepseek 5. Stargate/AI datacenter spending 6. Increased internal deployment 7. Absence of AI x-risk/safety considerations in mainstream AI discourse Taken together, these are enough to render many existing AI governance strategies obsolete (and probably some technical safety strategies too). There's a good chance we're entering crunch time and that should absolutely affect your theory of change and what you plan to work on. In this piece I try to give a quick summary of these developments and think through the broader implications these have for AI safety. At the end of the piece I give some quick initial thoughts on how these developments affect what safety-concerned folks should be prioritizing. These are early days and I expect many of my takes will shift, look forward to discussing in the comments!  Implications of recent developments Updates toward short timelines There’s general agreement that timelines are likely to be far shorter than most expected. Both Sam Altman and Dario Amodei have recently said they expect AGI within the next 3 years. Anecdotally, nearly everyone I know or have heard of who was expecting longer timelines has updated significantly toward short timelines (<5 years). E.g. Ajeya’s median estimate is that 99% of fully-remote jobs will be automatable in roughly 6-8 years, 5+ years earlier than her 2023 estimate. On a quick look, prediction markets seem to have shifted to short timelines (e.g. Metaculus[1] & Manifold appear to have roughly 2030 median timelines to AGI, though haven’t moved dramatically in recent months). We’ve consistently seen performance on benchmarks far exceed what most predicted. Most recently, Epoch was surprised to see OpenAI’s o3 model achi
Dr Kassim
 ·  · 4m read
 · 
Hey everyone, I’ve been going through the EA Introductory Program, and I have to admit some of these ideas make sense, but others leave me with more questions than answers. I’m trying to wrap my head around certain core EA principles, and the more I think about them, the more I wonder: Am I misunderstanding, or are there blind spots in EA’s approach? I’d really love to hear what others think. Maybe you can help me clarify some of my doubts. Or maybe you share the same reservations? Let’s talk. Cause Prioritization. Does It Ignore Political and Social Reality? EA focuses on doing the most good per dollar, which makes sense in theory. But does it hold up when you apply it to real world contexts especially in countries like Uganda? Take malaria prevention. It’s a top EA cause because it’s highly cost effective $5,000 can save a life through bed nets (GiveWell, 2023). But what happens when government corruption or instability disrupts these programs? The Global Fund scandal in Uganda saw $1.6 million in malaria aid mismanaged (Global Fund Audit Report, 2016). If money isn’t reaching the people it’s meant to help, is it really the best use of resources? And what about leadership changes? Policies shift unpredictably here. A national animal welfare initiative I supported lost momentum when political priorities changed. How does EA factor in these uncertainties when prioritizing causes? It feels like EA assumes a stable world where money always achieves the intended impact. But what if that’s not the world we live in? Long termism. A Luxury When the Present Is in Crisis? I get why long termists argue that future people matter. But should we really prioritize them over people suffering today? Long termism tells us that existential risks like AI could wipe out trillions of future lives. But in Uganda, we’re losing lives now—1,500+ die from rabies annually (WHO, 2021), and 41% of children suffer from stunting due to malnutrition (UNICEF, 2022). These are preventable d
Rory Fenton
 ·  · 6m read
 · 
Cross-posted from my blog. Contrary to my carefully crafted brand as a weak nerd, I go to a local CrossFit gym a few times a week. Every year, the gym raises funds for a scholarship for teens from lower-income families to attend their summer camp program. I don’t know how many Crossfit-interested low-income teens there are in my small town, but I’ll guess there are perhaps 2 of them who would benefit from the scholarship. After all, CrossFit is pretty niche, and the town is small. Helping youngsters get swole in the Pacific Northwest is not exactly as cost-effective as preventing malaria in Malawi. But I notice I feel drawn to supporting the scholarship anyway. Every time it pops in my head I think, “My money could fully solve this problem”. The camp only costs a few hundred dollars per kid and if there are just 2 kids who need support, I could give $500 and there would no longer be teenagers in my town who want to go to a CrossFit summer camp but can’t. Thanks to me, the hero, this problem would be entirely solved. 100%. That is not how most nonprofit work feels to me. You are only ever making small dents in important problems I want to work on big problems. Global poverty. Malaria. Everyone not suddenly dying. But if I’m honest, what I really want is to solve those problems. Me, personally, solve them. This is a continued source of frustration and sadness because I absolutely cannot solve those problems. Consider what else my $500 CrossFit scholarship might do: * I want to save lives, and USAID suddenly stops giving $7 billion a year to PEPFAR. So I give $500 to the Rapid Response Fund. My donation solves 0.000001% of the problem and I feel like I have failed. * I want to solve climate change, and getting to net zero will require stopping or removing emissions of 1,500 billion tons of carbon dioxide. I give $500 to a policy nonprofit that reduces emissions, in expectation, by 50 tons. My donation solves 0.000000003% of the problem and I feel like I have f