Google は、第 2 世代 AI モデルである Gemini 2.0 を発表しました。画像と音声を生成することができ、はるかに優れたパフォーマンスが約束され、そして何よりも、本物の AI エージェントの登場を告げます。
競争に参加している他のすべての企業と同様に、人工知能, Googleは人工知能を事実上すべての自社製品に組み込むことに取り組んでいる。それは彼女が一緒に挑戦している本当のレースですOpenAI、マイクロソフトや他の多くの企業から提供されています。今週水曜日、2024 年 12 月 11 日、マウンテン ビュー会社は、次のプレゼンテーションを行うことで新たな一歩を踏み出したところです。ジェミニ2.0 は、これまでで最も先進的な生成 AI モデルです。バージョン 1.5 のリリースからわずか 10 か月後。
言語の理解、テキストの生成、タスク (翻訳、要約など) の実行において、パフォーマンスや遅延の点においても、多くの分野で以前のバージョンよりも優れています。しかし、何よりも、そのアーキテクチャはマルチモーダル処理をネイティブにサポートしており、AI の次の目玉であるエージェントの基礎を築きます。のためにグーグル, 双子座2号はAI分野における転換点と考えるべきでしょう。
Google の以前の AI モデルとの大きな違いの 1 つは、Gemini 2 が次のことができることです。「テキスト、ビデオ、画像、音声、コードを通じて情報を理解する」このタイプのコンテンツをネイティブに生成します。 Gemini の最初のバージョンは、ユーザーのクエリに応答するために、イメージ作成用の Imagen などの外部モデルに依存していました。つまり、それ自体がモデルではなく、さまざまなモデルのハブでした。
それぞれが特定のニーズを満たす、いくつかのサブモデルが時間の経過とともに利用可能になる予定です。現時点では、この新世代の最初のバージョンであるバージョン 2.0 Flash のみが実験的な形式で利用可能です。パフォーマンスの面で大幅な改善がもたらされます。実際、同等レベルの品質を維持しながら、Pro 1.5 モデルの 2 倍の速度が約束されています。このバージョンでは、テキストに加えて画像と音声の生成がネイティブに統合され、入力だけでなく出力についても真のマルチモーダル モデルとなっています。そのため、応答には多言語テキスト、画像、音声の両方を含めることができます。スピーチ。
Gemini 2.0: AI エージェントが開発中
これらの改善により、AI エージェント (エージェント人工知能とも呼ばれます)、つまり、特定の種類のタスクで優れた能力を発揮するように特別にトレーニングまたは構成された言語モデルのコンポーネントを改善することが可能になります。これはアストラプロジェクトの例です。昨年 5 月の Google I/O 2024 中に発表されました。スマートフォンを使用してビデオ内のさまざまなオブジェクトにカメラを向けると、AI は環境を分析し、問題を解決し、ユーザーとリアルタイムで対話するなどの作業を行うことができます。 Gemini 2.0 は、まだプロトタイプ段階にありますが、Project Astra にとって大幅な改善を示しています。特に、アクセントや珍しい単語をより深く理解し、複数の言語や混合言語で会話できるようになります。Google検索、レンズとマップは、私たちの日常生活をより効果的に支援し、特定のことを記憶し、100% 人間の会話とほぼ同じ遅延で言語を理解できるようにします。
しかし、Googleが取り組んでいるエージェントはこれだけではない。同社はまた、プロジェクトの拡張のプロトタイプであるプロジェクト・マリナーも発表した。クロム、やはり Gemini 2.0 で構築されました。その目的は探検することです「ブラウザから始まる人間とエージェントの対話の未来」。プロジェクトマリナーは「ピクセルや、テキスト、コード、画像、フォームなどの Web 要素を含む、ブラウザーによって画面に表示される情報を理解し、推論することができ、拡張機能 Experimental Chrome を通じてその情報を使用して、ユーザーに代わって処理を行うことができます。」とグーグルは説明する。しかし、修正すべき欠陥がまだたくさんあります。
最後に、GitHub ワークフローに直接統合することで、開発者が壊れたコードを見つけて修正できるように設計されたエージェント、Jules があります。エラーを検出し、コードロジックを分析し、アーキテクチャの最適化を提案し、業界のベストプラクティスを考慮した改善を提案できます。ビデオゲームにAIを活用するエージェントプロジェクトも進行中だ。
Google は、Gemini 2.0 の展開に対して慎重かつ系統的なアプローチをとっています。 Flash 2.0 は、モバイル デバイスの Gemini アプリで、または経由でテストできるようになりました。AIウェブインターフェース、利用可能なすべてのモデルをグループ化するドロップダウン メニューから、Flash 2.0 実験版。
サードパーティの開発者も、AI Studio および Vertex AI プラットフォームを通じてアクセスできますが、画像や音声の生成などの一部の高度な機能は現在、優先パートナー向けに予約されています。これは早期アクセスであり、正式リリースは 2025 年 1 月に予定されていることに注意してください。最後に、Google は、Gemini 2.0 を自社のエコシステム内のさまざまな製品に統合し始める予定です。Gメールそしてドライブ、来年初めに。