ジェミニ3 ディープシンク(2/26)セミプライベート評価 - ARC-AGI-1:96.0%、1タスクあたり$7.17 - ARC-AGI-2:84.6%13.62ドル/タスク @GoogleDeepMindからの新しいARC-AGI SOTAモデル
ARC-AGI-1リーダーボード
- リーダーボード: - 結果の再現: - テスト方針:
178