跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+17.23%
USELESS
+4.7%
IKUN
+11.15%
gib
-3.17%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.53%
ALON
-2.15%
LAUNCHCOIN
-2.09%
GOONC
+3.54%
KLED
+9.51%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.74%
Boopa
+2.08%
PORK
0.00%
主页
Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
查看原文
Andrej Karpathy
1月8日 07:01
新帖子:nanochat迷你系列v1 关于LLM的正确思考方式是,你并不是在为单一特定模型进行优化,而是为由单个旋钮(你希望花费的计算量)控制的一系列模型进行优化,以实现单调更好的结果。这使你能够仔细研究扩展法则,最终这就是让你有信心在支付"大规模运行"时,外推会有效,你的钱会花得值得。对于nanochat的首次公开发布,我的重点是端到端的管道,运行整个LLM管道及其所有阶段。现在,在之前进行了一些YOLO运行后,我回过头来完善一些我匆忙处理的部分,当然首先是预训练,这在计算上是非常繁重的,也是这些模型智能和知识的基础。 在本地调整了一些超参数后,我固定了FLOPs预算,筛选出了一些模型。(对于每个FLOPs目标,你可以训练一个小模型很长时间,或者一个大模型短时间。)结果发现,nanochat遵循非常好的扩展法则,基本上再现了Chinchilla论文的图表: 这只是Chinchilla的这个图的一个小版本: 非常重要且令人鼓舞的是,N(参数)和D(标记)的指数大约相等于0.5,因此就像Chinchilla一样,我们得到了一个与模型大小和标记训练范围相关的单一(与计算无关的)常数。在Chinchilla中,这个值被测量为20。在nanochat中,这似乎是8! 一旦我们能够训练计算最优模型,我从d10到d20筛选出了一系列迷你模型,这些nanochat大小可以在8XH100节点上以2**19 ~= 0.5M的批量大小运行,而无需梯度累积。我们为每个模型大小得到了漂亮的、不相交的训练图。 然后有趣的部分是将这个迷你系列v1与GPT-2和GPT-3迷你系列关联起来,以便我们知道我们走在正确的轨道上。验证损失存在许多问题,无法进行比较,因此我使用CORE分数(来自DCLM论文)。我为GPT-2计算了它,并为GPT-3估算了它,这使我们最终能够将nanochat很好地放在同一尺度上: 这个迷你系列的总成本仅为 ~$100 (~4小时在8XH100上)。这些实验让我们有信心,一切都在相当顺利地进行,如果我们支付更多(转动旋钮),我们会得到越来越好的模型。 总结:我们可以训练计算最优的迷你系列,并通过目标CORE分数将其与GPT-2/3关联,但进一步的改进是可取且必要的。例如,匹配GPT-2目前需要 ~$500,但我认为通过更多的工作应该可以做到 <$100。 完整帖子包含更多细节在这里: 所有的调优和代码都已推送到主分支,大家可以通过 scaling_laws .sh 和 miniseries .sh bash脚本重现这些。
1.26K
Andrej Karpathy
1月7日 06:18
大多数的 ruff ruff 是那些关注当前点和关注当前斜率的人。
248
Andrej Karpathy
1月1日 02:45
特斯拉 FSD V14.2 实现了首次 100% 自主的跨州驾驶!历时 2 天 20 小时,行驶 2732 英里,零干预。 这次特别之处在于,跨州驾驶从一开始就是自动驾驶团队的一个主要目标。我们花了很多时间在马拉松式的剪辑回顾会议上,熬夜查看干预情况,随着时间的推移尝试不同的驾驶阶段——进行分类、整理,规划所有项目以缩小差距,并将干预次数降至零。 看到系统真正达成这一目标,真是令人惊叹,祝贺团队!
David Moss
2025年12月31日
我很自豪地宣布,我成功完成了世界上第一条美国东西海岸的全自动驾驶! 我在2天20小时前离开了洛杉矶的特斯拉餐厅,现在已经到达南卡罗来纳州的默特尔海滩(2,732.4英里) 这一切都是通过特斯拉FSD V14.2实现的,期间绝对没有任何形式的脱离,即使是在特斯拉超级充电站的停车时也没有。
524
热门
排行
收藏