
According to April 13, more than a month after the release of the most expensive GPT-4.5 model in Openai history, Sam Altman, co-founder and CEO of Openai, will be held by a 45-minute conversation with high information with three major GPT-4.5 technical personnel, and revealed for the first time many unknown details such as the development of this model occur Deadline, frequent compusions of cluster failure, and unquestioned paths. GPT-4.5项目是两年前启动的,Openai最有才华的计划涉及合作人的团队合作,Altman表示Openai几乎是“全部”完成该项目的“全部”。在研发过程中,OpenAI团队遇到了许多“灾难问题”。加利福尼亚的100,000个集群暴露了隐藏的低概率和深层基础设施故障。为了权衡积极主动的性能,OpenAI系统团队需要进行“调整和训练”。其中,有一个隐藏的小错误导致群集通常报告错误,直到酒吧培训约为40%之前,它们才表达。但是,它也帮助Openai创建了更强大的技术堆栈:如今,它可以将大型GPT-4级型号复制到只有5-10人。从GPT-4到GPT-4.5的绩效提高已接近10倍,实现了“难以估量但改善的情报”,这使OpenAI员工感到惊讶。 Openai团队意识到,为了实现接下来的10个甚至一倍的性能提高,计算强度不再是瓶颈。数据效率的关键等级,即产生可以使用更多计算强度并从相同数量的数据中学习更多的技术。同时,系统从单个集群移动到多群集体系结构。未来的培训可能与研究1000万个GPU的量表合作,并且对其故障的容忍度需要改善。在对话期间,Openai员工还分享了长期的关系 - 期限的影响和缩放定律,机械研究模型的优势和深度设计系统(共同设计),无薪研究的性质以及解决“永远不要让任何异常情况”的问题以及公开开放的思想和开放的思想和开放的思想和开放开放的思想和开放的开发GPT-4.5。 Bilin为Altmann增加了,参加了这次对话的三名OpenAI员工是Alex Pino(负责GPT-4.5的预知机器学习算法),Amin Tootoonchian(OpenAI Chief System Architect)和Daniel Selsam(数据研究和算法)。以下是Altman和OpenAI GPT-4.5团队之间的完整视频集成(为了提高阅读能力,Zhitiao进行了一些补充,删除和更改而不拒绝原始意图):01。GPT-4.5在项目持续两年后持续了超出预期的时间。山姆·奥特曼(Sam Altman):生产庞大的mod到底需要什么EL(GPT-4.5)?亚历克斯·潘诺(Alex Paino):大约两年前,我们开始了这个项目。当时,Openai即将推出一个新的大型计算集群。我们的团队看到了路径是一个机会,并创建了一系列工作,以确定模型需要包括的功能,并执行大量的降低风险测试。我们有一个漫长的计划,涵盖了从系统到机器研究的整个技术夹具。降低风险并准备培训是一个漫长的实施过程,培训本身也是一个巨大的项目。 Amin Tootoonchian:我认为从一开始,这个过程要求机器研究团队和系统团队紧密工作,直到我们找出要训练的模型,然后开始培训。我们对研究和机械系统进行预测,试图减少期望和事实之间的差距。但是,由于我们的工作速度非常磨损,我们需要使用最新的计算资源,因此模型培训变得困难Ult预先计划。我们几乎总是开始从许多尚未解决的问题开始培训,并试图克服挑战并在手术期间发展。主要解决方案是添加更多的计算源。最后阶段是实施,它要求许多人长期投入大量精力和动力来完成培训过程。山姆·奥特曼(Sam Altman):您认为我们的期望与真理之间的差距是多少?我们Tootoonchian:智能智能,起初,我们通常远非我们的期望。我们总是面对一个选择:是推迟开始,等待解决问题,还是提早开始并解决Proseso的问题。它总是需要权衡,以避免流程的不合理延迟。但是几乎总是意外的问题。我们要做的就是尽可能处理这些节点,处理未知因素并制定模型培训计划。亚历克斯·潘诺(Alex Paino):在这个项目中,我们的目标是制作GPT-4.5,这意味着它是1比GPT-4聪明0倍。这是我们大约2年前设定的最初目标。在这个过程中发生了很多事情。我们考虑如何使其比预期的更好或更糟?这是一个非常复杂的过程,但是最终,就我们投入的有效计算而言,我们得到了一个我们认为比GPT-4智能10倍的模型。美国Tootoonchian:在实施方面,GPT-4.5项目所花费的时间远非一开始我们的期望。 02。今天,对GPT-4级型号的培训只需要5-10个人才能完成Sam Altman:为什么当集群从10,000卡路里扩大到100,000卡路里时,集群会遇到许多问题? Amin Tootoonchian:我认为,如果系统开发人员充满热情,那么大多数问题都会很小。还有一些问题不是很大的培训阶段,而是经常看到的问题,但是在规模增加后它们会变成灾难,尤其是如果团队不期望这些问题EMS早日恶化。山姆·奥特曼(Sam Altman):有哪些有害后果的东西? Amin Tootoonchian:我认为基础设施问题是已知的,无论是在失败率,失败类型和失败量方面都非常高。 100,000个CA群集是一个大尺寸的样本池,因此我们还发现观察到的Computie Power供应商中未出现的问题。该网络是一个链接,单个加速器也会有问题。但这也是该系统的美 - 几乎所有成分都必须按预期产生预期的结果工作。我们的工作是减少这个问题。山姆·奥特曼(Sam Altman):对集群大小进行工作限制确实很难,但是我也注意到,不再是技术界限的事情更容易。 GPT-4.5培训需要数百人,Openai几乎每个人都在战场上。但是现在,如果您被要求从OpenAI中选择最小的团队,并从我们知道的一切开始时从一开始ND所有系统都在起作用,它需要多少人?亚历克斯·潘诺(Alex Paino):我认为今天大约需要5至10个人制作GPT-4级模型。随着GPT-4.5的完成,堆栈技术大大提高。实际上,我们做了类似于GPT-4.5-4.5-4O培训过程类似的事情,GPT-4级模型已使用GPT-4.5研究项目中的许多相同内容进行了重新训练。进行培训的人更少。 03。数据效率是破坏大型模型的关键,而新一代硬件带来了许多挑战。山姆·奥特曼(Sam Altman):从你的角度来看,丹?为什么训练大型模型很难?丹尼尔·塞尔姆(Daniel Selsam):我认为很难做些新东西。我认为,即使已经发现其他人做了一些事情,但这可能会更容易,因为最难的部分是从一开始就相信做某事。我认为知道可以做的事情是一种超级作弊代码,它使事情变得更容易。亚历克斯·潘诺(Alex Paino):我们将GPT预培训扩展到前10次,并且在您无法期望之前,我们总是会发现一些有趣的东西。山姆·奥特曼(Sam Altman):在训练量表中实现下一个10倍或100倍增长需要什么?丹尼尔·塞尔姆(Daniel Selm):数据效率。变压器体系结构(即GPT)非常擅长窃取数据,吸收和修复信息并实现一般一般。它的最大功能是,它可以使用计算语言资源可以很好地吸收它。但是,数据的深度有限。随着计算强度迅速增长并且数据增长相对较慢,数据在此标准模型中变成了瓶颈。它需要更改算法和可以使用更多计算强度从相同数量数据中学习更多的方法。山姆·奥特曼(Sam Altman):您认为我们需要继续扩展什么? Amin Tootoonchian:我的答案是关于系统的。我认为GPT-4.5所需的大型运输是本质上是模型规范的必然结果。我们不能使用与GPT-4完全相同的技术体系结构来训练GPT-4.5。在国家管理方面,随着所需的计算资源超过单辆载能的能力,我们需要转向多集群培训的体系结构。为了实现这一目标,我们必须在短时间内包括许多不同的工作流程。尽管它帮助我们实现了分阶段的突破,但是要实现下一个采用 - 及时提高了pagingabsoly的大小,但许多人是已知但仍需要解决的临时技术问题 - 这些问题是不可避免的。这是这种技术权衡,它继续扩大完美系统的研发周期,我们始终在继续最佳实施计划的过程中做出战略选择。应该清楚的是,系统本身不是最终目标,而实际输出的数量是主要考虑因素。当它记得下一个10倍性能改进,我认为宽容罪的成功很重要。我们需要开发一种容忍机制,该机制深入接触工作负载,以显着减轻操作和维持焦虑。维护当前超大尺寸系统的操作和复杂性与以前的系统相同。山姆·奥特曼(Sam Altman):您知道由于某些GPT-4.5培训组件而导致的失败比例是多少? Amin Tootoonchian:我没有具体的数字可以共享,但通常会说,在新一代硬件扩展的早期阶段,系统操作通常面临许多公认的技术挑战。我们选择在没有完全澄清的问题的情况下推进项目,这导致了高初始操作失败的速度。但是经验表明,尽管鉴定和解决了根本原因,但失败率将大大降低。这种现象基本上反映了理解基础的过程的加深TURE-有些人称为基础架构清洁或理解基础设施的关键问题。实施的第一阶段是混合的,总是很痛苦。随着我们推进项目,我们还将继续发现和解决新的失败,但是最终失败率将逐渐减少,正常操作的时间将增加。这本质上是一个权衡的优先级:在基础设施生命周期的早期阶段,失败的风险通常难以准确估计;最终的完美状态的过度意图(原始文本是“城市庄园”,完美的城市国家设计),它确实可以在早期阶段导致系统过多的系统使用性能过多。 04。计算资源不再是主要的瓶颈,算法没有触及理论上的上限。山姆·奥特曼(Sam Altman):尽管认可模型是我们未来技术堆栈的主要要素,但让我们专注于传统的发展界限此时以前训练有素的模型。假设我们具有GPU计算,无限网络带宽和无限电源的无限功率,但是我们仍然仅限于当前的技术瓶颈,包括系统可靠性问题,缺乏有罪的培训方法以及现有数据集的局限性。根据实现100倍的进化定律,根据当前的技术界限,我们主要的GPT版本数量的规模增加了。特别是对于GPT系列模型,基于我们现有的知识系统,可以在理论上培训哪种模型?可以制作GPT-5.5吗?亚历克斯·潘诺(Alex Paino):从机器学习和算法开发的角度来看,我们尚未确定明确的理论上限。实际上,我们才刚刚开始探索与数据以及如何使用整个数据资源更好的算法。这个现状非常有趣 - 尽管mod像GPT -4这样的EL在有限的计算资源的条件下开发的要多,这也决定了先前大多数研究的指导。但是现在情况完全不同。由于GPT-4.5,因此数据而不是计算成为某些基本维度的主要强迫。这种变化使研究不那么兴奋。山姆·奥特曼(Sam Altman):但这确实是一个令人惊讶的发展,世界可能并没有完全意识到,计算资源不再是我们可以构建的最佳模型中的基本瓶颈。毕竟,这种变化很重要,我们生活在计算环境中。 05。模型性能的一般改进是不可预测的,并且很难预测改进的明智途径。 Sam Altman:我们在GPT-4.5培训中学到的最有趣的机器学习经验是什么?只需谈论您想分享的内容。 Amin Tootoonchian:总的来说,偏离我们预测的最周到的情况当我们试图理解为什么实际的性能与预期曲线偏离的原因时。亚历克斯·潘诺(Alex Paino):最令人惊讶的发现之一是机器学习不同成分的可伸缩性的性能发生了巨大变化。有些组件扩大良好,而另一些组件则效果不佳。这就是我们在实际培训过程中真正意识到的。这种经历给了我们很多灵感。丹尼尔·塞尔姆(Daniel Selam):我认为GPT范式的两个主要特征是:首先,可以准确预测测试损失(指标测量模型的性能);其次,随着量表的扩展,模型的性能显示出无法预测的改进。更令人惊奇的是,表明,测试损失的减少将以各种难以衡量但令人惊叹的令人惊叹的神奇方式在全面增强的智力水平上变化。山姆·奥特曼(Sam Altman):您对此真的很乐观吗?您同意这种观点吗?丹尼尔·塞尔姆:AC我想说的是,我们从GPT -4.5测试中学到的特别有趣的奇迹 - 重新审查后,该模型所显示的许多微妙的功能完全超过了所有人的期望。我们确信这将是各种勤奋的方式,并且在实际扩展之后,可以从用户满意度中观察到这些微妙的改进:更强的感知储备,更准确的上下文理解和更精细的语义握把 - 这是其他测试损失的魔力。我认为,规模定律在这个方面得到了完美的证明。 06。机器研究与系统团队紧密合作,而不是“扫过门前的雪” Sam Altman:整个训练过程中最积极的时刻是什么?您最喜欢的记忆是什么?显然有很多疾病,但希望这些痛苦会得到安慰。亚历克斯·潘诺(Alex Paino):我有这样的时刻。我们在培训期间为学习机器做了很多工作,我认为我们在跑步的效果很好,马拉希尔比预期的要好,这对我们来说是一个非常激动人心的时刻。 Amin Tootoonchian:对我来说,在练习时,我们还建立了基础设施。我们坚信我们可以通过这个绩效的平稳,我们有计划,一切都完成了,但是它将持续下去。这是一项艰苦的工作,绝对比我想象的要难。我的预测是错误的,我必须失去解决这些问题所需的时间。当团队终于击败关键问题并大大提高的那一刻,我仍然提醒它。您可以清楚地感受到整个团队的能量变化 - 一切突然变得充满了能量,并以新的动力冲向了最终目标。最令人惊讶的是,我们状态跟踪器中显示的预期完成时间将从头两年开始,最终锁定在一个清晰的时间节点中。通过这一可见的发展加强道德团队是无数的。我认为那是它。我想特别强调机器的研究并没有停止工作。即使经过培训,机器研究的共同设计过程仍在继续。机器研究团队不仅积极遵守以前标记为“后续处理”的问题,而且继续提供改进以真正优化培训时间。它完美地反映了我们的团队精神 - 这里没有“在门前所有扫雪”的作品的边界,但是真正的无缝伙伴关系,这种团结是我们最强大的优势。 07。GPT-4.5预培训是最有才华的计划,也没有例外。丹尼尔·塞尔姆(Daniel Selsam):外界已经谈论过这种实践预言的挑战和准确性。但是实际上,一切都是基于非常谨慎的计划 - 您为什么不详细谈论它?亚历克斯·潘诺(Alex Paino):这绝对是我们最周到的计划。正如我所说,我们已经开始为该项目做准备在正式开始培训之前。在此期间,我们进行了主要的风险控制跑。我们专注于逐步引入所有改进:从具有高置信度的主要配置开始,该配置被理解为一个成熟的体系结构,例如GPT-4,我们充分掌握了Master的学习水平,然后在新功能的顶部(例如堆叠块)上一层。关键是要严格验证不同尺度上每个涂层的可伸缩性:我们不仅应该看到性能提高,而且还应确保这些改进能够继续像模型量表一样有效。许多改进在小规模测试中表现良好,但在大型应用中失败。因此,在整个过程中,我们仍然保持警惕,并继续加热并改善我们的法律扩展方法。通过这种控制技能,我们积累了许多重要的体验,这些体验将继续指导GPT系列模型的发展。是在Tootoonchian:我记得我错过了一个特别有趣的时刻。您应该知道,每次我们开始培训任务时,我们几乎无法避免找到常见的不同错误。但是,关键是要确保发展不会妨碍发展,并且您应始终确认当前开发是否在轨道上。这些错误是否对培训的健康有致命的影响。尽管我们首先确信存在主要缺陷,但通过整个跟踪系统,我们能够准确地认识到问题的根本原因:这是硬件故障吗?什么样的硬件故障?这是数据损坏吗?还是这是机器研究模型本身的错误?还是代码中的比赛条件?当时的情况是,我们同时与该问题进行了许多讨论,并出现了不同的症状。经过一系列的错误修复后,我们处于僵局中:我们面前有很多未解决的问题,每个人都是nking硬 - 是由不同的错误引起的吗?还是工作中的错误?最终,我们建立了一票,让Bumoto团队成员出于最有可能的根本原因。最不受欢迎的选择实现了事实:Torch.sum功能在Pytorch上,这是一个简单的操作。这个错误特别有趣。您应该知道,我们主要使用Triton内核,仅在某些无关的侧面返回火炬操作。被我们的特定代码路径攻击的火炬函数将导致由于数据分布属性而导致对机会的记忆的非法访问 - 这可能会出错计算内存偏移的错误。最恐怖的事情是,当工程师最终寻找问题并提交安排时,所有具有不同症状的错误都消失了。所有人都很高兴地将Slack Channel从“ Multi-Bug理论”重命名为“单蝙蝠理论”,而场景尤其有趣。此错误需要轮流多长时间?它来自培训的早期阶段,直到酒吧开发率已超过40%之前才被抓住。发现过程也充满了戏剧性:当时有一个复杂的内核串行结构,第二个呼吁承认了对记忆的非法访问。尽管这种碰撞频率非常低(每种方式甚至只有一千个步骤的训练),但很容易忽略偶尔的失败,但我们的团队原则是:永远不要释放任何例外。这个故事中最令人兴奋的部分是持久性不容易放弃。 08。我们离完美的系统还很遥远。山姆·奥特曼(Sam Altman):在训练前4.5训练之后,您还需要做什么?亚历克斯·潘诺(Alex Paino):我们所有人都需要观察损失曲线。此外,该系统应连续优化,并且在培训开始之前无法完成的合作设计(共同设计)。我们在培训过程中密切监视各种统计指标以确保e没有意外的异常趋势。同时,从机器学习的角度探索可能的改进。尽管在培训开始后将暂时减少数据级别的工作,但仍有大量的任务要处理。 Amin Tootoonchian:我认为机器的学习在很大程度上取决于准确性的判断。训练开始后,面对大量的噪音信号,我们就像是一个命运,告诉那些在茶中提醒的人。我们需要判断该系统是否健康。这是我们的责任。山姆·奥特曼(Sam Altman):在系统级别,我们将从模型培训中限制什么?它是芯片,处理器,内存,网络或电源吗? Amin Tootoonchian:系统的美丽是,当设计工作合作时,工作量可以适应您正在构建的基础架构。这里没有普遍的说法是网络是瓶颈,或者带宽内存是瓶颈,或者是这样。甚至是具有相同细节的模型,我们可以选择移动资源需求,我们可以选择创建一个更平衡的系统,但是拥有更多内存带宽始终是有用的。这个问题很难在没有限制的情况下回答。在设计GPT-4.5时,我们可能在系统中具有一些属性,这些属性是人类指南。因此,协作设计对于建筑模型和建筑要素的开发以及在某种程度上将机械研究的系统和各个方面联系起来至关重要。如果系统拥有,我们真的不想拥有。理想情况下,每个人都应该腐烂给彼此最大的空间。有时事情相互关联,我们需要满足基础架构要求,否则应该是。很多时候,我们需要平衡的系统和平衡的沟通。我们拥有的最好的调整方法就是所有这些协作。山姆·奥特曼(Sam Altman):我们离完美的系统目标有多远?我们Tootoonchian:离该目标还有很长的路要走。 ThE开发系统的过程始终是这样的:首先,有一个对G应该如何进行的看法,然后使用现有资源来调和差异。我不认为我们是为了理论,讨论我们想要的事情,发生的事情,并尽可能接近尽可能的好处。这可能是系统字段中最令人兴奋的部分。过去,人们会说这是一种优雅的系统设计,最终会告诉我们这个历史或错误的选择?山姆·奥特曼(Sam Altman):如果您在下一次大型培训之前会得到机器研究问题的答案,您想知道什么?亚历克斯·潘诺(Alex Paino):我想知道我们在边界数据和特定域中应该使用哪种算法。尽管这是一个广泛的问题,但这确实至关重要。山姆·奥特曼(Sam Altman):将来将进行1000万个GPU或更大的并发预培训?亚历克斯·潘诺(Alex Paino):Ini认为会有,但是不需要传统的培训模型,这可能是一种不同的形式现有的技术,但是内核仍将保持无偿研究。 Amin Tootoonchian:我倾向于是半同步模式。由于物理定律,完全同步是不现实的。丹尼尔·塞尔姆(Daniel Selsam):我认为更有可能分散。肯定会有1000万个GPU与学习和执行活动的AI系统一起使用,但是像大脑的不同部分一样,他们不必互相交谈。 09。算法的改进产生叠加效应并促进数据效率。山姆·奥特曼(Sam Altman):当前最先进的算法和人类数据效率之间有多少差异?预计将来会抓住它吗?丹尼尔·塞尔姆(Daniel Selsam):很难直接比较dalpity。语言级别的间隔肯定是压倒性的,关键在于如何确定人类视觉效果收到的信息量。我认为算法数据的效率不如人们一般。几十年来,深入研究着重于效率y计算强度。除了增加计算数据和强度外,真正令人惊讶的是通过改进算法产生的叠加的影响。算法性能每小时提高10%或20%,叠加将对数据效率产生重大影响。到目前为止,围绕数据效率没有这样的动员,因为当数据不传播并且计算强度受到限制时,这是不值得的。今天,我们正在进入AI研究的新阶段,我们将开始积累数据效率成功。我认为今天有点愚蠢,我们会从未知的障碍中发现。人的大脑当然与我们算法的改进方式不同,在这方面我们应该谨慎。但是我认为我们应该对算法的未来发展保持乐观。山姆·奥特曼(Sam Altman):更大的培训和更强的学习学习能力之间是否有任何关系?亚历克斯·潘诺(Alex Paino):我们观察到的D是,更好的培训和无偿研究倾向于改善模型的整体智能,并帮助许多人,这有助于推理推理,这可能会在改善智能方面更加乏味。我认为它们是辅助关系。山姆·奥特曼(Sam Altman):在许多方面,预训练似乎是普遍的,模型的实践只能对某种事物进行良好的态度,这是吗?亚历克斯·潘诺(Alex Paino):这很有趣,但是当您看到数据培训它们时,您不会感到惊讶。预培训的数据集覆盖范围是巨大的,我们正在追逐和差异。当涉及研究模型加强并允许其明确获得良好的奖励信号和良好的培训环境时,我认为很难平衡数据集的范围。丹尼尔·塞尔姆(Daniel Selsam):我同意,但我认为还有另一个因素,预培训本质上是压缩数据,因此发现了不同事物之间的联系。这是关于相似之处的ract。推理是一种需要仔细考虑特定问题的做法,也可以为许多类型的问题提供解决方案。但是,在预训练的散文中,在压缩不同领域的数据时,您可以学习更多的抽象知识。 10。智力的本质是压缩,数据的长期影响继续是有效的扩展定律。山姆·奥特曼(Sam Altman):为什么不支持教育?丹尼尔·塞尔姆(Daniel Selsam):钥匙是压缩。智力的完美形式是所罗门诺夫的感应。通常,对机器的研究考虑了所有可能性,但是有可能通过更简单的程序开始测试。当前预训练的本质是一个压缩过程,它通过找到最简单的程序来照亮人们至今的所有数据来实现近似表达。山姆·奥特曼(Sam Altman):接下来的标记预测如何有助于实现压缩?丹尼尔·塞尔姆(Daniel Selsam):Statsistika有一个讽刺意味网络似乎没有压缩,但通常取得了成就?通常,当您有很多数据和一些小型模型时,这些模型应该经过压缩以找出一些东西。在预训练中,数据大小和模型很大。有人认为这种类型的培训只是记忆和插值研究。实际上,他们忽略了压缩-PRE-问题压缩的另一种观点。就像一个压缩机。尽管数据的重量很大,但二进制文件不必存储此信息。使用接下来的令牌预测的结果,可以快速获得有益信息,并且压缩效率可以提高。 Sam Altman:GPT-4.5培训过程消耗了大量的人力,时间和金钱。可以将其视为验证法律中法律的实验,结果证明它将有效并且会持续很长时间。为什么称为宇宙的缩放定律?丹尼尔·塞尔姆(Daniel Selsam):压缩水平越高,StrongeR具有深厚的哲学含义。为什么练习更大的模型时的压缩率越长?这涉及许多理论,其中我喜欢广泛的表示。现实中的基本概念符合权力法的分布。例如,第100个重要概念每100个文档只能出现一次,对长尾巴有明显的影响。此分布的特征导致需要大规模计算数据和能力有效地捕获所有基本概念,这也指规模中的法律是有效的。本文源自微信公共帐户:Zhidongxi(ID:Zhidxcom),May -set:Chen Junda Chen Jiayang