2024 年构建大规模语言模型之旅

2024-04-18 深圳推广 技术文档

2024 年将见证大型语言模型 (llm) 的技术跃升,研究人员和工程师不断突破自然语言处理的界限。这些拥有海量参数的 llm 正在彻底改变我们与机器的交互方式,实现更自然的对话、代码生成和复杂推理。然而,构建这些庞然大物并非易事,它涉及数据准备、先进训练技术和可扩展推理的复杂性。这篇综述深入探讨了构建 llm 所需的技术细节,涵盖了从数据采购到训练创新和对齐策略的最新进展。

2024 年有望成为大型语言模型(LLM) 的里程碑时代,因为研究人员和工程师将突破自然语言处理的可能性界限。这些拥有数十亿甚至数万亿参数的大规模神经网络将彻底改变我们与机器交互的方式,实现更自然和开放式的对话、代码生成和多模式推理。

然而,建立如此庞大的法学硕士并不是一件简单的事。它需要精心策划的管道,从数据采购和准备到先进的训练技术和可扩展的推理。在这篇文章中,我们将深入探讨构建这些前沿语言模型所涉及的技术复杂性,探索整个堆栈的最新创新和挑战。

数据准备

1. 数据来源

任何法学硕士的基础都是它所训练的数据,而现代模型会摄取数量惊人的文本(通常超过一万亿个令牌),这些文本来自网络爬虫、代码存储库、书籍等。常见的数据源包括:

通用爬取网络语料库

GitHub 和 Software Heritage 等代码存储库

维基百科和书籍等精选数据集(公共领域与受版权保护的)

综合生成的数据

2. 数据过滤

简单地获取所有可用数据通常不是最佳的,因为它可能会引入噪音和偏差。因此,采用了仔细的数据过滤技术:

质量过滤

基于长度和语言等文档属性的启发式过滤

使用好数据和坏数据的示例进行基于分类器的过滤

语言模型的困惑度阈值

特定领域的过滤

检查对特定领域子集的影响

制定定制规则和阈值

选择策略

确定性硬阈值

概率随机抽样

3. 重复数据删除

大型网络语料库包含显着的重叠,冗余文档可能导致模型有效“记忆”过多的区域。利用 MinHash 等高效的近重复检测算法来减少这种冗余偏差。

4. 代币化

一旦我们拥有了高质量、去重的文本语料库,就需要将其标记化——转换为神经网络在训练期间可以摄取的标记序列。无处不在的字节级 BPE 编码是首选,可以优雅地处理代码、数学符号和其他上下文。需要对整个数据集进行仔细采样,以避免过度拟合分词器本身。

5. 数据质量评估

评估数据质量是一项具有挑战性但至关重要的任务,尤其是在如此大规模的情况下。采用的技术包括:

在子集训练期间监控 Commonsense QA、HellaSwag 和 OpenBook QA 等高信号基准

手动检查域/URL 并检查保留/丢弃的示例

数据聚类和可视化工具

训练辅助标记器来分析标记

训练

1. 模型并行性

现代法学硕士的庞大规模(通常太大,无法适应单个 GPU 甚至单个机器)需要先进的并行化方案,以各种方式将模型拆分到多个设备和机器上:

数据并行性:将批次分散到多个设备上

张量并行性:跨设备分割模型权重和激活

管道并行性:将模型视为一系列阶段并将其跨设备进行管道化

序列并行性:分割各个输入序列以进一步扩展

结合这些 4D 并行策略可以扩展到具有数万亿个参数的模型。

2. 高效注意力

主要的计算瓶颈在于 Transformer 架构核心的自注意力操作。 Flash Attention 和 Factorized Kernels 等方法提供了高度优化的注意力实现,避免不必要地实现完整的注意力矩阵。

3、稳定训练

在如此极端的规模下实现稳定收敛是一项重大挑战。该领域的创新包括:

改进的初始化方案

MuTransfer 等超参数传输方法

优化的学习率计划,例如余弦退火

4. 架构创新

最近模型架构方面的突破极大地提高了法学硕士的能力:

Mixture-of-Experts (MoE):每个示例仅激活模型参数的子集,由路由网络启用

Mamba:基于哈希的专家混合层的有效实现

结盟

虽然能力至关重要,但我们还需要安全、真实、符合人类价值观和指导的法学硕士。这是人工智能对齐这一新兴领域的目标:

来自人类反馈的强化学习(RLHF):使用从人类对模型输出的偏好中得出的奖励信号来微调模型; PPO、DPO 等方法正在积极探索。

宪法人工智能:宪法人工智能在训练过程中将规则和指令编码到模型中,从头开始灌输期望的行为。

推理

一旦我们的 LLM 训练完毕,我们需要对其进行优化以实现高效推理——以最小的延迟向用户提供模型输出:

量化:将大模型权重压缩为低精度格式,例如int8更便宜的计算和内存占用;常用的技术包括 GPTQ、GGML 和 NF4。

推测性解码: 通过使用小模型来启动较大模型来加速推理,如 Medusa 方法

系统优化:即时编译、内核融合和 CUDA 图形优化可进一步提升速度。

结论

在 2024 年构建大规模语言模型需要在整个堆栈中仔细构建和创新——从数据采购和清理到可扩展的训练系统和高效的推理部署。我们只介绍了一些亮点,但该领域正在以惊人的速度发展,新技术和新发现不断涌现。围绕数据质量评估、大规模稳定收敛、与人类价值观的一致性以及强大的现实世界部署的挑战仍然是开放领域。但法学硕士的潜力是巨大的 - 请继续关注,我们将在 2024 年及以后突破语言 AI 的可能性!

以上就是2024 年构建大规模语言模型之旅的详细内容,更多请关注深圳推广其它相关文章!

相关推荐://
  • 全面走向“人工智能+” 国内首个汽车大模型标准发布
    hover

    全面走向“人工智能+” 国内首个汽车大模型标准发布

    IT之家4月28日消息,据央视新闻报道,针对汽车行业全面走向“人工智能+”的趋势和行业需求,中国信息通信研究院今天(28 日)发布了国内首个汽车大模型标准。 据悉,标准主要涵盖三个能力域,其中场景丰富度侧重评估汽车大模···

    2024-04-29
  • 讯飞星火大模型V3.5春季上新 V4.0 6月27日发布
    hover

    讯飞星火大模型V3.5春季上新 V4.0 6月27日发布

    IT之家今日(4月26日)消息,科大讯飞今日官宣,讯飞星火大模型 V3.5 春季上新,科大讯飞董事长刘庆峰发布讯飞星火大模型一系列新功能。 刘庆峰表示,目前星火大模型通用长文本能力,包括长文档信息抽取、长文档知识问答、长···

    2024-04-26
  • 李彦宏称大模型开源意义不大 周鸿祎:别被忽悠了
    hover

    李彦宏称大模型开源意义不大 周鸿祎:别被忽悠了

    在近日的一次内部讲话中,百度董事长李彦宏给开源大模型泼了不少冷水。 李彦宏认为,大模型开源的意义不大,闭源模型在成本和能力上会持续领先。 而对于大模型开源与闭源之争,360集团董事长周鸿祎在哈佛大学的演讲中表示,他···

    2024-04-15
  • 什么是SPICE模型
    hover

    什么是SPICE模型

    spice 模型是一种用于模拟电子电路行为的仿真软件。它由网表、仿真引擎和后处理工具组成,用于:1. 电路设计验证,预测输入信号下的电路响应;2. 故障排除,识别电路错误并确定原因;3. 电路优化,调整值和拓扑以提升性能;4. 学术研···

    2024-04-03
  • 马斯克xAI推出Grok-1.5大语言模型 可处理128k上下文
    hover

    马斯克xAI推出Grok-1.5大语言模型 可处理128k上下文

    IT之家今日(3月29日)消息,马斯克旗下人工智能公司xAI今天在官方博客中宣布,正式推出Grok-1.5大语言模型。 Grok-1.5具有改进的推理能力和128k的上下文长度,其中最显著的改进之一是其在编码和数学相关任务中的表现。Grok-1.5···

    2024-03-29
  • 畅游数字前沿:信息技术进步之旅
    hover

    畅游数字前沿:信息技术进步之旅

    it进步的历程是人类聪明才智和创新的证明。从计算的早期到当今的人工智能和区块链技术时代,it 行业不断突破可能的界限。当我们在数字前沿前进时,我们必须拥抱未来的机遇和挑战,利用技术的力量为子孙后代创造一个更美好、更互联的···

    2024-03-28
  • 传闻:美政府将要求科技公司分享大模型训练与安全信息
    hover

    传闻:美政府将要求科技公司分享大模型训练与安全信息

    IT之家今日(1月30日)消息,据外媒Wired报道,美国政府将援引《国防生产法》,要求科技公司与美政府分享大语言模型训练启动和安全数据方面的信息,更多的细节预计将于本周公开。 美国商务部长吉娜・雷蒙多(Gina Raimondo)···

    2024-03-06
  • 周鸿祎谈Sora视频模型:中美的AI差距还在加大
    hover

    周鸿祎谈Sora视频模型:中美的AI差距还在加大

    OpenAI近日发布首款文生视频模型——Sora模型,完美继承DALL·E 3的画质和遵循指令能力其支持用户输入文本描述,生成一段长达1分钟的高清流畅视频。 360董事长周鸿祎日前在微博发文,谈到OpenAI的文字转视频模型Sora,他认···

    2024-03-06
在线客服 13691917840 提交需求 二维码