小型更智能

张

张建站

2026/4/29 6:25:57

10分钟阅读

原文towardsdatascience.com/smaller-is-smarter-89a9b3a5ad9e?sourcecollection_archive---------2-----------------------#2024-12-01你真的需要顶级 LLM 的算力来获得莎士比亚风格的提拉米苏食谱吗https://medium.com/alexandre.allouin?sourcepost_page---byline--89a9b3a5ad9e--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--89a9b3a5ad9e-------------------------------- Alexandre Allouin·发表于Towards Data Science ·4 分钟阅读·2024 年 12 月 1 日–对大型语言模型LLMs对环境影响的关注日益增加。尽管关于 LLM 实际成本的详细信息可能难以获得但我们可以尝试收集一些事实以了解其规模。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cdf2cd3dcb299e0cccd6759da2e88ccc.png由 ChatGPT-4o 生成由于关于 ChatGPT-4 的综合数据尚不容易获取我们可以以 Llama 3.1 405B 为例。这个 Meta 的开源模型可以说是迄今为止最“透明”的大型语言模型LLM。根据各种基准测试Llama 3.1 405B 与 ChatGPT-4 相当为理解这一范围内的 LLM 提供了一个合理的基础。推理运行此模型 32 位版本的硬件要求范围为 1,620 到 1,944 GB 的 GPU 内存具体取决于来源substratus, HuggingFace。为了保守估算我们使用较低的数字 1,620 GB。为了更直观地理解——尽管这是一个简化的类比——1,620 GB 的 GPU 内存大约相当于 100 台标准的 MacBook Pro每台 16GB的总内存。因此当你向这些 LLM 询问莎士比亚风格的提拉米苏食谱时需要 100 台 MacBook Pro 的算力才能给出答案。训练我正试图将这些数字转化为更具体的概念……虽然这还不包括训练成本据估计训练过程涉及大约 16,000 个 GPU成本约为 6000 万美元不包括硬件费用——这是 Meta 的一项重大投资——整个过程大约耗时 80 天。在电力消耗方面训练需要 11 GWh。在像法国这样的国家每人年电力消耗大约为 2300 千瓦时。因此11 GWh 大约相当于 4782 人一年的电力消耗。这一消耗释放了大约 5000 吨二氧化碳当量的温室气体基于欧洲平均水平尽管这个数字在不同国家训练模型时可能会轻松翻倍。作为对比燃烧 1 升柴油会产生 2.54 千克的二氧化碳。因此在像法国这样的国家训练 Llama 3.1 405B 的碳排放大约相当于燃烧约 200 万升柴油。这相当于大约 2800 万公里的汽车行驶。我认为这已经提供了足够的视角……而且我还没提到用于冷却 GPU 的水资源可持续性很显然人工智能仍处于起步阶段我们可以预见随着时间的推移将会出现更为优化和可持续的解决方案。然而在这场激烈的竞争中OpenAI 的财务状况突显了其收入与运营开支之间的巨大差距尤其是在推理成本方面。预计到 2024 年公司将花费大约 40 亿美元用于由微软提供的推理工作负载处理能力而其年收入预计在 35 亿到 45 亿美元之间。这意味着仅推理成本几乎就等于——甚至超过——OpenAI 的总收入deeplearning.ai)。所有这些发生在一个背景下专家们正在宣布人工智能模型的性能瓶颈扩展范式。与之前的飞跃相比增加模型规模和 GPU 带来的回报显著减少例如 GPT-4 相比于 GPT-3 取得的进展。Hugging Face 初创公司的研究员兼 AI 负责人Sasha Luccioni表示“追求通用人工智能AGI一直是不现实的‘越大越好’的人工智能方法最终注定会遇到限制——我认为这正是我们现在看到的现象。”那现在呢但别误会我的意思——我不是在审判人工智能因为我爱它这项研究阶段绝对是人工智能发展中的正常阶段。然而我认为我们需要在使用人工智能时运用常识我们不能每次都拿火箭筒去打蚊子。人工智能必须变得可持续——不仅是为了保护我们的环境还为了应对社会分裂的挑战。的确由于高昂的成本和资源需求若将全球南方地区甩在人工智能竞赛的后头将是这场新智能革命中的一大失败。那么你真的需要 ChatGPT 的全部功能来处理你 RAG 管道中的最简单任务吗你是否想控制运营成本你想完全掌控你的管道流程吗你是否担心自己的私人数据在网上流通或者你只是对人工智能的影响保持警觉并致力于其有意识的使用小型语言模型SLM可能是一个更聪明的选择小型语言模型SLM提供了一个值得探索的绝佳替代方案。它们可以在你的本地基础设施上运行并且与人类智能结合时可以提供巨大的价值。虽然 SLM 没有统一的定义——例如2019 年GPT-2 凭借其 15 亿参数被视为大型语言模型LLM但现在已经不再是这样——我指的是像 Mistral 7B、Llama-3.2 3B 或 Phi3.5 这样的模型。这些模型可以在“一台不错的电脑”上运行从而大大减少碳足迹并确保在本地安装时数据的机密性。虽然它们不如大型模型多才多艺但在特定任务中明智地使用时仍然可以提供显著的价值——同时在环保方面更具优势。

量子门保真度估计：泡利随机化基准测试技术解析

1. 量子门保真度估计的挑战与机遇在量子计算领域，准确评估量子门的性能一直是实验物理学家和算法开发者面临的核心挑战。作为一名从事量子硬件表征工作多年的研究者，我深刻体会到传统评估方法存在的局限性。量子门保真度估计本质上是在回答一个关键问题&…...

2026/4/29 6:25:57 阅读更多 →

AssetRipper终极指南：从Unity游戏文件中提取资源的完整教程

AssetRipper终极指南：从Unity游戏文件中提取资源的完整教程【免费下载链接】AssetRipper GUI Application to work with engine assets, asset bundles, and serialized files 项目地址: https://gitcode.com/GitHub_Trending/as/AssetRipper 你是否曾遇到过…...

2026/4/29 6:20:30 阅读更多 →

CSS动画高级技巧与实战

CSS动画高级技巧与实战引言 CSS动画是现代前端开发中不可或缺的一部分，它可以为网站增添生动的视觉效果，提升用户体验。随着CSS3的发展，我们可以创建更加复杂和流畅的动画效果，而不需要依赖JavaScript。本文将深入探讨CSS动画的高…...

2026/4/29 6:14:23 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/28 1:18:38 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →