推荐:用 NSDT编辑器 快速搭建可编程3D场景。

你可能听说过 LLaMa,也可能没有。 无论哪种方式,有什么大不了的? 这只是一些人工智能的东西。 简而言之,LLaMa 很重要,因为它允许你在商用硬件上运行 GPT-3 等大型语言模型 (LLM)。 在许多方面,这有点像 Stable Diffusion,它同样允许普通人在他们自己的硬件上运行图像生成模型并访问底层源代码。 我们已经讨论了为什么Stable Diffusion很重要,甚至讨论了它是如何工作的。

LLaMa 是来自 Facebook/Meta research 的 transformer 语言模型,它是在公开数据集上训练的 70 亿到 650 亿个参数的大型模型的集合。 他们的研究论文表明,13B 版本在大多数基准测试中都优于 GPT-3,而 LLama-65B 恰好是其中最好的。

LLaMa 是独一无二的,因为对 transformer 本身进行了一些优化并且模型缩小了大约 10 倍,因此可以在单个 GPU 上运行推理。 虽然 Meta 建议用户至少有 10 GB 的 VRAM 来在较大的模型上运行推理,但与经常运行这些模型的 80 GB A100 卡相比,这是一个巨大的进步。

虽然这对研究社区来说是向前迈出的重要一步,但当 [Georgi Gerganov] 介入时,它对黑客社区来说是一个巨大的进步。他在 GitHub 上发布了 llama.cpp,它运行具有 4 位量化的 LLaMa 模型的推理 . 他的代码专注于在你的 Macbook 上运行 LLaMa-7B,但我们已经看到了在智能手机和 Raspberry Pis 上运行的版本。 甚至还有一个用 Rust 编写的版本! 一个粗略的经验法则是任何具有超过 4 GB RAM 的东西都可以运行 LLaMa。 模型权重可通过 Meta 使用一些相当严格的条款获得,但它们已在网上泄露,甚至可以在 GitHub 存储库本身的拉取请求中找到。

除了偶尔有趣和古怪的项目外,拥有像聊天机器人这样的本地 GPT-3 对我们有何影响? 一个简单的事实是黑客可以访问它。 你不仅可以运行它,而且代码可用,模型是根据公开数据训练的,因此你可以训练自己的模型,尽管在 2048 A100 GPU 上花费了 21 天,而且它足以提供合理的输出。 斯坦福大学甚至发布了一个名为 Alpaca 的版本,该版本针对 LLaMa-7B 进行了微调以适应指令遵循,从而将其从简单的聊天机器人提升为能够遵循指令的机器人。 甚至还有关于如何以不到 100 美元的云计算成本自己复制 Alpaca 的指南

当然,与当前大多数 LLM 一样,LLaMa 也存在同样的幻觉、偏见和刻板印象问题。 当被要求生成代码时,它可以尝试请求不存在的端点。 当被问到坦桑尼亚的首都是哪里时,它会回答达累斯萨拉姆而不是多多马。 研究人员还没有解决试图保护黑匣子的问题,因为让模型去做它的创造者极力阻止的事情仍然太容易了。

虽然令人难以置信的是,就在几周前,认为你可以在个人笔记本电脑上运行 GPT-3 级别的模型是荒谬的,但这最终提出了一个问题:我们将如何处理这个问题? 简单的答案是复杂的垃圾邮件。 从长远来看,人们担心大型语言模型可能会取代程序员和作家。 对于编写或调整小程序,它已经相当不错了,正如 [Simon Wilson] 要求它生成一些 AppleScript 所证明的那样。 然而,这仍有待商榷。 能够吐出一个问题的准确答案不是人类能做到的。 你如何处理原始的偏见混淆的无定形智能,即 ChatGPT 和现在在本地运行的其他 LLM?

这台旧打字机内的 Raspberry Pi 无需连接到 API,而是可以完全在本地运行,无需互联网连接。 由于模型较小,因此针对你的用例进行微调变得更加容易。 通过从电视节目(比如辛普森一家)中提取一堆对话,你可以微调模型以像节目中的角色一样做出反应。 展望未来,有一篇名为 ReAct 的优秀论文试图通过要求它输出问题、想法和行动,将类似内部对话的东西放入聊天 GPT 中。 一个很好的例子可能是这样的:

问题:华盛顿州西雅图市的土地比水系大多少?
思考:我需要使用维基百科来查找城市面积和水域的面积
行动:search_wikipedia:华盛顿州西雅图
观察:
• 城市 142.07 平方英里(367.97 平方公里)
• 土地面积 83.99 平方英里(217.54 平方公里)
• 水域 58.08 平方英里(150.43 平方公里)
• 地铁 8,186 平方英里(21,202 平方公里)
思考:城市是142.07平方英里,水域是58.08平方英里,我应该计算一个比值。
行动:计算:142.07 / 58.08
观察:2.4461
答案:陆地是水域的 2.4 倍,即 83.99 平方英里

你可以看到这如何形成一个循环,其中复杂的操作可以分解为由简化的助手执行,例如搜索维基百科、调用 API、控制智能设备或驱动电机。 谷歌一直在他们的 PaLM-SayCan 系统中试验这个概念,该系统使用 LLM (PaLM) 并将其分解为更小的任务。

我们可以看到 LLaMa 在视频游戏中为 NPC 提供动力、优化博客标题和控制机器人。 所以可以理解,我们很想知道你们都用它做了什么。 不过有一件事是肯定的。 把它交给有创造力的黑客会很有趣。


原文链接:WHY LLAMA IS A BIG DEAL

BimAnt翻译整理,转载请标明出处