在建模的大世界里有一些众所周知的名字,包括 OpenAI、Google DeepMind 和 Anthropic。但这些名字的背后是Surge AI,一家很少做公关、也从未被谈论过的公司。在不到四年的时间里,该公司的年收入已增长到超过 10 亿美元,团队人数还不到 100 人。从无到有,我们没有筹集到一分钱的风险投资资金,并且从第一天起就实现了盈利。更重要的是,ChatGPT、Claude 和 Gemini 等顶级模型在训练后、测试和调优阶段都不同程度地使用了 Surge 的数据和工具。这意味着 Surge 在确定模型应该是什么样子方面具有非常微妙但重要的地位。 Surge创始人Edwin Chen的身份也非典型。他不是“连续创业者”,而是一位真正进行过从麻省理工学院到谷歌、Facebook、Twitter 的机器学习研究的学术工程师。而当他真正进入在商业上,他几乎遵循了硅谷所有被认为“反选举”的剧本。没有收视率追逐,没有路演,没有公关头条新闻。我们不会非正常地扩大我们的团队,我们只是聘请一些“上钩”的工程师和研究人员。我们不追随潮流,不随波逐流,从成立的那一刻起我们只做一件事。它是关于使用高质量的数据来教模型区分好与坏。在“资金、规模、测试”的喧嚣中,他做出了大部分反主流的决定,建立了一家价值数十亿美元的公司,并将自己定位为“下一代人工智能的养父”而不是企业家。 1 “我不想踏上硅谷的跑步机。”如果你想找到一个词来形容埃德温的创业精神,可能就是他在一次采访中的原话。 “我绝对不想参与硅谷的游戏。这太荒谬了。”大多数在大型科技公司工作过的人都亲眼目睹过d “组织肥大”的力量。埃德温的情绪更加极端。他我在很多大工厂工作过,一直都有这样的感觉。 “如果工厂裁掉90%的人,人多了公司就会跑得更快。”所以当他创立Surge时,他干脆把这种直觉变成了公司的设计原则。团队很小,他们想保留几十个人,而不是为了“领土性”而增加更多人。没有管理层级或复杂的流程;核心工程师和研究人员直接面对客户和问题。他在招聘时非常严格。 “你不能只是在简历中添加一行受欢迎的公司名称。”在筹集资金方面,他走了一条很少有人走的路:根本不与风险投资家整合。在如今的硅谷,这几乎相当于主动放弃了一批“增长推动者”。没有风投帮忙表态,没有估值帮忙抢占头条新闻,没有关于“新一轮融资结束”以推动招聘和合作的消息。成本是清楚的。没有公关光环的Surge很长一段时间都“默默无闻”。它的生长几乎完全依赖于最原始、最困难的方法。该产品非常好,研究人员很乐意对其进行研究。但Edwin认为,这是公司能够避免受到“硅谷机器”偏见的唯一途径。融资后,很难拒绝任何损害长期价值的事情。”他不想把时间浪费在巡演和媒体关系上,而是宁愿坚持实验数据集和报告,思考如何让下一个版本的模型更可靠地工作。在这种情况下,Surge被迫一路走下去。没有VC的批准或PR的力量,结果就是唯一的东西1 你的赌注是什么:获得权威的“高质量数据” Edwin 的背景决定了 h 的方向。赌注:不是创建模型,而是创建“模型后面的水层”。从小他就同时对数学和语言学着迷。之后,我在麻省理工学院学习,并访问了 Google、Facebook 和 Twitter 来了解机器学习。我做了一些研究。他们一遍又一遍地遇到同样的问题。我想训练一个好的模型,但我无法获得足够的数据。对于大多数互联网公司来说,所谓的“数据标签”通常意味着两件事。大量廉价劳动力被投入到简单的标签中:“这是一只猫吗?” “这个盒子是汽车吗?”并使用非常广泛的规则来衡量质量:“是否达到要求?”当GPT-3发布时,人们意识到,如果模型真的想进入“写论文、做研究、支持科学发现”的阶段,“写得好”是不够的。模特需要被教导什么是“真正好的”。 GPT-3 发布一个月后,他创立了 Surge,并为公司确定了单一方向。我它只做一件事:使用非常高标准的人类数据来训练和评估模型。在采访中他用一个小例子来解释什么是“高质量”。如果你想进入要求模特写一首关于月亮的 8 行诗,大多数人会检查以下内容: – 是 8 行吗? – 有没有提到月亮?检查完后,说:“好吧,这是很好的数据。”但我们真正想要的是诺贝尔奖级别的诗歌。它是独一无二的吗?你有什么令人惊奇的图片吗?你用语言创作工艺品吗?你有没有真正感受到过什么?为了大规模地实现这一主观要求,Surge 做了其他人懒得做的事情。它涉及为每个注释者和每个任务收集数千个行为信号。观察你的最终分数,以及你的写作速度和反应时间。文本和您编写的代码的质量。如果使用您的数据训练的模型在实际任务上有所改进。然后,它使用一组内部模型来确定谁是真正的“最喜欢的人”在哪些方面。这有点像谷歌搜索业务的演变。首先删除所有垃圾邮件和无效链接,然后将剩余链接搜索。让我们在内容量中慢慢了解“谁的页面真的很好”。 Edwin 的逻辑是:你认为什么是好的数据最终取决于模型认为什么是“好的答案”。这是一个价值问题,而不是工程细节。 1 他拒绝“为小报读者优化模型” 在谈到当前的大规模建模行业时,Edwin 的批评非常直接:他认为许多实验室因错误的目标函数而产生偏差。首先要提到的是各种排行榜和基准测试,尤其是像 LMSys Arena 这样的“公开投票排行榜”。这些列表允许世界各地的用户比较两个模型的响应,并选择“最佳”模型来确定其排名。乍一看,这是机械式的“民主选拔最佳模式”。但在埃德温眼里s,它更像是为模特设计的“标题诱饵训练营”。大多数选民不会花时间核实事实,所以他们只是简单地浏览 2 秒钟,然后根据“看起来最强”的内容(更多表情符号、更大胆、更多多级标题和更长的持续时间)进行投票。比简洁、仔细、诚实的回答更容易获胜。 Edwin表示,Sarge本人研究了LMSys的数据,发现“最快的上市方式就是让模型输出看起来更引人注目,即使事实是错误的。”问题是整个业务链都链接到这个列表上。当企业客户购买模型时,他们会问:“你们使用LMSys吗?” “你如何给自己分类?”为了签署订单,销售团队只能将该清单用作促销手册。投资担保人的表现和晋升与“名单中的模特注册”有关。尽管我们知道针对此类列表进行优化会使模型在准确性和合规性方面变得更差ce 并附有说明。这个链条持续下去,最终将整个行业置于危险境地。因此,我们不是优化事实,而是说:“谁在杂货店门口买小报?”人工智能经过优化以适合每个人。 Edwin 还有另一个层面的担忧,这来自于他在 Twitter 和 Facebook 上使用推荐算法的经验。您清楚地知道当系统的目标函数从“信息质量”变为“用户参与度”时会发生什么。头条新闻、丑闻言论和奇怪的照片很快占据了屏幕,因为它们最有可能唤起多巴胺。现在把这套逻辑转移到morebig上已经很常见了。模特们会因为你的聪明和积极而疯狂地钦佩你。他们不会提醒你“这个话题实际上很复杂”,而是总是根据你的偏见告诉你一个故事。他们花了很多时间一遍又一遍地磨练你一些根本不重要的琐事蚂蚁。他举了一个虽小但很典型的例子。我曾经用Claude编辑过一封邮件,改了30个版本,终于发出了一封我满意的邮件。然后他突然恍然大悟。 “这是一封不重要的电子邮件,我在这里浪费了 30 分钟的时间。”所以问题是:你希望你的模特如何对待你?他们是总是说“太好了,让我们再尝试 20 个版本”的好人吗?或者他们是否感到如此自在,然后说:“够了,让我们继续做更重要的事情吧”?这背后有不同的目标函数。第一个负责“通话时间”,第二个负责“人类时间和生活质量”。 1 “你的公司就是你的目标函数。”如果你能用一句话来概括埃德温的故事,它可能会是这样的:他正在利用公司来实现他所相信的一系列目标函数。采访最后,他说了一句很“反鸡汤”的话。 “我认为创业意味着要关注财务状况nts,筹集资金,整天做公关。后来我发现这些都没有必要。只要你把一件事做得很好,以至于不能忽视它,你就能建立一家成功的公司。”对他来说,这就是:在大模型时代,“好的数据,我们需要认真回答一些看似无聊的问题,比如“什么是好的模型,什么是好的目标函数?”并逐步将它们融入我们的产品、客户关系和公司文化中。他给创始人的建议也很简单。与其依靠不断的转向来“寻找市场”,不如先问问自己。 “有什么事情是没有你就没有人能实现的吗?”不要只想“现在哪些项目容易融资?”想想“如果我十年后失败了,我还会认为他们值得吗?”虽然模型参数、计算能力的扩展和排名在 AGI 竞赛中当然很重要,但 Edwin 提供的见解更为基础。模型的最终外观主要取决于: – W您将向其中输入什么样的数据? – 您将使用什么指标来评估它? – 作为创建它的公司,您真正相信什么。换句话说,你就是你的目标函数,你的公司也是你的目标函数。这家价值数十亿美元的公司,拒绝筹集资金、公关或规模,现在正在使用一种非常沉默的方法,将其目标函数整合到下一代人工智能的增长轨迹中。
特别说明:前述内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。