探索中国CIO人才现状 | 第四季调研报告
“过去,未来;老路,新路” — — 大模型时代生物医药数字化转型之路
2024-04-22  作者:庞雪巍 来源:CIO发展中心

本文根据水木分子COO邢杰在CIAPH第12届医药健康行业数字化高峰论坛上的分享整理

邢杰.png

水木分子COO 邢杰

尊敬的各位同仁,我是邢杰,代表水木分子公司分享。我的职业生涯跨越了个人电脑、互联网、移动互联网,并且正在积极融入大模型时代。去年11月,我做出了一个重要决定,从投资人转变为一家创业公司的合伙人。该创业公司专注于医药行业的垂直领域,致力于开发多模态大模型及其应用。

水木分子公司是一家基于人工智能原生技术的企业。

在科技变革的每一个关键时刻,我始终致力于积极学习、参与并推动技术在实际场景中的应用。我深感忧虑,担心自己会被这个时代错过,或者说我自己错过了这个时代。

邢杰1.png

如何让自己不错过这个时代,只有躬身入局

邢杰2.png

回顾历史,以前每次工业革命大约经历一个世纪的时间。然而,自1956年“人工智能”这一概念在达特茅斯会议上被提出,到2012年深度学习和神经网络技术的兴起,再到2022年底ChatGPT及大模型的出现,这一新时代的工业革命迭代速度呈现出超线性加速的趋势。

邢杰3.png

神经网络并非计算机科学的原生产物,而是源自脑科学的一次重大革命。它模拟了人类思考问题的方式,通过神经元注意力机制激发特定领域的功能,以更有效地解决专业问题。尽管如此,神经网络并不能解决所有问题。OpenAI的ChatGPT迅速走红,引发了人们对人工智能未来体验的无限遐想。然而,在特定领域需要结合领域知识、数据、合规等因素找到生成和检索、可信和溯源之间的平衡点,这不就是通用模型可以解决的简单问题,这也是我选择加入垂直类模型公司的原因。

我们正处在一个巨大的变革之中,面对这样的时代变迁,我们应该如何适应?对于首席信息官(CIO)而言,这又意味着什么?

比尔·盖茨曾指出:

我们一直在探索人工智能如何改变人与计算机的互动方式。无论是结构化数据还是非结构化数据,最终都将通过大模型进行解析和处理,将其转化为任务,并通过智能体来执行相应的任务,以实现意图的达成。

邢杰4.png

在生物医药领域,人类的直觉和创新思维是不可或缺的。我们认为科学家的直觉至关重要,机器的自动化填充无法替代。我们需要将这种直觉引导我们的模型,使其能够更有效地安排任务、执行操作,并提供更优质的反馈。对于整个行业来说,大模型不会取代科学家的工作,但这个超级助手必将改变他们的工作范式。

老路新路,到了新路,我们应该如何前行?

邢杰5.png

在企业数字化转型的道路上,我们已经走过了20多年。现在,面临着新的道路,我们应该如何前行?我目前正在尝试中,并愿意与大家分享我的一些提炼。

生物医药领域的壁垒非常高,平台下一步的能力和技术一定会有别的连接方式。实验室自动化方向很难做;人形机器人最难的不是人形,而是他的大脑;你让智能体做所有的任务,可以通过大脑很好地控制它,完成所有任务。

科学家的“直觉”驾驭着“模型+智能体+自动化”是医药产业下一个的范式。

截止到19世纪末属于第一代(TMDD):手工操作,基于经验主义,特征是低通量、缺乏系统性、耗时长以及成本高; 19世纪末至20世纪中叶为第二代(CADD):计算机辅助加速药物发现和设计,底层有物理化学规则支持,特征是高通量、工具属性,只解决单个问题、依赖研究人员经验; 20世纪中叶至21世纪初为第三代(AIDD):人工智能技术改变药物研发,从训练数据中挖掘药物发现和设计,专家认知和大模型知识的点状连结,特征是超高通量,流程化、缺乏模型与专家交互、依赖大规模高质量标注数据; 2023年至今为第四代(ChatDD):人机协作对话式药物研发,重新定义药物研发模式,特征是专家认知和大模型知识链接。

邢杰6.png

AIDD和大模型时代的ChatDD之间的区别在于,尽管AIDD可能看起来不是那么成功,实际上它在某些方面起到了非常关键的作用。例如,就像天猫精灵能够很好地执行简单的命令,但对于更复杂的问题则显得无能为力,生成式大模型可以举一反三来更好应对医药行业复杂场景下的复杂问题。

水木分子公司的医药大模型在去年发布了10B开源模型和100B闭源模型。在GitHub上可以下载我们的BioMedGPT开源模型,我们欢迎大家使用,并希望得到您的Star支持。

邢杰7.png

ChatDD-FM®是我们的千亿参数闭源模型,它基于专家的指令结合增强搜索内外部可信数据,可以直接提供可溯源的更严谨答案。该模型集成了原生的智能体和外部工具调用,将一连串的提示词、工具、调用任务等连接起来,形成从意图到执行的“链式”闭环。这样的模型更适合医药企业的情况,能够在严肃医学领域发挥更大的价值。

Memory的作用是让模型保留更多的记忆,在许多场景下(比如:医药客服等),问答的历史需要被记忆下来,尤其是在医药可追溯体系下。

Prompts提示词是与模型正确交互的重要技能,其构建生物医药专业领域问答模板并不断积累基于Prompt的高质量数据,帮助模型进行微调和进一步强化学习是非常关键的。

邢杰8.png

通用大模型在医药行业的使用不可避免地会带来“幻觉”问题,特别是在专业领域。例如,当问及中国死亡率最高的癌种是什么时,可能会得到模棱两可的答案。因此,每个企业都需要内部专家“引导”模型,不断提升上下文意图识别能力,从而更好地产生企业专属价值。

邢杰9.png

我们的蓝图主要由三层架构组成:最底层是Foundation,主要由ChatDD-FM千亿参数多模态生物医药大模型和专业数据库构成;中间层是DeepApp生态,主要集中在研发助手、商业智能、临床研发、医学和营销、工艺和生产等环节;顶层是深度医药场景,应用于早期研发、商业决策、管线追踪、临床研发以及营销等领域。

虽然两年之后这个蓝图随着模型生态的快速发展会发生很大的变化,但目前我认为,将这些元素串联起来解决上述场景问题是每个企业最核心的问题,这一点肯定不会变。

如果只谈论技术而不考虑场景,那么技术本身将毫无意义。场景理解是解决行业关键问题的关键部分,需要找到正确的场景,并从场景出发寻找最合适的方案。

在这个框架之外,我必须强调,高质量的数据是大模型时代每个企业最关键的核心因素。所有的CIO都应该将数据资产管理作为最重要的任务,以构筑更高的企业核心竞争力。

邢杰10.png

通过这两个场景,我们可以思考一下整个干湿闭环或者模型驱动的未来实验室会是什么样子。ChemCrow通过大语言模型来驱动意图和任务的理解到任务拆解,然后调用API来实现干湿任务的闭环,并采集高质量的及时反馈数据。另一个例子是劳伦斯伯克利国家实验室,在材料科学领域的尝试,他们用17天时间从58个目标中分离出41种新化合物。如果通过大模型来驱动干湿实验真的商业化可落地了,科学家的工作效率和研发效率将发生翻天覆地的变化。

邢杰11.png

在模型时代,我们所有人都站在同一起跑线上。我的建议是:首先去做(first do it),然后正确地去做(then do it right),接着做得更好(Then do it better)。尝试的成本肯定是有的,但做与不做之间有着天壤之别。如果在座的各位还没有去尝试一下模型带来的变化,那么空谈模型也只能是空喊口号而已。

现场演讲视频远超于文字整理,也包括讲者与香港大学张炜教授现场互动,有兴趣的朋友,可以加入会员观看会议回放视频。

小伙伴们,好消息来了!!!CIAPH第12届医药健康行业数字化高峰论坛未能现场参会,不必为错过业内专家分享而感到遗憾。小编特为大家整理剪辑了主会场及各分会场的重磅嘉宾视频集锦,点击左下角阅读原文或扫描以下二维码,即刻在线观看!数字化干货一手掌握!

二维码