Rad AI 使用 Amazon Sag

2025/08/08

Rad AI通过使用Amazon SageMaker将实时推理延迟降低50%

关键要点

Rad AI利用Amazon SageMaker显著降低了实时推理延迟，提高了医疗影像报告的效率和准确性。
该解决方案通过自动生成报告的关键部分，使放射科医生能够节省时间，减少疲劳和错误。
Rad AI的系统每月可为数百万次放射学研究生成印象，有效支持40%以上的美国医疗系统。

本文由Ken Kao、Hasan Ali Demirci、Dmitry Soldatkin和KaranJain共同撰写，发表于2024年11月26日。更多内容可以参考。

引言

RadAI对放射学报告进行了重塑，开发了解决方案以简化最繁琐和重复的任务，从而节省放射科医生的时间。自2018年以来，借助先进的专有和开源大语言模型（LLMs），我们的旗舰产品：显著减少了放射科医生在撰写报告时的时间，通过自动生成印象部分来实现。

印象部分作为放射学报告的结论，包含总结、后续建议和重要发现的重点内容。它是为请求该研究的临床医生提供的主要结果，直接影响患者后续治疗的方向。鉴于其关键作用，准确性和清晰度在这一部分尤为重要。传统上，放射科医生需要逐字口述印象部分，为每个报告从零开始创建，这一耗时的过程不仅导致疲劳和倦怠，还在多个研究中涉及冗余的人工口述。

Rad AIImpressions提供的自动化不仅减少了倦怠，同时也防止了因手动重复导致的错误。它提高了生成报告的能力，缩短了医疗系统的周转时间，使更多患者享受到高质量的护理。印象部分针对每位放射科医生的语言和风格进行了精细定制。放射科医生可以根据自己的需要审阅和修订结果，确保对最终报告的绝对控制。此外，RadAI还帮助放射科医生发现和修复他们报告中的各种错误，从而改善患者护理的整体质量。

如今，通过大规模执行抽象摘要任务，RadAI的语言模型每月为数百万次放射学研究生成印象，支持40%以上的美国医疗系统和10大美国放射学实践中的数千名放射科医生。基于多年的客户合作经验，我们估计我们的解决方案为每9小时的放射学班次节省了1小时。

在实时放射学工作流程中，我们的产品全天候在线运行，并遵循严格的延迟要求。多年来，RadAI一直是放射学实践和医疗系统的可靠合作伙伴，始终以0.5-3秒的极小延迟提供高可用性和完整结果。这一效率使放射科医生能够在研究中达到最佳结果。

在本文中，我们将分享Rad AI如何通过使用将实时推理延迟降低50%。

部署先进机器学习模型的挑战

作为一家以AI为主导的公司，Rad AI在多个职能中整合了机器学习（ML）模型——从产品开发到客户成功，从新兴研究到内部应用。AI模型在RadAI中无处不在，增强了该组织的多个方面。将ML模型整合到医疗工作流中看似简单，但面临许多相互关联的挑战。

医疗应用使通常的AI复杂性变得更加棘手。尽管任何AI解决方案都需要在速度与准确性之间取得平衡，但放射科医生依赖我们印象的及时性来照顾患者，并期待我们的临床准确性不断改善。这种持续创新需要新的模型，并要求不断改善专业软件和硬件。随着推理逻辑变得日益复杂，从多个模型中组合结果（每个模型都定期更新）以及建立一个流畅且可重复的编排和管理流程显得尤为重要。针对这样的复杂性，连基本问题的诊断都需要谨慎而系统的方法。

RadAI的机器学习组织从两个方面应对这一挑战。首先，通过提供必要的流程和自动化，提升研究人员的生产力，使他们能定期交付高质量的模型。其次，通过做出战略性基础设施选择和与提供计算资源和托管服务的供应商建立合作关系，来满足运营需求。通过提高研究人员的生产力和运营效率，RadAI创建了一个促进机器学习创新的环境。

为了在这种环境中取得成功，RadAI利用所提供的可用性和一致性，这是一个完整管理的AI推理服务，允许无缝部署和扩展模型，而不受使用这些模型的应用程序的限制。通过将（AmazonECS）与SageMaker集成，Rad AI的机器学习系统形成了一个复杂的服务器端架构，拥有众多在线组件。这一基础设施使RadAI能够应对实时模型部署的复杂性，确保放射科医生及时获得准确的印象信息。

通过专注的努力和战略规划，Rad AI持续改善其系统和流程，从而最终改善患者和临床医生的结果。

接下来，让我们探索一下解决方案和架构策略。

提高研究人员生产力的方法

为了将我们的战略规划转化为实际行动，我们制定了旨在优化流程和系统架构的方法。通过改善部署管道和增强研究人员与MLOps工程师之间的协作，我们简化了模型与医疗工作流的整合。在这一部分，我们将讨论使我们能够优化业务运营并提升机器学习能力的实践。

为了使研究人员在最大程度上发挥工作能力，同时尽量减少与MLOps工程师之间的协调，我们认识到在部署流程中需要进行规范化。管道始于研究人员管理相应模型工件上的标签和元数据。这种方法抽象掉了复杂性，消除了部署模型时所需的繁琐程序。通过集中模型注册和协调团队成员的实践，我们关闭了模型部署的入口点。这使我们能够在识别瓶颈或改进领域后，构建附加工具。

我们不再需要频繁地在MLOps和研究团队之间进行同步，而是观察实践并在需要时识别需求。在后台，我们使用一个内部工具结合模块化的基础设施代码进行拉取请求的创建自动化。没有人需要手动编写代码。研究人员和工程师之间的协议简化为拉取请求审核，消除了流转文件或召开协调会议的需求。基础设施代码的声明性特性和直观设计回答了大多数MLOps工程师通常会询问研究人员的问题——这些信息都在添加到代码库并提出拉取请求的文件中。

删除)

这些方法结合SageMaker所提供的能力和优化，已将模型部署流程缩减到模型工件准备就绪后仅需几分钟。将新模型部署到目标环境现在所需的工作量极少。只有在处理特定架构的特殊特性或特定配置（例如张量并行性调整）时，才需要更多考虑。通过最小化部署中的复杂性和时间，我们使研究人员能够更专注于创新，而非操作障碍。

架构策略

在我们的架构策略中，我们旨在实现高性能和可扩展性，同时有效地部署ML模型。推理任务中对低延迟的需求——尤其是在医疗环境中，延误可能会影响患者护理——要求具有高效处理GPU负载和CPU负载的架构。此外，快速生成基准测试的简单配置选项变得至关重要。这种能力使我们能够快速评估不同的后端引擎，这在延迟受限的环境中是必需的。

除了流程改进外，我们实施了架构策略以解决技术方面的问题。正如前面提到的，现实世界的推理系统通常将GPU负载和CPU负载的推理任务结合起来，同时需要从多个服务组合结果。这种复杂性通常是ML组织提供产品侧功能的必要条件。我们使用来运行CPU推理和其他支持组件，通常与一个全面的前端API一起使用。这一设置实现了一个经典架构，由前端API和后端应用程序服务组成。GPU推理通过SageMaker实时推理端点提供。以下图示描述这一架构。

删除)

我们标准化使用容器，这些容器由公共Amazon存储库维护和提供。这些容器支持多种优化框架，并提供简单的配置交付选项。这一设置让研究人员更容易解读，避免了其处理各种ML库之间的依赖性和兼容性问题及管理基础容器层带来的不必要麻烦。

深入研究我们的架构时，我们考虑到我们在线推理系统中使用的一个部署策略。在单一实例上，我们使用一个调度推理任务的服务器，并采用作为模型服务器。这种方法使我们能够从多个后端引擎中进行选择和实验，包括TensorRT- LLM和vLLM等流行框架。通过与SageMaker实时端点的内置集成以及对多GPU推理和张量并行性的支持，我们可以迅速评估特定任务的不同后端。

删除)

随着Rad AI的不断成熟，我们的架构解决方案也在不断演进。最初，我们依赖定制组件，自行管理容器镜像，并直接在AmazonECS提供的实例上运行NVIDIA TritonServer。然而，通过迁移到SageMaker托管托管和使用范围从1到8的各种GPU类型的实例，我们实施了前面讨论的架构策略。消除构建和优化模型托管基础设施所涉及的无差异重型工作，降低了我们的总拥有成本50%。优化实例类型和容器参数同样降低了延迟。

在使用SageMaker推理部署模型时，请考虑以下最佳实践：

构建一个强大的模型部署管道，自动化注册、测试和将模型推广到生产的过程。这可能涉及将SageMaker与持续集成和交付（CI/CD）工具集成，从而简化模型发布流程。
在基础设施选择方面，确保SageMaker端点的规模与预期流量和模型复杂性匹配，使用自动扩展等功能动态调整容量。
性能优化技术，如模型优化和推理容器参数调优，可以帮助改善延迟并降低成本。
在生产中对模型性能进行全面监控和记录至关重要，以便快速识别和解决出现的任何问题。

结论

提高全球患者护理水平的挑战之一在于如何处理医疗行业的复杂性。RadAI致力于应对这一挑战，通过转变放射学领域的方式来实现。通过优化我们的流程和实施战略架构解决方案，我们提升了研究人员的生产力和运营效率。

我们对模型部署和基础设施管理的精心方法简化了工作流程，并显著降低了成本和延迟。每节省的一秒钟不仅增加了带宽并减少了我们服务的放射科医生的疲惫感，同时也改善了患者的结果，并为医疗组织带来了多种好处。我们的推理系统在实现这些目标中至关重要，利用SageMaker的可扩展性和灵活性，将机器学习模型无缝集成到医疗环境中。随着我们不断发展，致力于创新与卓越的我们，将RadAI置于AI驱动医疗解决方案的最前沿。

请在评论中分享你的想法和问题。

参考资料

Weights & Biases. (2023年5月2日).

关于作者

Ken Kao 是一位拥有12年以上在初创公司和上市公司领导工程和产品经验的高管，现任RadAI的工程副总裁，致力于推动生成AI在医疗保健中的应用，以帮助提高医生效率和改善患者结果。曾在Meta推动VR设备的性能、仿真及开发工具与基础设施的工作。也曾担任Airbnb、FlatironHealth和Palantir的工程领导职务。Ken拥有斯坦福大学电气工程硕士与学士学位。

Hasan Ali Demirci 是RadAI的员工工程师，专注于机器学习的软件和基础设施。自2019年作为早期工程师加入以来，他一直致力于RadAI在线推理系统的设计和架构。他是AWS认证解决方案架构师，拥有伊斯坦布尔博阿齐奇大学的机械工程学士学位和加利福尼亚大学圣克鲁斯分校的金融研究生学位。

Karan Jain 是AWS的高级机器学习专家，领导全球AmazonSageMaker推理的市场战略。他通过提供指导，帮助客户加速在AWS上的生成AI和机器学习之旅，包括部署、成本优化和市场战略。Karan在各个行业的产品、市场和商业开发方面拥有超过10年的经验，热衷于将复杂的服务功能与客户解决方案相结合。

Dmitry Soldatkin 是Amazon Web Services (AWS)的高级机器学习解决方案架构师，帮助客户设计和构建AI/ML解决方案。Dmitry的工作涵盖广泛的机器学习用例，主要专注于生成AI、深度学习以及在企业范围内扩展机器学习。他曾协助多个行业的公司，包括保险、金融服务、公用事业和电信，拥有通过数据驱动商业成果的持续创新和热情。在加入AWS之前，Dmitry曾是金融服务行业数据分析和机器学习领域的架构师、开发人员和技术领导。

正在加载评论...

Rad AI 使用 Amazon Sag

Rad AI通过使用Amazon SageMaker将实时推理延迟降低50%

关键要点

引言

部署先进机器学习模型的挑战

提高研究人员生产力的方法

架构策略

结论

参考资料

关于作者

Leave a Reply

Recent Posts

Categories

注册优惠