苏州科达围绕政法市场,提供视频会议、安防监控以及音视频融合应用类产品与解决方案,其中视频监控业务和AI大模型关系紧密,包括感知型摄像机、高清摄像机、NVR、监控平台等。 2022 年,苏大科技建设了公安系统首套省级国产化视频会议系统。
公司的明星产品有车辆二次分析系统、大规模的人像分析平台、视综产品、AI超微光摄像机等。其AI发展历史最早可以追溯到2014年,科达第一台感知型摄像头发布。在2017年,确定“安防+AI”战略,2020年打造行业大模型和扩散模型。2023年,布局多模态大模型。
“多模态AI”走红
多模态模型是一种能够处理多种类型数据的人工智能模型。最常见的模态就是文本,后来出现文生图大模型,现在前沿的大模型有图像生视频、音频生成视频等等。值得一提的是,多模态AI中门槛比较高的就是文生视频。
国外知名AI公司或头部科技公司已经开始争夺AI视频生成高地。11月29日,美国AI初创公司Pikalabs发布视频生成应用Pika1.0,它能够实现文本和图像生成视频、视频编辑、视频风格切换等功能。从测试效果看,Pika展现出了比较强的一致性和稳定性。无独有偶,12月6日,谷歌发布多模态AI大模型Gemini,可同时识别和理解文本、图像、音频、视频、代码五种信息。包括三种不同套件,分别是GeminiUltra,GeminiPro和GeminiNano。此外,谷歌投资的runway初创公司,曾发布AI模型Gen-2。之后,“多模态AI”开始走红。
与上述通用多模态大模型不同,苏州科达于2023年7月正式推出了KD-GPT大模型属于垂直行业的大模型,它包括多模态大模型、AIGC图像大模型和行业大模型三种,据苏州科达公告,大模型当前仅在个别重点用户中先行试用。未来,大模型会能否大范围推广还不得而知。
苏州科达首席科学家章勇在2023中国(厦门)安防人工智能创新峰会的演讲提到,KD-GPT是生成式的AI模型,这个大模型可以解决数据难问题。比如,要检测一幅图片中是否有烟雾出现,我们只要输入提示语:“烟雾”和待检测的图片,大模型就可以直接输出检测结果,无需成千上万张的烟雾图片进行训练。可见,如果苏州科达的多模态AI能在安防行业成功落地,将会出现一款领先的安防领域商业产品。
据东吴证券研报显示,未来随着AI在安防领域应用范围扩大,应用深度提升,苏州科达基于党政、公安等领域优质客户,将有望实现订单和收入质量的持续提升。
随着Pika1.0、Gemini、Gen-2、等多模态模型的快速涌现,全球大模型多模态化趋势日益显著。据《达摩院2023十大科技趋势》显示,建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。