南天信息行业大模型全栈服务-
版本: V1.0 | 交付方式: 人工服务 |
适用于: Linux | 上架日期: 2024-06-24 07:30:51 |
南天信息拥有一支由各领域资深的业务专家、算法专家、数据专家组成的人工智能团队,不仅熟悉NLP、多模态大模型技术,而且深耕各行业多年,有着深厚的业务积淀与认知。我们的团队能够从客户需求出发,综合考虑模型选择、性能优化、部署架构设计、系统可扩展性以及高可用性等方面因素,确保客户能够在实际应用中充分发挥大模型的潜力,实现业务场景的大模型赋能。
南天信息的大模型服务能力通过五大中心,即数据中心、模型中心、合规中心、场景中心、运维中心,完成大模型全生命周期跟踪与管理。南天信息提供全栈硬件与软件交付与资产管理能力,借助 私有云 统一整合算力基础设施(包括存储、通过计算、AI计算、网络)形成扎实的业务技术底座,在完成数据资产沉淀与提炼后,利用模型资产去训练与微调,在这个过程中将贯穿着大模型的合规与监管,用以确保模型内容生成合规、性能可靠,然后借助Agent工具做场景工作流的编排,通过运维中心部署,最终实现应用赋能与交付,在运维过程中,新的数据也会持续被回收再利用,形成资产。这样一个高度集成化、 自动化 和智能化的大模型运营环境将极大地提升大模型相关项目的管理效率,确保合规性,优化资源利用,并最终实现业务价值的最大化。
大模型服务能力包括六大技术领域:
● 咨询服务-行业大模型咨询服务
南天信息具备丰富的行业经验与数据沉淀。熟悉大模型在各个关键行业的落地路径,积累多个行业大模型应用全栈 解决方案 ,具体咨询与方案能力描述如下:
1. 可完成场景应用的方案设计:针对常见的应用场景方案,比如入侵检测、目标检测、事件分析与预测、信号分析、交易系统故障画像、IT系统智能运维等领域,为客户提供落地方案选择建议。
2. 可完成技术方案设计:聚焦NLP、图文等大模型能力打磨,可以完成端到端进行工程化设计(Agent、RAG、 知识图谱 、运维平台、LangChain工具链能力扩展等),熟悉应用API/SDK对接等。
3. 拥有丰富的NLP/CV等大模型的训练集数据标准设计指导:南天拥有庞大的定制化开发、运维团队,并借此积累了丰富的各个客户的全量场景数据,熟悉各类数据构造、标注、集成和治理,形成自己独有的训练数据标准设计方法论。
● 咨询服务-需求调研服务
南天信息具备丰富的大模型需求分析经验和专业知识。南天信息在大模型的应用方面拥有深入的了解,包括面向NLP的对话问答、文案生成、阅读理解、NL2SQL等任务,以及CV领域的图像分类、物体检测、语义分割、实例分割、 文字识别 、视频分类、目标追踪、姿态估计、事件检测等任务。此外,南天信息也熟悉多模态大模型的应用,能够处理结合文本、图像、音频等多种数据类型的任务。针对预测任务,南天信息具备分类、回归、异常检测、时间序列预测等方面的专业能力。
● 规划设计-规划设计服务
南天信息具备丰富的技术实力和专业经验,可以为客户提供NLP、CV、多模态等领域L0级别大模型的服务部署方案的全面规划设计。我们将利用大模型(盘古大模型、经典 开源 大模型)、计算机视觉算法(例如ResNet、YOLO等)、以及多模态融合技术(如CLIP等),为客户量身定制符合其业务需求的部署方案。我们将综合考虑模型选择、性能优化、部署架构设计、系统可扩展性以及高可用性等方面因素,确保客户能够在实际应用中充分发挥大模型的潜力,实现业务目标的有效实施。南天信息具备从场景应用到大模型平台,再到算力平台、高速AI专用网络的全栈规划与部署能力。
● 规划设计-部署实施服务
南天信息可以提供NLP/CV/多模态等L0大模型及套件(平台产品、工作流等)部署环境检查、安装实施服务,并在安装后完成相关功能调测和测试验收。
● 数据工程-数据采集
爬虫开发经验:团队拥有丰富的爬虫脚本开发经验,能够使用Python、JavaScript等语言快速开发定制化爬虫,以从客户指定的网站和平台高效采集数据。使用过的工具包括Scrapy、Beautiful Soup和Selenium等。
数据库 和 大数据 平台熟悉度:熟练操作多种数据库系统(如MySQL, PostgreSQL, MongoDB)和大数据处理平台(如Hadoop, Spark)。能够有效地通过API或直接查询进行数据抽取。
对象存储 和文件存储:具备在华为OBS、AWS S3、等 对象存储服务 操作数据的能力,以及对HDFS等文件存储系统的使用经验。
● 数据工程-数据清洗
数据处理能力:团队具备使用Python(Pandas, NumPy)进行数据清洗和预处理的专业技能。熟悉数据清洗流程,包括但不限于去除重复值、处理缺失数据、异常值检测和修正。
大数据工具应用:熟练使用Apache Spark等大数据处理工具进行数据的清洗和转换,能够处理大规模 数据集 ,优化数据处理流程,提高数据处理效率和质量。
● 数据工程-数据标注&撰写
技术熟练度:团队熟悉NLP和CV领域的大模型微调数据标注规范,能够高效使用标注工具如LabelBox、CVAT等。
数据撰写:能够根据项目需求撰写适用于模型微调的数据,如图像文本对、视频文本对、图像QA对、视频QA对等。注重数据质量,确保训练数据集的高标准和高一致性。
● 数据工程-数据转换与导入
格式转换:团队具备将数据从一种格式转换为另一种格式的能力,特别是将QA对转换为符合大模型训练要求的JSON和CSV格式(如维基 百科 WIZ模式向量化入RAG工程)
数据导入:为保护数据的安全,团队有经验将数据从非密环境导入至安全模型训练环境(SM环境),确保数据的安全性和完整性。也可实现敏感数据脱敏/过滤/混淆操作。
● 模型训练-调优方案设计
南天信息通过多个行业项目积累了丰富的大模型调优经验。团队能够预测增加资源对性能的具体影响,系统地掌握各个分布式大模型框架的端到端训练流程,包括初始化、定义模型、编译模型、前向传播、损失计算、反向传播和权重更新。可以按场景需求设计调优数据的构成和分布,比如分析业务场景,明确关键用例,并构建能够涵盖这些用例的数据集,以验证模型在特定条件下的效能。
● 模型训练-模型训练实施
南天信息通过多个项目积累了丰富的大模型训练实施经验。熟练运用大模型相关工作流,例如NLP任务的最佳实践如下:
1. 数据准备:从多源收集数据,进行预处理和标记化。
2. 模型设计:选择合适的预训练架构,并设定训练目标。
3. 训练执行:配置计算资源(GPUs/TPUs),开始预训练,监控损失函数和验证指标。
4. 在自监督学习中,可以使用TensorBoard或类似的可视化工具来实时监控训练过程中的损失函数和验证指标。具体操作是,在训练脚本中设置日志记录点,将关键指标如损失值和精度等指标实时写入日志,通过TensorBoard进行可视化展示。
● 模型训练-模型评测
南天信息通过多个项目积累了丰富的大模型评测经验。
1. 设计评测验收指标
A. 性能指标定义:定义准确性、召回率、精确度等标准性能指标。对于特定应用,定义业务相关的KPIs,如用户满意度、转化率或响应时间。
B. 综合评测准备:创建或获取标准化测试集,这些数据应该反映模型预期的实际使用场景。为了避免偏差,保证测试集的多样性和代表性。
2. 实施模型能力评测
A. 运行评测测试:执行模型在预设测试集上的推理,收集性能数据。进行在线评测以模拟真实世界环境下的模型表现。
B. 统计与分析结果:使用统计方法分析测试结果,确定模型性能是否符合预期。如果可能,进行A/B测试对比不同模型或不同版本的模型表现。
C. 结果解读和问题定位:对于未达标的指标,深入分析可能的原因,如数据质量、过拟合或欠拟合问题。使用混淆矩阵、ROC曲线等工具深入理解模型的行为和潜在不足。
3. 优化和反馈循环
A. 根据评测结果优化模型:根据评测反馈,调整模型架构、训练过程或数据处理流程。实施增量更新和微调策略,逐步提高模型性能。
B. 持续评测和监控:设立持续评测机制,确保模型在生命周期中始终符合性能标准。监控实时性能指标,以快速响应潜在问题、如非预期的梯度LOSS。
● 应用工程-Agent开发
团队熟悉Agent智能体、LangChain等大型模型框架的工作原理和设计思想,能够理解其内部的架构和组件,并且掌握在这些框架基础上进行工程化开发的方法和技巧。同时,对于常用的深度学习框架如TensorFlow、PyTorch等,也有深入的了解,能够充分利用其提供的丰富功能和工具,快速地开发和部署Agent,并且确保其在实际应用中的性能和稳定性。
● 应用工程-应用对接
南天信息拥有丰富的经验,能够熟练地调用和集成各种大型模型API/SDK。不仅精通各种API/SDK的调用机制和集成流程,包括但不限于接口交互、参数配置、数据格式处理,还对API/SDK返回的数据结构和业务含义有着深刻的理解。能够精确地解析和处理API/SDK的响应数据,确保其与业务目标完美对接。
● 模型运维-技术支持订阅服务
1. 技术支持与咨询
2. 用户指导
3. 集成支持:构建企业专属的大模型,并根据具体的业务场景、数据特点和企业需求进行定制化的选择和调整。
4. 日常巡检与维护: 提供定期的系统巡检服务,通过自动去偏差来评估和监控传统 ML 的公平性/偏差; 在违反指标阈值时提醒用户并通过自动化工作流程来管理风险并保护企业声誉。
5. 模型升级服务
6. 现场与远程支持
7. 定制化服务: 我们理解每个客户的需求都是独特的,因此提供定制化服务选项,满足用户个性化需求。