EdgeFleetEdgeFleet
首页
快速开始
  • 系统概述
  • 架构设计
  • 核心组件
  • 技术选型
  • 部署运维
首页
快速开始
  • 系统概述
  • 架构设计
  • 核心组件
  • 技术选型
  • 部署运维
  • 快速开始

    • 平台简介
  • 翼影调度系统

    • 系统概述
    • 架构设计
    • 核心组件
    • 技术选型
    • 部署运维

技术选型

边缘舰队(EdgeFleet)作为翼影调度系统,采用云边端协同架构设计,技术选型按照云端算法生产中心、边端指挥调度平台、端侧分布式执行网络三个层次进行划分,每个层次都有针对性的技术栈选择。系统致力于为无人智能提供分布式算力支持,为无人机群等低空设备提供分布式算力支持。

云端技术栈(算法生产中心)

云端作为系统的算法生产中心,承担算法研发、模型训练、算法优化、模型管理等核心功能,是系统的主要算法开发平台。云端技术栈专注于GPU集群管理、分布式训练、算法研发平台、数据存储与管理等核心能力,为边端指挥调度和端侧分布式执行提供算法支持。

容器编排与资源管理

Kubernetes (K8s) - 云端

技术介绍: Kubernetes 是云原生容器编排的标准,提供容器生命周期管理、服务发现、负载均衡、自动扩缩容等能力。

选择理由:

  • 标准化: 业界标准的容器编排平台,生态丰富
  • 可扩展性: 支持集群管理,可扩展到数千节点
  • 高可用: 内置故障恢复和自愈能力
  • 多云支持: 支持公有云、私有云、混合云部署

在EdgeFleet 中的应用:

  • 管理云端GPU集群
  • 提供算法研发和模型训练资源的动态调度
  • 支持算法生产服务的自动扩缩容
  • 实现算法生产环境的统一管理和编排

NVIDIA GPU Operator

技术介绍: NVIDIA GPU Operator 是专为 Kubernetes 设计的 GPU 资源管理组件,提供 GPU 设备的自动化部署、配置和管理。

选择理由:

  • 专业GPU支持: 针对NVIDIA GPU深度优化
  • 自动化管理: 自动处理GPU驱动、CUDA运行时安装
  • 资源抽象: 将GPU资源抽象为Kubernetes可调度的资源
  • 监控集成: 提供GPU使用率、温度等监控指标

在EdgeFleet 中的应用:

  • 管理云端GPU池化资源
  • 提供算法研发和模型训练的GPU资源调度
  • 支持GPU虚拟化和多租户隔离
  • 实现GPU资源的动态分配和回收
  • 支持分布式算法训练和模型推理

分布式推理框架

NVIDIA Triton

技术介绍: NVIDIA Triton 是高性能的推理服务器,支持多种深度学习框架,提供模型版本管理、动态批处理、并发推理等高级功能。

选择理由:

  • 高性能: 针对GPU推理深度优化,支持TensorRT加速
  • 多框架支持: 支持TensorFlow、PyTorch、ONNX等主流框架
  • 生产就绪: 提供完整的监控、日志、指标收集
  • 灵活部署: 支持CPU、GPU、多GPU推理

在EdgeFleet 中的应用:

  • 作为云端算法验证和测试引擎
  • 支持算法模型的热更新和版本管理
  • 提供云端高并发算法推理服务
  • 实现算法推理任务的负载均衡
  • 支持算法模型推理和复杂计算任务

Ray Serve

技术介绍: Ray Serve 是基于 Ray 的分布式模型服务框架,提供模型服务的分布式部署、自动扩缩容、A/B测试等功能。

选择理由:

  • 分布式架构: 天然支持分布式模型服务
  • 自动扩缩容: 根据负载自动调整服务实例
  • 多模型支持: 支持同时部署多个模型
  • 实验友好: 支持A/B测试和模型灰度发布

在EdgeFleet 中的应用:

  • 实现云端分布式算法服务的统一管理
  • 支持云端算法服务的动态扩缩容
  • 提供云端算法版本管理和灰度发布
  • 实现云端算法服务的协调管理
  • 支持分布式算法训练和模型服务

分布式训练框架

PyTorch DDP

技术介绍: PyTorch Distributed Data Parallel (DDP) 是PyTorch的分布式训练框架,支持多GPU、多节点的分布式训练。

选择理由:

  • 高性能: 支持多GPU并行训练,显著提升训练速度
  • 易用性: 简单的API,易于使用和部署
  • 扩展性: 支持多节点分布式训练
  • 生态丰富: 与PyTorch生态深度集成

在EdgeFleet 中的应用:

  • 实现云端分布式算法训练
  • 支持多GPU并行算法训练加速
  • 提供分布式算法训练的资源调度
  • 支持算法模型的训练优化

TensorFlow MirroredStrategy

技术介绍: TensorFlow MirroredStrategy 是TensorFlow的分布式训练策略,支持多GPU同步训练。

选择理由:

  • 同步训练: 支持多GPU同步训练
  • 性能优化: 针对多GPU训练优化
  • 易用性: 简单的配置和使用
  • 兼容性: 与TensorFlow生态兼容

在EdgeFleet 中的应用:

  • 支持TensorFlow算法模型的分布式训练
  • 提供多GPU同步算法训练能力
  • 实现云端算法模型训练
  • 支持复杂算法模型的训练优化

算法研发平台

Jupyter Notebook

技术介绍: Jupyter Notebook 是交互式数据科学和机器学习开发环境,支持多种编程语言和丰富的可视化功能。

选择理由:

  • 交互式开发: 支持交互式算法开发和调试
  • 可视化: 丰富的图表和可视化功能
  • 多语言支持: 支持Python、R、Scala等多种语言
  • 协作开发: 支持团队协作和知识分享

在EdgeFleet 中的应用:

  • 提供算法研发的交互式开发环境
  • 支持算法原型开发和快速验证
  • 提供算法可视化和分析工具
  • 支持算法研发团队协作

MLflow

技术介绍: MLflow 是开源的机器学习生命周期管理平台,支持实验跟踪、模型管理、模型部署等功能。

选择理由:

  • 实验跟踪: 跟踪算法实验过程和结果
  • 模型管理: 管理算法模型版本和元数据
  • 模型部署: 支持模型部署和监控
  • 协作: 支持团队协作和知识共享

在EdgeFleet 中的应用:

  • 管理算法研发的实验过程
  • 跟踪算法模型的训练和验证
  • 支持算法模型的版本管理
  • 提供算法研发的协作平台

数据存储与管理

PostgreSQL

技术介绍: PostgreSQL 是功能强大的开源关系型数据库,支持复杂查询、事务处理、JSON数据类型等高级特性。

选择理由:

  • ACID特性: 完整的事务支持,保证数据一致性
  • 扩展性: 支持水平和垂直扩展
  • JSON支持: 原生支持JSON数据类型,适合存储模型元数据
  • 高可用: 支持主从复制、读写分离

在EdgeFleet 中的应用:

  • 存储算法元数据、用户信息、任务配置
  • 管理算法训练任务的状态和结果
  • 存储算法研发配置和策略信息
  • 支持复杂查询和算法数据分析

InfluxDB

技术介绍: InfluxDB 是专为时序数据设计的高性能数据库,特别适合存储监控指标、性能数据等时间序列数据。

选择理由:

  • 时序优化: 针对时间序列数据深度优化
  • 高性能: 支持高并发写入和查询
  • 压缩存储: 高效的数据压缩算法
  • 监控集成: 与Prometheus、Grafana等监控工具深度集成

在EdgeFleet 中的应用:

  • 存储算法训练监控指标和性能数据
  • 记录算法训练任务的执行时间和资源使用情况
  • 支持实时算法性能分析和告警
  • 提供历史算法数据查询和分析功能

边端技术栈(指挥调度平台)

边端作为系统的核心层,首要任务是指挥调度端侧设备,承担端侧设备指挥、任务调度、算法模型转换、P2P种子分发、版本管理、数据处理、算力支持、故障接管等核心功能,是云端算法生产与端侧执行之间的关键桥梁。边端技术栈专注于边缘计算平台、边缘AI框架、算法模型转换平台、边缘指挥调度平台、边缘数据处理平台、边缘算力支持平台等核心能力,为端侧分布式执行提供强大的边缘支持。

边缘计算平台

OpenYurt

技术介绍: OpenYurt 是阿里巴巴开源的云原生边缘计算平台,基于 Kubernetes 构建,专门为边缘场景优化,支持弱网络连接和资源受限环境。

选择理由:

  • 边缘优化: 针对边缘网络不稳定、资源受限等特点深度优化
  • 云边协同: 与云端Kubernetes无缝集成,实现统一管理
  • 轻量级: 资源占用小,适合边缘设备部署
  • 国产化: 完全自主可控,符合国产化要求
  • 功能丰富: 提供完整的边缘计算能力

在EdgeFleet 中的应用:

  • 管理边端计算节点和容器服务
  • 实现边端AI模型的部署和推理
  • 支持边端数据的预处理和特征提取
  • 提供边端模型的增量更新和版本管理
  • 实现边端和云端的协同计算
  • 支持边端服务的自动部署和更新
  • 提供边端资源的统一调度和管理
  • 支持边端服务的监控和日志收集
  • 承担云端算法的微调算法模型
  • 负责通用算法模型转换成自研算法模型
  • 实现P2P种子分发和算法模型版本管理
  • 处理端侧采集的数据并存储
  • 在端侧算力不足时提供算力支持
  • 在端侧临时故障时接管集群

边缘AI框架

KubeEdge/Sedna

技术介绍: KubeEdge 是面向边缘计算的 Kubernetes 原生平台,Sedna 是 KubeEdge 的 AI 子项目,专门为边缘AI场景设计,与OpenYurt协同工作。

选择理由:

  • AI集成: Sedna 提供边缘AI训练和推理能力
  • 轻量级: 资源占用小,适合边缘设备
  • 云边协同: 与云端Kubernetes无缝集成
  • 边缘优化: 专为边缘环境设计,支持弱网络连接

在EdgeFleet 中的应用:

  • 与OpenYurt协同实现边端AI模型的部署和推理
  • 支持边端数据的预处理和特征提取
  • 提供边端模型的增量更新和版本管理
  • 实现边端和云端的协同计算
  • 支持边端AI模型的训练和优化
  • 承担云端算法的微调和优化任务

算法模型转换平台

模型转换引擎

技术介绍: 基于OpenYurt和KubeEdge/Sedna构建的算法模型转换引擎,负责将通用算法模型转换成自研算法模型。

选择理由:

  • 模型转换: 支持通用模型到自研模型的转换
  • 格式适配: 支持多种模型格式的转换和适配
  • 性能优化: 针对自研格式进行性能优化
  • 兼容性: 保证转换后模型的兼容性

在EdgeFleet 中的应用:

  • 负责通用算法模型转换成自研算法模型
  • 支持多种模型格式的转换和适配
  • 提供模型转换的性能优化
  • 实现转换后模型的兼容性保证

P2P种子分发系统

技术介绍: 基于P2P技术的种子分发系统,负责算法模型的分发和版本管理。

选择理由:

  • P2P分发: 支持去中心化的模型分发
  • 版本管理: 提供算法模型的版本控制
  • 高效传输: 支持大文件的快速传输
  • 容错性: 支持分发过程中的容错处理

在EdgeFleet 中的应用:

  • 实现P2P种子分发和算法模型版本管理
  • 支持去中心化的模型分发
  • 提供算法模型的版本控制
  • 实现高效的大文件传输

边缘微调平台

边缘模型微调引擎

技术介绍: 基于OpenYurt和KubeEdge/Sedna构建的边缘模型微调引擎,支持基于本地数据的模型微调和优化。

选择理由:

  • 本地微调: 基于边端本地数据进行模型微调
  • 增量学习: 支持在线增量学习和模型更新
  • 联邦学习: 支持多边缘节点的联邦学习
  • 模型压缩: 支持模型量化、剪枝、蒸馏等优化

在EdgeFleet 中的应用:

  • 承担云端算法的微调算法模型
  • 基于边端本地数据进行模型微调
  • 支持增量学习和模型更新
  • 实现多边缘节点的联邦学习
  • 提供模型压缩和优化服务

边缘数据管理

技术介绍: 边缘数据管理系统,支持边端数据的收集、存储、预处理和管理。

选择理由:

  • 数据收集: 支持边端数据的实时收集
  • 数据存储: 提供边端数据的高效存储
  • 数据预处理: 支持边端数据的清洗和预处理
  • 数据同步: 支持与云端的数据同步

在EdgeFleet 中的应用:

  • 管理边端微调所需的数据
  • 支持边端数据的实时收集和存储
  • 提供边端数据的预处理服务
  • 实现边端与云端的数据同步

边缘数据处理平台

端侧数据处理引擎

技术介绍: 基于OpenYurt和KubeEdge/Sedna构建的端侧数据处理引擎,负责处理端侧采集的数据并存储。

选择理由:

  • 数据处理: 支持端侧数据的实时处理
  • 数据存储: 提供高效的数据存储服务
  • 数据清洗: 支持数据的清洗和预处理
  • 数据同步: 支持与云端的数据同步

在EdgeFleet 中的应用:

  • 处理端侧采集的数据并存储
  • 支持端侧数据的实时处理
  • 提供数据清洗和预处理服务
  • 实现与云端的数据同步

边缘存储管理

技术介绍: 边缘存储管理系统,支持边端数据的高效存储和管理。

选择理由:

  • 高效存储: 提供高效的数据存储服务
  • 数据管理: 支持数据的生命周期管理
  • 备份恢复: 支持数据的备份和恢复
  • 性能优化: 针对边缘环境进行性能优化

在EdgeFleet 中的应用:

  • 提供边端数据的高效存储
  • 支持数据的生命周期管理
  • 实现数据的备份和恢复
  • 提供存储性能优化

边缘算力支持平台

算力调度引擎

技术介绍: 基于OpenYurt和KubeEdge/Sedna构建的算力调度引擎,在端侧算力不足时提供算力支持。

选择理由:

  • 算力调度: 支持边端算力的动态调度
  • 负载均衡: 实现算力的负载均衡
  • 弹性伸缩: 支持算力的弹性伸缩
  • 故障恢复: 支持算力故障的自动恢复

在EdgeFleet 中的应用:

  • 在端侧算力不足时提供算力支持
  • 实现边端算力的动态调度
  • 提供算力的负载均衡
  • 支持算力的弹性伸缩

故障接管系统

技术介绍: 基于OpenYurt和KubeEdge/Sedna构建的故障接管系统,在端侧临时故障时接管集群。

选择理由:

  • 故障检测: 支持端侧故障的自动检测
  • 故障接管: 实现故障时的自动接管
  • 服务恢复: 支持服务的自动恢复
  • 数据一致性: 保证数据的一致性

在EdgeFleet 中的应用:

  • 在端侧临时故障时接管集群
  • 支持端侧故障的自动检测
  • 实现故障时的自动接管
  • 提供服务的自动恢复

边缘AI能力中心

边缘AI服务

技术介绍: 基于OpenYurt和KubeEdge/Sedna构建的边缘AI能力中心,提供完整的边缘AI服务栈。

选择理由:

  • 全栈AI能力: 计算机视觉、自然语言处理、机器学习等
  • 边缘优化: 针对边缘环境优化的AI服务
  • 智能决策: 基于AI的智能调度和决策
  • 服务化: 提供标准化的AI服务接口

在EdgeFleet 中的应用:

  • 提供边缘计算机视觉服务(图像识别、目标检测)
  • 支持边缘自然语言处理(文本分析、语音识别)
  • 实现边缘机器学习服务
  • 提供边缘深度学习推理能力
  • 支持边缘强化学习决策
  • 管理边缘AI模型库

边缘智能决策

技术介绍: 基于AI的边缘智能决策系统,提供智能调度、预测分析、异常检测等能力。

选择理由:

  • 智能调度: 基于AI的智能资源调度
  • 预测分析: 边缘预测分析服务
  • 异常检测: 边缘异常检测和告警
  • 优化建议: 边缘性能优化建议

在EdgeFleet 中的应用:

  • 实现基于AI的智能调度
  • 提供边缘预测分析服务
  • 支持边缘异常检测服务
  • 提供边缘性能优化建议
  • 实现边缘智能告警系统
  • 支持边缘决策支持系统

消息中间件

Apache Kafka

技术介绍: Apache Kafka 是分布式流处理平台,提供高吞吐量的消息队列服务,支持实时数据流处理。

选择理由:

  • 高吞吐量: 支持每秒百万级消息处理
  • 持久化: 消息持久化存储,保证数据不丢失
  • 分布式: 天然支持分布式部署和扩展
  • 实时性: 低延迟的消息传递

在EdgeFleet 中的应用:

  • 处理边端到云端的数据流
  • 实现边端设备的状态同步
  • 支持边端推理结果的实时上传
  • 提供边端服务的异步通信

Redis

技术介绍: Redis 是高性能的内存数据库,支持多种数据结构,提供缓存、会话存储、消息队列等功能。

选择理由:

  • 高性能: 基于内存存储,访问速度极快
  • 多数据结构: 支持字符串、列表、集合、有序集合等
  • 持久化: 支持RDB和AOF两种持久化方式
  • 集群支持: 支持主从复制和集群模式

在EdgeFleet 中的应用:

  • 缓存边端模型和配置信息
  • 存储边端服务的会话状态
  • 实现边端数据的临时存储
  • 提供边端服务的快速数据访问

端侧技术栈(分布式执行网络)

端侧作为最接近数据源的层次,负责数据采集、本地推理、设备管理等基础功能。端侧技术栈专注于轻量级容器编排、移动端推理框架、分布式推理框架、P2P通信网络、通信框架、网络路由等核心能力,为无人机群等低空设备提供强大的分布式算力支持,实现无人智能的自主执行。

轻量级容器编排

K3s

技术介绍: K3s 是轻量级的 Kubernetes 发行版,专为边缘和IoT场景设计,资源占用小,部署简单。

选择理由:

  • 轻量级: 资源占用小,适合端侧设备
  • 简化部署: 一键部署,配置简单
  • 边缘优化: 专为边缘环境设计
  • 兼容性: 与标准Kubernetes API兼容

在EdgeFleet 中的应用:

  • 管理端侧轻量级容器服务
  • 实现端侧服务的自动部署和更新
  • 提供端侧资源的统一调度和管理
  • 支持端侧服务的监控和日志收集

移动端推理框架

MNN (Mobile Neural Network)

技术介绍: MNN 是阿里巴巴开源的移动端深度学习推理框架,支持多种深度学习模型格式,针对移动端设备深度优化。

选择理由:

  • 移动端优化: 针对ARM架构和移动GPU优化
  • 多格式支持: 支持TensorFlow、PyTorch、Caffe等模型格式
  • 高性能: 提供高效的模型推理性能
  • 轻量级: 库体积小,适合移动端部署

在EdgeFleet 中的应用:

  • 实现端侧模型的本地推理
  • 支持多种深度学习模型格式
  • 提供端侧推理的性能优化
  • 实现端侧模型的动态加载和更新

自研格式扩展:

  • 基于MNN开发自定义模型格式
  • 针对EdgeFleet 场景优化模型结构
  • 支持模型压缩和量化
  • 提供端侧模型的版本管理

分布式推理框架

分布式模型分割引擎

技术介绍: 分布式模型分割引擎,支持大模型的垂直分割、水平分割和混合分割策略,实现模型在多个设备间的分布式部署。这是EdgeFleet的核心创新技术,支持大模型的分布式分割、P2P分发、流式推理,实现边加载边推理的高效推理机制,突破单设备算力限制。

选择理由:

  • 大模型支持: 支持超大规模模型的分布式推理
  • 灵活分割: 支持垂直、水平、混合多种分割策略
  • 智能分配: 基于设备能力智能分配模型层
  • 动态调整: 支持运行时动态调整分割策略
  • 算力聚合: 通过分布式推理实现算力倍增,突破单设备算力限制

在EdgeFleet 中的应用:

  • 实现大模型的分布式分割
  • 支持模型层的动态分配
  • 提供模型依赖关系分析
  • 实现模型分割策略优化
  • 支持边加载边推理的高效推理机制
  • 实现分布式算力聚合和协同推理

流式推理引擎

技术介绍: 基于边加载边推理的流式推理引擎,支持模型层的动态加载、推理和卸载,实现高效的分布式推理。这是EdgeFleet的核心创新技术,支持大模型的分布式分割、P2P分发、流式推理,实现边加载边推理的高效推理机制,突破单设备算力限制。

选择理由:

  • 内存优化: 按需加载模型层,减少内存占用
  • 流水线处理: 支持推理流水线处理
  • 动态管理: 支持模型层的动态加载和卸载
  • 性能优化: 优化推理性能和资源利用
  • 算力聚合: 通过分布式推理实现算力倍增,突破单设备算力限制

在EdgeFleet 中的应用:

  • 实现边加载边推理的流式处理
  • 支持模型层的动态管理
  • 提供推理流水线优化
  • 实现推理性能监控和优化
  • 支持大模型的分布式推理和协同处理
  • 实现分布式算力聚合和智能调度

P2P通信网络

P2P通信协议

技术介绍: 基于P2P的去中心化通信协议,支持设备间直接通信、任务分发、数据同步等功能。

选择理由:

  • 去中心化: 无需中心节点,支持设备间直接通信
  • 高可用: 无单点故障,网络自组织
  • 扩展性: 支持大规模设备网络
  • 容错性: 设备故障自动恢复

在EdgeFleet 中的应用:

  • 实现端侧设备间的P2P通信
  • 支持分布式任务分发
  • 提供数据同步和共识机制
  • 实现网络故障自动恢复

分布式任务调度

技术介绍: 基于P2P网络的分布式任务调度系统,支持智能任务分配、负载均衡、故障恢复等功能。

选择理由:

  • 智能分配: 基于设备能力的智能任务分配
  • 负载均衡: 动态负载均衡和任务迁移
  • 故障恢复: 设备故障时的任务自动迁移
  • 共识机制: 分布式决策和状态同步

在EdgeFleet 中的应用:

  • 实现分布式任务调度
  • 支持智能负载均衡
  • 提供故障自动恢复
  • 实现分布式共识决策

通信框架

ROS2 (Robot Operating System 2)

技术介绍: ROS2 是机器人操作系统的新版本,提供分布式通信、节点管理、服务发现等功能,广泛应用于机器人、自动驾驶等领域。

选择理由:

  • 分布式通信: 支持跨进程、跨网络的节点通信
  • 实时性: 提供实时通信能力,适合控制应用
  • 模块化: 基于节点的模块化架构
  • 跨平台: 支持Linux、Windows、macOS等平台

在EdgeFleet 中的应用:

  • 实现端侧设备间的通信
  • 支持端侧服务的发现和调用
  • 提供端侧数据的实时传输
  • 实现端侧设备的协同工作

网络路由

OSPF (Open Shortest Path First)

技术介绍: OSPF 是链路状态路由协议,用于在自治系统内部进行路由选择,支持多路径、负载均衡等高级特性。

选择理由:

  • 动态路由: 自动发现网络拓扑变化
  • 负载均衡: 支持多路径负载均衡
  • 收敛快速: 网络故障时快速收敛
  • 标准化: 基于开放标准,兼容性好

在EdgeFleet 中的应用:

  • 实现端侧网络的路由选择
  • 支持端侧设备的自动发现
  • 提供端侧网络的负载均衡
  • 实现端侧网络的故障恢复

OSPF改造:

  • 针对EdgeFleet 场景优化路由算法
  • 支持端侧设备的动态加入和退出
  • 实现端侧网络的智能路由
  • 提供端侧网络的性能监控

分布式模型分割与流式推理技术组件

分布式模型分割与流式推理核心特性

大模型分布式分割

技术介绍: 支持大模型的分布式分割、P2P分发、流式推理,实现边加载边推理的高效推理机制,突破单设备算力限制。这是EdgeFleet的核心创新技术,为无人机群等低空设备提供强大的分布式算力支持。

核心能力:

  • 垂直分割: 按模型层进行分割,支持层间流水线推理
  • 水平分割: 按模型分支进行分割,支持并行推理
  • 混合分割: 结合垂直和水平分割策略,优化推理性能
  • 动态分割: 根据设备算力动态调整分割策略

P2P模型分发系统

技术介绍: 基于P2P技术的去中心化模型分发系统,支持大文件的快速传输和容错处理。

核心能力:

  • 去中心化分发: 无需中心节点,支持设备间直接分发
  • 高效传输: 支持大文件的快速传输和断点续传
  • 容错处理: 支持分发过程中的容错和恢复
  • 版本管理: 支持模型版本的统一管理和更新

流式推理引擎

技术介绍: 基于边加载边推理的流式推理引擎,支持模型层的动态加载、推理和卸载,实现高效的分布式推理。

核心能力:

  • 边加载边推理: 实现模型层的动态加载和卸载
  • 流水线处理: 支持推理流水线处理,提高效率
  • 算力聚合: 通过分布式推理实现算力倍增
  • 自动扩缩容: 根据任务复杂度自动调整推理分配

跨层协同技术组件

云边端通信协议

统一通信协议栈

技术介绍: 基于云原生技术的统一通信协议栈,支持云边端三层之间的标准化通信。

选择理由:

  • 标准化: 基于开放标准的通信协议
  • 多协议支持: 支持gRPC、REST API、WebSocket等
  • 跨层通信: 统一的跨层通信机制
  • 协议转换: 支持不同协议间的自动转换

在EdgeFleet 中的应用:

  • 实现云端到边端的任务分发
  • 支持边端到端侧的任务下发
  • 提供端侧到边端的数据回传
  • 实现边端到云端的状态同步

多协议支持

技术介绍: 支持多种通信协议,适应不同层次的通信需求。

选择理由:

  • 云端通信: gRPC、REST API、WebSocket
  • 边缘通信: 5G、专网、WiFi 6E(边缘网络带宽:1Gbps+)
  • 终端通信: MAVLink、P2P协议、Mesh网络(无人机间带宽限制:10MB,延迟:1-5秒)
  • 跨层通信: 统一消息格式、协议转换

在EdgeFleet 中的应用:

  • 云端使用gRPC进行高性能通信
  • 边端使用5G/专网进行低延迟通信
  • 端侧使用P2P协议进行去中心化通信
  • 跨层使用统一消息格式进行数据交换

统一数据模型

数据标准化

技术介绍: 基于JSON和Protocol Buffers的统一数据模型,支持跨层数据交换。

选择理由:

  • 统一格式: JSON、Protocol Buffers标准化格式
  • 数据验证: 数据格式验证与校验
  • 数据转换: 跨层数据格式转换
  • 数据压缩: 智能数据压缩与解压

在EdgeFleet 中的应用:

  • 实现云边端统一数据格式
  • 支持数据格式自动转换
  • 提供数据验证和校验
  • 实现数据压缩和优化

元数据管理

技术介绍: 分布式元数据管理系统,支持数据血缘、质量监控、安全管理等功能。

选择理由:

  • 数据血缘: 数据来源与流向追踪
  • 数据质量: 数据质量指标监控
  • 数据安全: 数据加密与访问控制
  • 数据治理: 数据生命周期管理

在EdgeFleet 中的应用:

  • 实现数据血缘追踪
  • 支持数据质量监控
  • 提供数据安全管理
  • 实现数据生命周期管理

安全与隐私保护

端到端安全

技术介绍: 基于TLS/DTLS的端到端安全通信,支持身份认证、访问控制、数据加密等功能。

选择理由:

  • 身份认证: 分布式身份认证机制
  • 访问控制: 细粒度访问控制
  • 数据加密: 全链路数据加密传输
  • 安全通信: 安全通信协议

在EdgeFleet 中的应用:

  • 实现云边端端到端加密
  • 支持分布式身份认证
  • 提供细粒度访问控制
  • 实现安全通信协议

隐私保护

技术介绍: 基于联邦学习和差分隐私的隐私保护技术,支持数据脱敏、隐私计算等功能。

选择理由:

  • 数据脱敏: 敏感数据自动脱敏
  • 隐私计算: 联邦学习、差分隐私
  • 数据隔离: 多租户数据隔离
  • 合规性: 满足数据保护法规要求

在EdgeFleet 中的应用:

  • 实现敏感数据自动脱敏
  • 支持联邦学习隐私计算
  • 提供多租户数据隔离
  • 满足数据保护法规要求

通用技术组件

监控与可观测性

Prometheus + Grafana

技术介绍: Prometheus 是开源的监控系统,Grafana 是可视化平台,两者结合提供完整的监控解决方案。

选择理由:

  • 指标收集: 支持多种指标类型和收集方式
  • 可视化: 提供丰富的图表和仪表板
  • 告警: 支持灵活的告警规则配置
  • 生态丰富: 与众多工具集成

在EdgeFleet 中的应用:

  • 监控系统各层次的性能指标
  • 提供系统运行状态的实时可视化
  • 实现异常情况的自动告警
  • 支持系统性能分析和优化

ELK Stack

技术介绍: ELK Stack 由 Elasticsearch、Logstash、Kibana 组成,提供日志收集、存储、分析、可视化的完整解决方案。

选择理由:

  • 日志聚合: 支持多种日志格式的收集和聚合
  • 全文搜索: 基于Elasticsearch的全文搜索能力
  • 可视化: Kibana提供丰富的日志可视化功能
  • 扩展性: 支持大规模日志数据处理

在EdgeFleet 中的应用:

  • 收集和存储系统各层次的日志
  • 提供日志的搜索和分析功能
  • 支持日志的实时监控和告警
  • 实现系统问题的快速定位和诊断

安全技术

OAuth 2.0 + JWT

技术介绍: OAuth 2.0 是授权框架,JWT 是令牌标准,两者结合提供安全的身份认证和授权机制。

选择理由:

  • 标准化: 基于开放标准,兼容性好
  • 安全性: 提供安全的身份认证和授权
  • 可扩展: 支持多种认证方式和授权策略
  • 无状态: JWT支持无状态认证

在EdgeFleet 中的应用:

  • 实现用户身份认证和授权
  • 保护API和服务的安全访问
  • 支持跨云边端的统一认证
  • 提供细粒度的权限控制

TLS/DTLS

技术介绍: TLS 是传输层安全协议,DTLS 是TLS的UDP版本,提供端到端的加密通信。

选择理由:

  • 加密通信: 保证数据传输的安全性
  • 身份验证: 支持服务器和客户端身份验证
  • 完整性: 保证数据在传输过程中不被篡改
  • 标准化: 基于开放标准,广泛支持

在EdgeFleet 中的应用:

  • 保护云边端之间的通信安全
  • 实现端侧设备的安全连接
  • 支持证书管理和自动轮换
  • 提供端到端的数据加密

技术选型总结

边缘舰队(EdgeFleet)作为翼影调度系统,技术选型遵循以下原则:

  1. 云端算法生产: 云端作为算法生产中心,承担算法研发、模型训练、算法优化等核心功能
  2. 边端微调优化: 边端承担微调算法模型、算法模型转换、P2P种子分发、数据处理等核心功能
  3. 端侧分布式执行: 端侧构建去中心化智能网络,支持分布式推理、协同决策、网络自愈
  4. 云边端协同: 云端算法生产、边端微调优化、端侧分布式执行的完整协同架构
  5. 云原生: 优先选择云原生技术,支持容器化和微服务架构
  6. 技术可控: 优先选择成熟稳定的技术,保证技术可控性和安全性
  7. 性能优化: 针对AI推理场景进行性能优化,支持分布式推理和流式处理
  8. 可扩展性: 支持系统的水平扩展和功能扩展,支持分布式算力聚合
  9. 标准化: 基于开放标准,保证技术兼容性
  10. 去中心化: 端侧支持去中心化网络和分布式推理,支持无人智能协同作业

架构特点

云端算法生产中心架构

  • 算法创新中心: 云端作为算法生产中心,承担算法研发、模型训练、算法优化等核心功能
  • 大规模GPU集群: 提供A100/H100/L4等异构GPU资源池,支持大规模分布式训练
  • 算法研发平台: 提供Jupyter Notebook、MLflow等完整的算法研发工具链
  • 算法版本管理: 支持算法模型的版本控制、A/B测试、灰度发布等全生命周期管理
  • 数据服务: 提供数据存储、清洗、分析等服务,支持算法研发数据需求

边端调度指挥中心架构

  • 微调算法模型中心: 边端承担云端算法的微调算法模型,基于边端本地数据进行模型微调
  • 算法模型转换: 负责通用算法模型转换成自研算法模型,支持多种模型格式转换
  • P2P种子分发: 实现P2P种子分发和算法模型版本管理,支持去中心化的模型分发
  • 边缘数据处理: 处理端侧采集的数据并存储,提供边缘数据预处理和特征提取
  • 算力支持与故障接管: 在端侧算力不足时提供算力支持,在端侧临时故障时接管集群
  • 边缘AI能力中心: 提供完整的边缘AI服务栈,包括计算机视觉、自然语言处理等
  • 智能决策: 基于AI的智能调度、预测分析、异常检测等能力

端侧分布式执行网络架构

  • 去中心化智能网络: 构建无单点故障的分布式GPU计算网络,支持节点动态加入和退出
  • 分布式推理引擎: 支持大模型的分布式分割、P2P分发、流式推理,实现边加载边推理的高效推理机制
  • 协同决策系统: 基于分布式共识机制,实现无人机群的自主决策和协同作业
  • 网络自愈能力: 设备故障自动恢复,网络拓扑自动重组,确保系统高可用性
  • 无人智能执行: 支持无人机群协同作业、自主决策、智能调度等无人智能能力

云端算法生产架构

  • 算法生产中心: 云端作为系统的算法生产中心,承担算法研发、模型训练、算法优化等核心功能
  • GPU资源池: 提供大规模GPU集群和资源池化
  • 分布式训练: 支持PyTorch DDP、TensorFlow MirroredStrategy等分布式训练
  • 算法研发平台: 提供Jupyter Notebook、MLflow等算法研发工具
  • 算法验证: 支持算法验证、测试和优化
  • 数据管理: 提供数据存储、清洗、分析等服务
  • 监控运维: 全链路监控和运维管理

端侧去中心化架构

  • 分布式推理: 支持大模型的分布式分割和流式推理
  • P2P网络: 基于P2P的去中心化通信网络
  • 智能调度: 分布式任务调度和负载均衡
  • 网络自愈: 设备故障自动恢复和网络重组

跨层协同架构

  • 统一通信: 基于云原生技术的统一通信协议栈
  • 数据标准化: 基于JSON和Protocol Buffers的统一数据模型
  • 安全保护: 端到端安全和隐私保护机制
  • 监控运维: 全链路监控和可观测性

技术创新点

  1. 云端算法生产中心: 云端作为算法生产中心,支持算法研发、模型训练、算法优化等全流程
  2. 边端微调平台: 边端承担微调算法模型,支持基于本地数据的模型微调和优化
  3. 算法模型转换: 边端负责通用算法模型转换成自研算法模型
  4. P2P种子分发: 边端实现P2P种子分发和算法模型版本管理
  5. 边缘数据处理: 边端处理端侧采集的数据并存储
  6. 边缘算力支持: 边端在端侧算力不足时提供算力支持
  7. 故障接管机制: 边端在端侧临时故障时接管集群
  8. 分布式模型分割: 支持大模型的分布式分割和分布式推理
  9. 流式推理引擎: 基于边加载边推理的高效推理机制
  10. P2P去中心化网络: 无中心节点的设备间直接通信
  11. 边缘AI能力中心: 完整的边缘AI服务栈
  12. 跨层协同: 云边端三层协同的统一技术栈

通过这样的技术选型,EdgeFleet 能够实现云端算法生产、边端微调优化、端侧分布式执行的协同架构,支持算法研发、大规模模型训练、边端微调、算法模型转换、P2P种子分发、边缘数据处理、算力支持、故障接管、分布式推理、去中心化网络、边缘AI服务等创新功能,为用户提供高性能、高可用、易扩展的AI服务。

相关页面

  • 系统概述 - 项目背景和核心价值
  • 架构设计 - 系统架构视图
  • 核心组件 - 详细组件设计
  • 部署运维 - 部署和运维
Prev
核心组件
Next
部署运维