技术方案

2025年10月17日
分类于技术方案, YOLO, TritonServer, 登临, KS20

方案｜登临 KS20 GPGPU 优化巅峰之作：YOLOv8n 与 Triton Server 在海光/曙光边缘计算设备上的终极性能调教（5倍性能）

国产AI加速的瓶颈破解之道，从后处理迁移到生产余量规划

概要介绍：本文基于项目经验，系统阐述 YOLOv8n 在登临 KS20 上的优化策略，焦点包括 Triton 调度改进、gRPC 通信优化和 Prometheus 指标收集。结合搜索到的最佳实践和代码示例，分析G PU/CPU 利用率提升路径，帮助您避免常见坑点。展望未来 INT8 量化潜力，提供完整 Helm Chart 和测试方案，助力高效 AI 部署。

2025年10月1日
分类于技术方案, YOLO, TritonServer, Python

方案｜YOLOv8 + Triton Server：Python后处理管道，让目标检测部署更快、更稳！

今天，我们来聊聊一个超级实用的开源项目：YOLOv8-TritonServer-Python-Post-Processing-Pipeline。如果你是计算机视觉工程师，或者正在折腾YOLO模型的服务器端部署，这个仓库绝对值得一试。它用NVIDIA Triton Inference Server把YOLOv8的推理和后处理无缝融合，极大降低了延迟和I/O开销。别急，我来一步步拆解给你听，顺便教你怎么上手。走起！

2025年7月12日
分类于技术方案, XPU, Qwen4, Ollama

分享：Ubuntu 环境下如何在 Intel xpu 上运行 ollama 驱动 Qwen3

随着人工智能技术的迅猛发展，特别是大语言模型（LLM）在企业级应用中的潜力日益凸显，如何在本地硬件上高效、安全地部署这些模型已成为开发者关注的焦点。英特尔作为AI硬件领域的领导者，通过其Core Ultra处理器（集成NPU和Arc GPU）以及IPEX-LLM（Intel Extension for PyTorch Large Language Models）优化库，提供了强大的端侧加速能力。结合轻量级的Ollama框架，我们可以在Ubuntu环境下，利用Intel XPU（特别是Arc系列GPU）实现Qwen3等开源大模型的本地化推理。

本文将详细分享一种基于Docker容器的部署实践：通过Intel官方的IPEX-LLM镜像，在Intel硬件上快速启动Ollama服务，并驱动Qwen3:8b模型运行。这种方式不仅充分利用了Intel GPU的异构计算优势，实现低延迟、高吞吐的推理，还确保了数据隐私和离线可用性，特别适用于企业AI解决方案的创新探索（如本次英特尔平台企业AI解决方案创新实践赛的项目开发）。

通过以下步骤，你将能轻松复现一个高效的本地LLM环境，开启端侧AI的新篇章。

2025年4月14日
分类于技术方案, ipex, YOLO, 训练

方案｜如何使用 Intel Extension for PyTorch (IPEX) 在 iGPU/dGPU 上训练 YOLO 模型

使用 Intel Extension for PyTorch (IPEX) 训练 YOLO 模型可以显著提升在 Intel 硬件（如 CPU 和 GPU）上的性能。以下是一个详细的步骤指南，帮助你结合 IPEX 优化和加速 YOLO 模型的训练过程。

2025年3月2日
分类于边缘计算, 技术方案, YiFUSION, OpenVINO, EdgeX

方案｜边缘智能：YiFUSION 应用之 EdgeX 集成 OpenVINO™ AI 推理

EdgeX 与 OpenVINO™ 结合起来实现边缘智能案例，为 AI 应用场景提供一些解决方案。灵活切换 AI 模型（相对而言），动态处理推理请求。