/images/avatar.png

Wesley's Blog

GPU Kernel 是什么?

GPU Kernel 1. GPU Kernel 是什么? 核心概念: GPU Kernel(GPU 内核)是一个在 GPU 设备上并行执行的函数。 可以把它想象成一个你为 GPU 编写的“小程序”或“函数”。

常见的限流算法

限流算法是什么? 限流算法是一种用于控制网络流量或系统资源使用的算法。它的目的是限制网络流量或系统资源的使用,以防止系统被过度负载,从而提高系

sync.Pool

sync.Pool 1. 概述 sync.Pool是Go语言标准库中的一个类型,用于管理一组可重用的对象。它的主要目的是减少内存分配和垃圾回收的开销,提高程序的性能

vLLM

vLLM代码结构分析 1. 整体架构 vLLM是一个高效的大语言模型推理框架,专注于提高LLM服务的吞吐量和降低延迟。根据代码分析,vLLM有两个主