百科释义
报错Latency作为经济学术语,是指从输入提示到模型开始响应所需的时间,或系统时间的延迟。较低的延迟意味着更快的响应速度,在AI推理过程中对优化性能、控制成本及提升用户体验有重要作用。该术语适用于经济数据分析场景下的性能评估,主要衡量指标包括首token时延(TTFT)和输出token时延(TPOT)。 查看百科
注:百科释义来自于百度百科,由网友自行编辑。
Latency作为经济学术语,是指从输入提示到模型开始响应所需的时间,或系统时间的延迟。较低的延迟意味着更快的响应速度,在AI推理过程中对优化性能、控制成本及提升用户体验有重要作用。该术语适用于经济数据分析场景下的性能评估,主要衡量指标包括首token时延(TTFT)和输出token时延(TPOT)。 查看百科