运营动脉's Archiver
社区
›
随便聊聊
› 4070tis加4060ti16G使用qwq32B量化能行
︶ ̄繁华落幕〃
发表于 2025-3-25 15:36:34
4070tis加4060ti16G使用qwq32B量化能行
每秒二十几个tokens,如果14B量化,单卡能装上,则只用单卡每秒近50,双卡反而会各分一部分后速度慢些,那种情况下70tis空闲浪费算力。只有70tis满负荷下用上60ti才不算浪费。32B原来光用60ti时,0.4toks/s不到。
风吹麦哩个浪
发表于 2025-3-25 15:36:48
14b单60ti近30toks/s,70tis近50toks/s,双卡一起近35toks/s。32b单60ti近0.4,双卡一起近25
伊人恃宠而骄
发表于 2025-3-25 17:51:51
楼主开恩,沙发是我滴。。。。。
页:
[1]
查看完整版本:
4070tis加4060ti16G使用qwq32B量化能行