︶ ̄繁华落幕〃 发表于 2025-3-25 15:36:34

4070tis加4060ti16G使用qwq32B量化能行

每秒二十几个tokens,如果14B量化,单卡能装上,则只用单卡每秒近50,双卡反而会各分一部分后速度慢些,那种情况下70tis空闲浪费算力。只有70tis满负荷下用上60ti才不算浪费。32B原来光用60ti时,0.4toks/s不到。

风吹麦哩个浪 发表于 2025-3-25 15:36:48

14b单60ti近30toks/s,70tis近50toks/s,双卡一起近35toks/s。32b单60ti近0.4,双卡一起近25

伊人恃宠而骄 发表于 2025-3-25 17:51:51

楼主开恩,沙发是我滴。。。。。
页: [1]
查看完整版本: 4070tis加4060ti16G使用qwq32B量化能行