When running inference workloads via something like llama.cpp, only 1 GPU is eve...

		ryao 11 months ago \| parent \| context \| favorite \| on: Run DeepSeek R1 Dynamic 1.58-bit When running inference workloads via something like llama.cpp, only 1 GPU is ever used at a time, so you would have 1 active GPU and 4 idle GPUs. That should make the power usage less insane in practice than you expect.