From bcc35f08b485ecdd02af59d553a6216bb24e62e2 Mon Sep 17 00:00:00 2001
From: songxxzp <songxx21@mails.tsinghua.edu.cn>
Date: Fri, 14 Apr 2023 19:58:42 +0800
Subject: [PATCH] Add assertion when loading cpu and cuda kernel fails

---
 quantization.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/quantization.py b/quantization.py
index 788b5e7..0ebb94a 100644
--- a/quantization.py
+++ b/quantization.py
@@ -441,10 +441,10 @@ def quantize(model, weight_bit_width, use_quantization_cache=False, empty_init=F
     try:
         load_cpu_kernel(**kwargs)
     except:
-        print("Cannot load cpu kernel, don't use quantized model on cpu.")
         if kernels is None:  # CUDA kernels failed
-            print("Cannot load cuda kernel, quantization failed.")
-            return model
+            print("Cannot load cpu or cuda kernel, quantization failed:")
+            assert kernels is None
+        print("Cannot load cpu kernel, don't use quantized model on cpu.")
 
     current_device = model.device