Fix half_to_float handling

HolyWu · HolyWu · commit 77993db4c5e6 · 2024-09-14T17:33:55.000+08:00
diff --git a/py/torch_tensorrt/dynamo/conversion/_TRTInterpreter.py b/py/torch_tensorrt/dynamo/conversion/_TRTInterpreter.py
@@ -300,6 +300,8 @@ def _populate_trt_builder_config(
         if tactic_sources is not None:
             builder_config.set_tactic_sources(tactic_sources=tactic_sources)
 
+        builder_config.set_flag(trt.BuilderFlag.PREFER_PRECISION_CONSTRAINTS)
+
         return builder_config
 
     def _create_timing_cache(
diff --git a/py/torch_tensorrt/dynamo/conversion/impl/normalization/ops.py b/py/torch_tensorrt/dynamo/conversion/impl/normalization/ops.py
@@ -431,12 +431,13 @@ def softmax(
 ) -> Union[TRTTensor, Sequence[TRTTensor]]:
     dim = get_positive_dim(dim, len(input.shape))
 
-    if half_to_float:
-        input = cast_trt_tensor(ctx, input, torch.float, name, target, source_ir)
-
     layer = ctx.net.add_softmax(input)
     layer.axes = 1 << dim
     set_layer_name(layer, target, name, source_ir)
+
+    if half_to_float:
+        layer.precision = trt.DataType.FLOAT
+
     return layer.get_output(0)