dotnet · Daniel-Svensson · Mar 6, 2025 · Apr 30, 2025 · May 8, 2025 · May 8, 2025
diff --git a/src/coreclr/jit/gentree.cpp b/src/coreclr/jit/gentree.cpp
@@ -28833,8 +28833,10 @@ ClassLayout* GenTreeHWIntrinsic::GetLayout(Compiler* compiler) const
     {
 #ifdef TARGET_XARCH
         case NI_X86Base_DivRem:
+        case NI_X86Base_Multiply:
             return compiler->typGetBlkLayout(genTypeSize(GetSimdBaseType()) * 2);
         case NI_X86Base_X64_DivRem:
+        case NI_X86Base_X64_Multiply:
             return compiler->typGetBlkLayout(16);
 #endif // TARGET_XARCH
 #ifdef TARGET_ARM64

diff --git a/src/coreclr/jit/hwintrinsic.h b/src/coreclr/jit/hwintrinsic.h
@@ -889,6 +889,8 @@ struct HWIntrinsicInfo
 #ifdef TARGET_XARCH
             case NI_X86Base_DivRem:
             case NI_X86Base_X64_DivRem:
+            case NI_X86Base_Multiply:
+            case NI_X86Base_X64_Multiply:
                 return 2;
 #endif // TARGET_XARCH
 

diff --git a/src/coreclr/jit/hwintrinsiccodegenxarch.cpp b/src/coreclr/jit/hwintrinsiccodegenxarch.cpp
@@ -2442,6 +2442,33 @@ void CodeGen::genX86BaseIntrinsic(GenTreeHWIntrinsic* node, insOpts instOptions)
             break;
         }
 
+        case NI_X86Base_Multiply:
+        case NI_X86Base_X64_Multiply:
+        {
+            assert(node->GetOperandCount() == 2);
+            assert(instOptions == INS_OPTS_NONE);
+
+            // SIMD base type is from signature and can distinguish signed and unsigned
+            var_types   targetType = node->GetSimdBaseType();
+            GenTree*    op1        = node->Op(1);
+            GenTree*    op2        = node->Op(2);
+            instruction ins        = HWIntrinsicInfo::lookupIns(intrinsicId, targetType);
+
+            regNumber op1Reg = op1->GetRegNum();
+            regNumber op2Reg = op2->GetRegNum();
+
+            emitAttr attr = emitTypeSize(targetType);
+            emitter* emit = GetEmitter();
+
+            // op1: EAX, op2: reg/mem
+            emit->emitIns_Mov(INS_mov, attr, REG_EAX, op1Reg, /* canSkip */ true);
+
+            // emit the MUL/IMUL instruction
+            emit->emitInsBinary(ins, attr, node, op2);
+
+            break;
+        }
+
         default:
             unreached();
             break;

diff --git a/src/coreclr/jit/hwintrinsiclistxarch.h b/src/coreclr/jit/hwintrinsiclistxarch.h
@@ -397,6 +397,7 @@ HARDWARE_INTRINSIC(Vector512,       op_UnsignedRightShift,
 HARDWARE_INTRINSIC(X86Base,         BitScanForward,                             0,              1,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_bsf,                INS_bsf,                INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_NoRMWSemantics)
 HARDWARE_INTRINSIC(X86Base,         BitScanReverse,                             0,              1,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_bsr,                INS_bsr,                INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_NoRMWSemantics)
 HARDWARE_INTRINSIC(X86Base,         DivRem,                                     0,              3,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_idiv,               INS_div,                INS_idiv,               INS_div,                INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_BaseTypeFromSecondArg|HW_Flag_MultiReg|HW_Flag_SpecialImport|HW_Flag_SpecialCodeGen|HW_Flag_RmwIntrinsic)
+HARDWARE_INTRINSIC(X86Base,         Multiply,                                   0,              2,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_imulEAX,            INS_mulEAX,             INS_imulEAX,            INS_mulEAX,             INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_BaseTypeFromSecondArg|HW_Flag_MultiReg|HW_Flag_SpecialImport|HW_Flag_SpecialCodeGen|HW_Flag_RmwIntrinsic|HW_Flag_Commutative)
 HARDWARE_INTRINSIC(X86Base,         Pause,                                      0,              0,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid},           HW_Category_Special,                HW_Flag_NoContainment|HW_Flag_NoRMWSemantics|HW_Flag_SpecialSideEffect_Other)
 #define LAST_NI_X86Base             NI_X86Base_Pause
 
@@ -409,7 +410,8 @@ HARDWARE_INTRINSIC(X86Base,         Pause,
 HARDWARE_INTRINSIC(X86Base_X64,     BitScanForward,                             0,              1,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_bsf,                INS_bsf,                INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_NoRMWSemantics)
 HARDWARE_INTRINSIC(X86Base_X64,     BitScanReverse,                             0,              1,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_bsr,                INS_bsr,                INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_NoRMWSemantics)
 HARDWARE_INTRINSIC(X86Base_X64,     DivRem,                                     0,              3,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_idiv,               INS_div,                INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_BaseTypeFromSecondArg|HW_Flag_MultiReg|HW_Flag_SpecialImport|HW_Flag_SpecialCodeGen|HW_Flag_RmwIntrinsic)
-#define LAST_NI_X86Base_X64         NI_X86Base_X64_DivRem
+HARDWARE_INTRINSIC(X86Base_X64,     Multiply,                                   0,              2,      {INS_invalid,           INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_invalid,            INS_imulEAX,            INS_mulEAX,             INS_invalid,            INS_invalid},           HW_Category_Scalar,                 HW_Flag_NoFloatingPointUsed|HW_Flag_BaseTypeFromSecondArg|HW_Flag_MultiReg|HW_Flag_SpecialImport|HW_Flag_SpecialCodeGen|HW_Flag_RmwIntrinsic|HW_Flag_Commutative)
+#define LAST_NI_X86Base_X64         NI_X86Base_X64_Multiply
 
 // ***************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************
 //                 ISA              Function name                               SIMD size       NumArg                                                                                                                            Instructions                                                                                                                  Category                            Flags

diff --git a/src/coreclr/jit/hwintrinsicxarch.cpp b/src/coreclr/jit/hwintrinsicxarch.cpp
@@ -3914,6 +3914,27 @@ GenTree* Compiler::impSpecialIntrinsic(NamedIntrinsic        intrinsic,
             break;
         }
 
+        case NI_X86Base_Multiply:
+        case NI_X86Base_X64_Multiply:
+        {
+            assert(sig->numArgs == 2);
+            assert(HWIntrinsicInfo::IsMultiReg(intrinsic));
+            assert(retType == TYP_STRUCT);
+            assert(simdBaseJitType != CORINFO_TYPE_UNDEF);
+
+            op2 = impPopStack().val;
+            op1 = impPopStack().val;
+
+            GenTreeHWIntrinsic* multiplyIntrinsic = gtNewScalarHWIntrinsicNode(retType, op1, op2, intrinsic);
+
+            // Store the type from signature into SIMD base type for convenience
+            multiplyIntrinsic->SetSimdBaseJitType(simdBaseJitType);
+
+            retNode = impStoreMultiRegValueToVar(multiplyIntrinsic,
+                                                 sig->retTypeSigClass DEBUGARG(CorInfoCallConvExtension::Managed));
+            break;
+        }
+
         case NI_SSE_CompareScalarGreaterThan:
         case NI_SSE_CompareScalarGreaterThanOrEqual:
         case NI_SSE_CompareScalarNotGreaterThan:

diff --git a/src/coreclr/jit/lowerxarch.cpp b/src/coreclr/jit/lowerxarch.cpp
@@ -10642,6 +10642,8 @@ void Lowering::ContainCheckHWIntrinsic(GenTreeHWIntrinsic* node)
 
                             case NI_BMI2_MultiplyNoFlags:
                             case NI_BMI2_X64_MultiplyNoFlags:
+                            case NI_X86Base_Multiply:
+                            case NI_X86Base_X64_Multiply:
                             {
                                 bool supportsOp1RegOptional = false;
                                 bool supportsOp2RegOptional = false;

diff --git a/src/coreclr/jit/lsraxarch.cpp b/src/coreclr/jit/lsraxarch.cpp
@@ -2465,6 +2465,25 @@ int LinearScan::BuildHWIntrinsic(GenTreeHWIntrinsic* intrinsicTree, int* pDstCou
                 break;
             }
 
+            case NI_X86Base_Multiply:
+            case NI_X86Base_X64_Multiply:
+            {
+                assert(numArgs == 2);
+                assert(dstCount == 2);
+                assert(isRMW);
+
+                // mulEAX always have op1 in EAX
+                srcCount += BuildOperandUses(op1, SRBM_EAX);
+                srcCount += BuildOperandUses(op2);
+
+                // result put in EAX and EDX
+                BuildDef(intrinsicTree, SRBM_EAX, 0);
+                BuildDef(intrinsicTree, SRBM_EDX, 1);
+
+                buildUses = false;
+                break;
+            }
+
             case NI_BMI2_MultiplyNoFlags:
             case NI_BMI2_X64_MultiplyNoFlags:
             {
@@ -2976,9 +2995,11 @@ int LinearScan::BuildHWIntrinsic(GenTreeHWIntrinsic* intrinsicTree, int* pDstCou
     }
     else
     {
-        // Currently dstCount = 2 is only used for DivRem, which has special constraints and is handled above
+        // Currently dstCount = 2 is only used for DivRem and Multiply, which has special constraints and is handled
+        // above
         assert((dstCount == 0) ||
-               ((dstCount == 2) && ((intrinsicId == NI_X86Base_DivRem) || (intrinsicId == NI_X86Base_X64_DivRem))));
+               ((dstCount == 2) && ((intrinsicId == NI_X86Base_DivRem) || (intrinsicId == NI_X86Base_X64_DivRem) ||
+                                    (intrinsicId == NI_X86Base_Multiply) || (intrinsicId == NI_X86Base_X64_Multiply))));
     }
 
     *pDstCount = dstCount;

diff --git a/src/libraries/System.Private.CoreLib/src/System/Math.cs b/src/libraries/System.Private.CoreLib/src/System/Math.cs
@@ -159,16 +159,6 @@ internal static void ThrowNegateTwosCompOverflow()
         [MethodImpl(MethodImplOptions.AggressiveInlining)]
         public static unsafe ulong BigMul(uint a, uint b)
         {
-#if false // TARGET_32BIT
-            // This generates slower code currently than the simple multiplication
-            // https://github.com/dotnet/runtime/issues/11782
-            if (Bmi2.IsSupported)
-            {
-                uint low;
-                uint high = Bmi2.MultiplyNoFlags(a, b, &low);
-                return ((ulong)high << 32) | low;
-            }
-#endif
             return ((ulong)a) * b;
         }
 
@@ -181,7 +171,7 @@ public static long BigMul(int a, int b)
             return ((long)a) * b;
         }
 
-
+#if !(TARGET_ARM64 || (TARGET_AMD64 && !MONO)) // BigMul 64*64 has high performance intrinsics on ARM64 and AMD64 (but not yet on MONO)
         /// <summary>
         /// Perform multiplication between 64 and 32 bit numbers, returning lower 64 bits in <paramref name="low"/>
         /// </summary>
@@ -190,21 +180,18 @@ public static long BigMul(int a, int b)
         [MethodImpl(MethodImplOptions.AggressiveInlining)]
         internal static ulong BigMul(ulong a, uint b, out ulong low)
         {
-#if TARGET_64BIT
-            return Math.BigMul((ulong)a, (ulong)b, out low);
-#else
             ulong prodL = ((ulong)(uint)a) * b;
             ulong prodH = (prodL >> 32) + (((ulong)(uint)(a >> 32)) * b);
 
             low = ((prodH << 32) | (uint)prodL);
             return (prodH >> 32);
-#endif
         }
 
         /// <inheritdoc cref="BigMul(ulong, uint, out ulong)"/>
         [MethodImpl(MethodImplOptions.AggressiveInlining)]
         internal static ulong BigMul(uint a, ulong b, out ulong low)
             => BigMul(b, a, out low);
+#endif
 
         /// <summary>Produces the full product of two unsigned 64-bit numbers.</summary>
         /// <param name="a">The first number to multiply.</param>
@@ -215,13 +202,21 @@ internal static ulong BigMul(uint a, ulong b, out ulong low)
         [MethodImpl(MethodImplOptions.AggressiveInlining)]
         public static unsafe ulong BigMul(ulong a, ulong b, out ulong low)
         {
+#if MONO // Multiply is not yet implemented in MONO
 ///   <para>In the future it might emit mulx on compatible hardware</para> 
 ///   <para>In the future it might emit mulx on compatible hardware</para> 
             if (Bmi2.X64.IsSupported)
             {
                 ulong tmp;
                 ulong high = Bmi2.X64.MultiplyNoFlags(a, b, &tmp);
                 low = tmp;
                 return high;
             }
+#else
+            if (X86Base.X64.IsSupported)
+            {
+                (low, ulong hi) = X86Base.X64.Multiply(a, b);
+                return hi;
+            }
+#endif
             else if (ArmBase.Arm64.IsSupported)
             {
                 low = a * b;
@@ -261,6 +256,13 @@ static ulong SoftwareFallback(ulong a, ulong b, out ulong low)
         /// <returns>The high 64-bit of the product of the specified numbers.</returns>
         public static long BigMul(long a, long b, out long low)
         {
+#if !MONO // Multiply is not yet implemented in MONO
+            if (X86Base.X64.IsSupported)
+            {
+                (low, long hi) = X86Base.X64.Multiply(a, b);
+                return hi;
+            }
+#endif
             if (ArmBase.Arm64.IsSupported)
             {
                 low = a * b;

diff --git a/.../System.Private.CoreLib/src/System/Runtime/Intrinsics/X86/X86Base.PlatformNotSupported.cs b/.../System.Private.CoreLib/src/System/Runtime/Intrinsics/X86/X86Base.PlatformNotSupported.cs
@@ -63,6 +63,23 @@ internal X64() { }
             /// </summary>
             [Experimental(Experimentals.X86BaseDivRemDiagId, UrlFormat = Experimentals.SharedUrlFormat)]
             public static (long Quotient, long Remainder) DivRem(ulong lower, long upper, long divisor) { throw new PlatformNotSupportedException(); }
+
+            /// <summary>
+            ///   <para>unsigned _umul128(unsigned __int64 Multiplier, unsigned __int64  Multiplicand, unsigned __int64 * HighProduct)</para>
+            ///   <para>  MUL reg/m64</para>
+            /// </summary>
+            /// <remarks>
+            ///   <para>Its functionality is exposed in the public <see cref="Math" /> class.</para>
+            /// </remarks>
+            internal static (ulong Lower, ulong Upper) Multiply(ulong left, ulong right) { throw new PlatformNotSupportedException(); }
+
+            /// <summary>
+            ///   <para>  IMUL reg/m64</para>
+            /// </summary>
+            /// <remarks>
+            ///   <para>Its functionality is exposed in the public <see cref="Math" /> class.</para>
+            /// </remarks>
+            internal static (long Lower, long Upper) Multiply(long left, long right) { throw new PlatformNotSupportedException(); }
         }
 
         /// <summary>
@@ -109,6 +126,28 @@ internal X64() { }
         [Experimental(Experimentals.X86BaseDivRemDiagId, UrlFormat = Experimentals.SharedUrlFormat)]
         public static (nint Quotient, nint Remainder) DivRem(nuint lower, nint upper, nint divisor) { throw new PlatformNotSupportedException(); }
 
+        /// <summary>
+        ///   <para>  MUL reg/m32</para>
+        /// </summary>
+        /// <remarks>
+        ///   <para>Its functionality is exposed in the public <see cref="Math" /> class.</para>
+        /// </remarks>
+        internal static (uint Lower, uint Upper) Multiply(uint left, uint right) { throw new PlatformNotSupportedException(); }
+
+        /// <summary>
+        ///   <para>  IMUL reg/m32</para>
+        /// </summary>
+        /// <remarks>
+        ///   <para>Its functionality is exposed in the public <see cref="Math" /> class.</para>
+        /// </remarks>
+        internal static (int Lower, int Upper) Multiply(int left, int right) { throw new PlatformNotSupportedException(); }
+
+        /// <summary>  MUL reg/m</summary>
+        internal static (nuint Lower, nuint Upper) Multiply(nuint left, nuint right) { throw new PlatformNotSupportedException(); }
+
+        /// <summary>  IMUL reg/m</summary>
+        internal static (nint Lower, nint Upper) Multiply(nint left, nint right) { throw new PlatformNotSupportedException(); }
+
         /// <summary>
         ///   <para>void _mm_pause (void);</para>
         ///   <para>  PAUSE</para>

diff --git a/src/libraries/System.Private.CoreLib/src/System/Runtime/Intrinsics/X86/X86Base.cs b/src/libraries/System.Private.CoreLib/src/System/Runtime/Intrinsics/X86/X86Base.cs
@@ -66,6 +66,26 @@ internal X64() { }
             /// </summary>
             [Experimental(Experimentals.X86BaseDivRemDiagId, UrlFormat = Experimentals.SharedUrlFormat)]
             public static (long Quotient, long Remainder) DivRem(ulong lower, long upper, long divisor) => DivRem(lower, upper, divisor);
+
+#if !MONO
+            /// <summary>
+            ///   <para>unsigned _umul128(unsigned __int64 Multiplier, unsigned __int64  Multiplicand, unsigned __int64 * HighProduct)</para>
+            ///   <para>  MUL reg/m64</para>
+            /// </summary>
+            /// <remarks>
+            ///   <para>Its functionality is exposed by the public <see cref="Math.BigMul(ulong, ulong, out ulong)" />.</para>
+            ///   <para>In the future it might emit mulx on compatible hardware</para>
+            /// </remarks>
+            internal static (ulong Lower, ulong Upper) Multiply(ulong left, ulong right) => Multiply(left, right);
+
+            /// <summary>
+            ///   <para>  IMUL reg/m64</para>
+            /// </summary>
+            /// <remarks>
+            ///   <para>Its functionality is exposed by the public <see cref="Math.BigMul(long, long, out long)" />.</para>
+            /// </remarks>
+            internal static (long Lower, long Upper) Multiply(long left, long right) => Multiply(left, right);
+#endif
         }
 
         /// <summary>
@@ -123,6 +143,26 @@ public static unsafe (int Eax, int Ebx, int Ecx, int Edx) CpuId(int functionId,
         [Experimental(Experimentals.X86BaseDivRemDiagId, UrlFormat = Experimentals.SharedUrlFormat)]
         public static (nint Quotient, nint Remainder) DivRem(nuint lower, nint upper, nint divisor) => DivRem(lower, upper, divisor);
 
+#if !MONO
+        /// <summary>
+        ///   <para>  MUL reg/m32</para>
+        /// </summary>
+        internal static (uint Lower, uint Upper) Multiply(uint left, uint right) => Multiply(left, right);
+
+        /// <summary>
+        ///   <para>  IMUL reg/m32</para>
+        /// </summary>
+        internal static (int Lower, int Upper) Multiply(int left, int right) => Multiply(left, right);
+
+        /// <summary>  MUL reg/m</summary>
+        /// <remarks>Intented for UIntPtr.Bigmul https://github.com/dotnet/runtime/issues/114731 </remarks>
+        internal static (nuint Lower, nuint Upper) Multiply(nuint left, nuint right) => Multiply(left, right);
+
+        /// <summary>  IMUL reg/m</summary>
+        /// <remarks>Intented for IntPtr.Bigmul https://github.com/dotnet/runtime/issues/114731 </remarks>
+        internal static (nint Lower, nint Upper) Multiply(nint left, nint right) => Multiply(left, right);
+#endif
+
         /// <summary>
         ///   <para>void _mm_pause (void);</para>
         ///   <para>  PAUSE</para>