Populate AMDGPU extension

michel2323 · michel2323 · commit fc45a83833bc · 2025-06-12T09:42:01.000-05:00
diff --git a/ext/OceananigansAMDGPUExt.jl b/ext/OceananigansAMDGPUExt.jl
@@ -1,35 +1,102 @@
 module OceananigansAMDGPUExt
 
-using AMDGPU
 using Oceananigans
+using InteractiveUtils
+using AMDGPU, AMDGPU.ROCSPARSE, AMDGPU.ROCFFT
 using Oceananigans.Utils: linear_expand, __linear_ndrange, MappedCompilerMetadata
 using KernelAbstractions: __dynamic_checkbounds, __iterspace
-import KernelAbstractions: __validindex
+using KernelAbstractions
+import Oceananigans.Architectures as AC
+import Oceananigans.BoundaryConditions as BC
+import Oceananigans.DistributedComputations as DC
+import Oceananigans.Fields as FD
+import Oceananigans.Grids as GD
+import Oceananigans.Solvers as SO
+import Oceananigans.Utils as UT
+import SparseArrays: SparseMatrixCSC
+import KernelAbstractions: __iterspace, __groupindex, __dynamic_checkbounds,
+                           __validindex, CompilerMetadata
+import Oceananigans.DistributedComputations: Distributed
 
-import Oceananigans.Architectures:
-    architecture,
-    convert_to_device,
-    on_architecture
+const GPUVar = Union{ROCArray, CuContext, CuPtr, Ptr}
 
-const ROCGPU = GPU{<:AMDGPU.ROCBackend}
-ROCGPU() = GPU(AMDGPU.ROCBackend())
+function __init__()
+    if AMDGPU.functional()
+        @debug "ROCm-enabled GPU(s) detected:"
+        for (gpu, dev) in enumerate(AMDGPU.devices())
+            @debug "$dev: $(AMDGPU.name(dev))"
+        end
+    end
+end
+
+const ROCGPU = AC.GPU{ROCBackend}
+ROCGPU() = AC.GPU(AMDGPU.ROCBackend())
 
 architecture(::ROCArray) = ROCGPU()
 Base.summary(::ROCGPU) = "ROCGPU"
 
-on_architecture(::ROCGPU, a::Number) = a
-on_architecture(::ROCGPU, a::Array) = ROCArray(a)
-on_architecture(::ROCGPU, a::BitArray) = ROCArray(a)
-on_architecture(::ROCGPU, a::SubArray{<:Any, <:Any, <:Array}) = ROCArray(a)
-on_architecture(::CPU, a::ROCArray) = Array(a)
-on_architecture(::CPU, a::SubArray{<:Any, <:Any, <:ROCArray}) = Array(a)
-on_architecture(::ROCGPU, a::ROCArray) = a
-on_architecture(::ROCGPU, a::SubArray{<:Any, <:Any, <:ROCArray}) = a
-on_architecture(::ROCGPU, a::StepRangeLen) = a
+AC.architecture(::ROCArray) = ROCGPU()
+AC.architecture(::ROCSparseMatrixCSC) = ROCGPU()
+AC.array_type(::AC.GPU{ROCBackend}) = ROCArray
+
+AC.on_architecture(::ROCGPU, a::Number) = a
+AC.on_architecture(::AC.CPU, a::ROCArray) = Array(a)
+AC.on_architecture(::ROCGPU, a::Array) = ROCArray(a)
+AC.on_architecture(::ROCGPU, a::ROCArray) = a
+AC.on_architecture(::ROCGPU, a::BitArray) = ROCArray(a)
+AC.on_architecture(::ROCGPU, a::SubArray{<:Any, <:Any, <:ROCArray}) = a
+AC.on_architecture(::ROCGPU, a::SubArray{<:Any, <:Any, <:Array}) = ROCArray(a)
+AC.on_architecture(::CPU, a::SubArray{<:Any, <:Any, <:ROCArray}) = Array(a)
+AC.on_architecture(::ROCGPU, a::StepRangeLen) = a
+AC.on_architecture(arch::Distributed, a::ROCArray) = AC.on_architecture(AC.child_architecture(arch), a)
+AC.on_architecture(arch::Distributed, a::SubArray{<:Any, <:Any, <:ROCArray}) = AC.on_architecture(child_architecture(arch), a)
+
+function unified_array(::AMDGPU, a::AbstractArray)
+    error("unified_array is not implemented for ROCGPU.")
+end
+
+## GPU to GPU copy of contiguous data
+@inline function AC.device_copy_to!(dst::ROCArray, src::ROCArray; async::Bool = false)
+    if async == true
+        @warn "Asynchronous copy is not supported for ROCArray. Falling back to synchronous copy."
+    end
+    copyto!(dst, src)
+    return dst
+end
+
+@inline AC.unsafe_free!(a::ROCArray) = AMDGPU.unsafe_free!(a)
+
+@inline AC.constructors(::AC.GPU{ROCBackend}, A::SparseMatrixCSC) = (ROCArray(A.colptr), ROCArray(A.rowval), ROCArray(A.nzval),  (A.m, A.n))
+@inline AC.constructors(::AC.CPU, A::ROCSparseMatrixCSC) = (A.dims[1], A.dims[2], Int64.(Array(A.colPtr)), Int64.(Array(A.rowVal)), Array(A.nzVal))
+@inline AC.constructors(::AC.GPU{ROCBackend}, A::ROCSparseMatrixCSC) = (A.colPtr, A.rowVal, A.nzVal,  A.dims)
+
+@inline AC.arch_sparse_matrix(::AC.GPU{ROCBackend}, constr::Tuple) = ROCSparseMatrixCSC(constr...)
+@inline AC.arch_sparse_matrix(::AC.CPU, A::ROCSparseMatrixCSC)   = SparseMatrixCSC(AC.constructors(AC.CPU(), A)...)
+@inline AC.arch_sparse_matrix(::AC.GPU{ROCBackend}, A::SparseMatrixCSC)     = ROCSparseMatrixCSC(AC.constructors(AC.GPU(), A)...)
+@inline AC.arch_sparse_matrix(::AC.GPU{ROCBackend}, A::ROCSparseMatrixCSC) = A
 
 @inline convert_to_device(::ROCGPU, args) = AMDGPU.rocconvert(args)
 @inline convert_to_device(::ROCGPU, args::Tuple) = map(AMDGPU.rocconvert, args)
 
+
+BC.validate_boundary_condition_architecture(::ROCArray, ::AC.GPU, bc, side) = nothing
+
+BC.validate_boundary_condition_architecture(::ROCArray, ::AC.CPU, bc, side) =
+    throw(ArgumentError("$side $bc must use `Array` rather than `ROCArray` on CPU architectures!"))
+
+function SO.plan_forward_transform(A::ROCArray, ::Union{GD.Bounded, GD.Periodic}, dims, planner_flag)
+    length(dims) == 0 && return nothing
+    return AMDGPU.ROCFFT.plan_fft!(A, dims)
+end
+
+FD.set!(v::Field, a::ROCArray) = FD._set!(v, a)
+DC.set!(v::DC.DistributedField, a::ROCArray) = DC._set!(v, a)
+
+function SO.plan_backward_transform(A::ROCArray, ::Union{GD.Bounded, GD.Periodic}, dims, planner_flag)
+    length(dims) == 0 && return nothing
+    return AMDGPU.ROCFFT.plan_ifft!(A, dims)
+end
+
 AMDGPU.Device.@device_override @inline function __validindex(ctx::MappedCompilerMetadata)
     if __dynamic_checkbounds(ctx)
         I = @inbounds linear_expand(__iterspace(ctx), AMDGPU.Device.blockIdx().x, AMDGPU.Device.threadIdx().x)
@@ -39,4 +106,11 @@ AMDGPU.Device.@device_override @inline function __validindex(ctx::MappedCompiler
     end
 end
 
+@inline UT.sync_device!(::ROCDevice)  = ROC.synchronize()
+@inline UT.getdevice(roc::GPUVar, i)     = device(roc)
+@inline UT.getdevice(roc::GPUVar)        = device(roc)
+@inline UT.switch_device!(dev::ROCDevice)            = device!(dev)
+@inline UT.sync_device!(::ROCGPU)      = ROC.synchronize()
+@inline UT.sync_device!(::ROCBackend)      = ROC.synchronize()
+
 end # module
diff --git a/ext/OceananigansCUDAExt.jl b/ext/OceananigansCUDAExt.jl
@@ -3,6 +3,8 @@ module OceananigansCUDAExt
 using Oceananigans
 using InteractiveUtils
 using CUDA, CUDA.CUSPARSE, CUDA.CUFFT
+using Oceananigans.Utils: linear_expand, __linear_ndrange, MappedCompilerMetadata
+using KernelAbstractions: __dynamic_checkbounds, __iterspace
 using KernelAbstractions
 import Oceananigans.Architectures as AC
 import Oceananigans.BoundaryConditions as BC
@@ -19,7 +21,7 @@ import Oceananigans.DistributedComputations: Distributed
 const GPUVar = Union{CuArray, CuContext, CuPtr, Ptr}
 
 function __init__()
-    if CUDA.has_cuda()
+    if CUDA.functional()
         @debug "CUDA-enabled GPU(s) detected:"
         for (gpu, dev) in enumerate(CUDA.devices())
             @debug "$dev: $(CUDA.name(dev))"
@@ -56,15 +58,17 @@ AC.architecture(::CuArray) = CUDAGPU()
 AC.architecture(::CuSparseMatrixCSC) = CUDAGPU()
 AC.array_type(::AC.GPU{CUDABackend}) = CuArray
 
+AC.on_architecture(::CUDAGPU, a::Number) = a
 AC.on_architecture(::AC.CPU, a::CuArray) = Array(a)
-
 AC.on_architecture(::CUDAGPU, a::Array) = CuArray(a)
 AC.on_architecture(::CUDAGPU, a::CuArray) = a
 AC.on_architecture(::CUDAGPU, a::BitArray) = CuArray(a)
 AC.on_architecture(::CUDAGPU, a::SubArray{<:Any, <:Any, <:CuArray}) = a
 AC.on_architecture(::CUDAGPU, a::SubArray{<:Any, <:Any, <:Array}) = CuArray(a)
 AC.on_architecture(::AC.CPU, a::SubArray{<:Any, <:Any, <:CuArray}) = Array(a)
 AC.on_architecture(::CUDAGPU, a::StepRangeLen) = a
+AC.on_architecture(arch::Distributed, a::CuArray) = AC.on_architecture(AC.child_architecture(arch), a)
+AC.on_architecture(arch::Distributed, a::SubArray{<:Any, <:Any, <:CuArray}) = AC.on_architecture(child_architecture(arch), a)
 
 # cu alters the type of `a`, so we convert it back to the correct type
 unified_array(::CUDAGPU, a::AbstractArray) = map(eltype(a), cu(a; unified = true))
@@ -86,13 +90,9 @@ end
 @inline AC.constructors(::AC.CPU, A::CuSparseMatrixCSC) = (A.dims[1], A.dims[2], Int64.(Array(A.colPtr)), Int64.(Array(A.rowVal)), Array(A.nzVal))
 @inline AC.constructors(::AC.GPU{CUDABackend}, A::CuSparseMatrixCSC) = (A.colPtr, A.rowVal, A.nzVal,  A.dims)
 
-@inline AC.unpack_constructors(::AC.CPU, constr::Tuple) = (constr[3], constr[4], constr[5])
-@inline AC.copy_unpack_constructors(::AC.CPU, constr::Tuple) = deepcopy((constr[3], constr[4], constr[5]))
-
 @inline AC.arch_sparse_matrix(::AC.GPU{CUDABackend}, constr::Tuple) = CuSparseMatrixCSC(constr...)
 @inline AC.arch_sparse_matrix(::AC.CPU, A::CuSparseMatrixCSC)   = SparseMatrixCSC(AC.constructors(AC.CPU(), A)...)
 @inline AC.arch_sparse_matrix(::AC.GPU{CUDABackend}, A::SparseMatrixCSC)     = CuSparseMatrixCSC(AC.constructors(AC.GPU(), A)...)
-
 @inline AC.arch_sparse_matrix(::AC.GPU{CUDABackend}, A::CuSparseMatrixCSC) = A
 
 @inline AC.convert_to_device(::CUDAGPU, args) = CUDA.cudaconvert(args)
@@ -119,10 +119,10 @@ end
 
 # CUDA version, the indices are passed implicitly
 # You must not use KA here as this code is executed in another scope
-CUDA.@device_override @inline function KernelAbstractions.__validindex(ctx::UT.MappedCompilerMetadata)
+CUDA.@device_override @inline function __validindex(ctx::MappedCompilerMetadata)
     if __dynamic_checkbounds(ctx)
-        index = @inbounds UT.linear_expand(__iterspace(ctx), blockIdx().x, threadIdx().x)
-        return index ≤ UT.__linear_ndrange(ctx)
+        index = @inbounds linear_expand(__iterspace(ctx), CUDA.blockIdx().x, CUDA.threadIdx().x)
+        return index ≤ __linear_ndrange(ctx)
     else
         return true
     end
@@ -134,7 +134,5 @@ end
 @inline UT.switch_device!(dev::CuDevice)            = device!(dev)
 @inline UT.sync_device!(::CUDAGPU)      = CUDA.synchronize()
 @inline UT.sync_device!(::CUDABackend)      = CUDA.synchronize()
-AC.on_architecture(arch::Distributed, a::CuArray) = AC.on_architecture(AC.child_architecture(arch), a)
-AC.on_architecture(arch::Distributed, a::SubArray{<:Any, <:Any, <:CuArray}) = AC.on_architecture(child_architecture(arch), a)
 
 end # module OceananigansCUDAExt
diff --git a/src/Architectures.jl b/src/Architectures.jl
@@ -117,8 +117,10 @@ unified_array(::GPU, a) = a
 @inline constructors(::CPU, m::Number, n::Number, constr::Tuple) = (m, n, constr...)
 @inline constructors(::GPU, m::Number, n::Number, constr::Tuple) = (constr..., (m, n))
 
+@inline unpack_constructors(::CPU, constr::Tuple) = (constr[3], constr[4], constr[5])
 @inline unpack_constructors(::GPU, constr::Tuple) = (constr[1], constr[2], constr[3])
 
+@inline copy_unpack_constructors(::CPU, constr::Tuple) = deepcopy((constr[3], constr[4], constr[5]))
 @inline copy_unpack_constructors(::GPU, constr::Tuple) = deepcopy((constr[1], constr[2], constr[3]))
 
 @inline arch_sparse_matrix(::CPU, constr::Tuple) = SparseMatrixCSC(constr...)