Merge pull request #71 from SymbolicML/chainrules-core

MilesCranmer · web-flow · commit 6211067d6007 · 2024-04-28T22:41:41.000+01:00
Add ChainRules support
diff --git a/Project.toml b/Project.toml
@@ -4,6 +4,7 @@ authors = ["MilesCranmer <miles.cranmer@gmail.com>"]
 version = "0.16.0"
 
 [deps]
+ChainRulesCore = "d360d2e6-b24c-11e9-a2a3-2a2ae2dbcce4"
 Compat = "34da2185-b29b-5c13-b0c7-acf172513d20"
 MacroTools = "1914dd2f-81c6-5fcd-8719-6d5c9610ff09"
 PackageExtensionCompat = "65ce6f38-6b18-4e1d-a461-8949797d7930"
@@ -29,6 +30,7 @@ DynamicExpressionsZygoteExt = "Zygote"
 [compat]
 Aqua = "0.7"
 Bumper = "0.6"
+ChainRulesCore = "1"
 Compat = "3.37, 4"
 Enzyme = "^0.11.12"
 LoopVectorization = "0.12"
@@ -58,4 +60,4 @@ Test = "8dfed614-e22c-5e08-85e1-65c5234f0b40"
 Zygote = "e88e6eb3-aa80-5325-afca-941959d7151f"
 
 [targets]
-test = ["Test", "SafeTestsets", "Aqua", "Bumper", "Enzyme", "ForwardDiff", "LinearAlgebra", "LoopVectorization", "Optim", "SpecialFunctions", "StaticArrays", "SymbolicUtils", "Suppressor", "Zygote"]
+test = ["Test", "SafeTestsets", "Aqua", "Bumper", "Enzyme", "ForwardDiff", "LinearAlgebra", "LoopVectorization", "Optim", "SpecialFunctions", "StaticArrays", "Suppressor", "SymbolicUtils", "Zygote"]
diff --git a/src/ChainRules.jl b/src/ChainRules.jl
@@ -0,0 +1,75 @@
+module ChainRulesModule
+
+using ChainRulesCore:
+    ChainRulesCore, AbstractTangent, NoTangent, ZeroTangent, Tangent, @thunk, canonicalize
+using ..OperatorEnumModule: OperatorEnum
+using ..NodeModule: AbstractExpressionNode, with_type_parameters, tree_mapreduce
+using ..EvaluateModule: eval_tree_array
+using ..EvaluateDerivativeModule: eval_grad_tree_array
+
+struct NodeTangent{T,N<:AbstractExpressionNode{T},A<:AbstractArray{T}} <: AbstractTangent
+    tree::N
+    gradient::A
+end
+function Base.:+(a::NodeTangent, b::NodeTangent)
+    @assert a.tree == b.tree
+    return NodeTangent(a.tree, a.gradient + b.gradient)
+end
+Base.:*(a::Number, b::NodeTangent) = NodeTangent(b.tree, a * b.gradient)
+Base.:*(a::NodeTangent, b::Number) = NodeTangent(a.tree, a.gradient * b)
+Base.zero(::Union{Type{NodeTangent},NodeTangent}) = ZeroTangent()
+
+function ChainRulesCore.rrule(
+    ::typeof(eval_tree_array),
+    tree::AbstractExpressionNode,
+    X::AbstractMatrix,
+    operators::OperatorEnum;
+    turbo=Val(false),
+    bumper=Val(false),
+)
+    primal, complete = eval_tree_array(tree, X, operators; turbo, bumper)
+
+    if !complete
+        primal .= NaN
+    end
+
+    # TODO: Preferable to use the primal in the pullback somehow
+    function pullback((dY, _))
+        dtree = let X = X, dY = dY, tree = tree, operators = operators
+            @thunk(
+                let
+                    _, gradient, complete = eval_grad_tree_array(
+                        tree, X, operators; variable=Val(false)
+                    )
+                    if !complete
+                        gradient .= NaN
+                    end
+
+                    NodeTangent(
+                        tree,
+                        sum(j -> gradient[:, j] * dY[j], eachindex(dY, axes(gradient, 2))),
+                    )
+                end
+            )
+        end
+        dX = let X = X, dY = dY, tree = tree, operators = operators
+            @thunk(
+                let
+                    _, gradient, complete = eval_grad_tree_array(
+                        tree, X, operators; variable=Val(true)
+                    )
+                    if !complete
+                        gradient .= NaN
+                    end
+
+                    gradient .* reshape(dY, 1, length(dY))
+                end
+            )
+        end
+        return (NoTangent(), dtree, dX, NoTangent())
+    end
+
+    return (primal, complete), pullback
+end
+
+end
diff --git a/src/DynamicExpressions.jl b/src/DynamicExpressions.jl
@@ -8,6 +8,7 @@ include("NodeUtils.jl")
 include("Strings.jl")
 include("Evaluate.jl")
 include("EvaluateDerivative.jl")
+include("ChainRules.jl")
 include("EvaluationHelpers.jl")
 include("Simplify.jl")
 include("OperatorEnumConstruction.jl")
@@ -42,6 +43,7 @@ import .NodeModule: constructorof, preserve_sharing
     OperatorEnum, GenericOperatorEnum, @extend_operators, set_default_variable_names!
 @reexport import .EvaluateModule: eval_tree_array, differentiable_eval_tree_array
 @reexport import .EvaluateDerivativeModule: eval_diff_tree_array, eval_grad_tree_array
+@reexport import .ChainRulesModule: NodeTangent
 @reexport import .SimplifyModule: combine_operators, simplify_tree!
 @reexport import .EvaluationHelpersModule
 @reexport import .ExtensionInterfaceModule: node_to_symbolic, symbolic_to_node
diff --git a/test/test_chainrules.jl b/test/test_chainrules.jl
@@ -0,0 +1,132 @@
+using Test
+using DynamicExpressions
+using Random: MersenneTwister
+using ChainRulesCore: ChainRulesCore, ZeroTangent, NoTangent
+using ForwardDiff: gradient as fd_gradient
+using Zygote: gradient as zg_gradient
+using Suppressor: @suppress_err
+include("test_params.jl")
+include("tree_gen_utils.jl")
+
+let
+    rng = MersenneTwister(0)
+    n_features = 5
+    operators = OperatorEnum(; binary_operators=(+, *, -), unary_operators=(sin,))
+    tree = gen_random_tree_fixed_size(20, operators, n_features, Float64, Node, rng)
+    X = rand(rng, Float64, n_features, 100)
+
+    function f(X)
+        y, _ = eval_tree_array(tree, X, operators)
+        return sum(i -> y[i]^2, eachindex(y))
+    end
+
+    @suppress_err begin
+        # Check zg_gradient against fd_gradient; the latter of which is computed explicitly
+        @test isapprox([only(zg_gradient(f, X))...], [fd_gradient(f, X)...]; atol=1e-6)
+    end
+end
+
+mean(x) = sum(x) / length(x)
+
+let
+    operators = OperatorEnum(; binary_operators=(+, *, -), unary_operators=(sin,))
+    x1, x2, x3 = [Node{Float64}(; feature=i) for i in 1:3]
+    tree = sin(x1 * 3.2 - 0.9) + 0.2 * x2 - x3
+    X = [
+        1.0 2.0 3.0
+        4.0 5.0 6.0
+        7.0 8.0 9.0
+    ]
+    function eval_tree(X, tree)
+        y, _ = eval_tree_array(tree, X, operators)
+        return mean(y)
+    end
+
+    function true_eval_tree(X, c)
+        y = @. sin(X[1, :] * c[1] - c[2]) + c[3] * X[2, :] - X[3, :]
+        return mean(y)
+    end
+
+    evaluated_gradient = zg_gradient(tree -> eval_tree(X, tree), tree)[1]
+    true_gradient = fd_gradient(c -> true_eval_tree(X, c), [3.2, 0.9, 0.2])
+
+    @test evaluated_gradient.tree == tree
+    @test isapprox(evaluated_gradient.gradient, true_gradient)
+
+    # Misc tests of uncovered portions
+    let tree = tree,
+        X = X,
+        evaluated_gradient = evaluated_gradient,
+        true_gradient = true_gradient
+
+        evaluated_gradient_2 = zg_gradient(tree -> eval_tree(X, tree), tree)[1]
+        true_gradient_2 = fd_gradient(c -> true_eval_tree(X, c), [3.2, 0.9, 0.2])
+
+        evaluated_aggregate = evaluated_gradient + evaluated_gradient_2
+        true_aggregate = true_gradient + true_gradient_2
+        @test evaluated_aggregate.tree == tree
+        @test isapprox(evaluated_aggregate.gradient, true_aggregate)
+
+        scalar_prod = evaluated_gradient * 2.0
+        scalar_prod2 = 2.0 * (1.0 * evaluated_gradient)
+        true_scalar_prod = true_gradient * 2.0
+        @test scalar_prod.tree == tree
+        @test isapprox(scalar_prod.gradient, true_scalar_prod)
+        @test isapprox(scalar_prod2.gradient, true_scalar_prod)
+
+        # Should be able to use with other types
+        @test zero(evaluated_gradient) == ZeroTangent()
+
+        @test evaluated_gradient + ZeroTangent() == evaluated_gradient
+        @test evaluated_gradient + NoTangent() == evaluated_gradient
+    end
+end
+
+# Operator that is NaN for forward pass
+bad_op(x) = x > 0.0 ? log(x) : convert(typeof(x), NaN)
+# And operator that is undefined for backward pass
+undefined_grad_op(x) = x >= 0.0 ? x : zero(x)
+# And operator that gives a NaN for backward pass
+bad_grad_op(x) = x
+
+function ChainRulesCore.rrule(::typeof(bad_grad_op), x)
+    return bad_grad_op(x), (_) -> (NoTangent(), convert(typeof(x), NaN))
+end
+
+# Also test NaN modes
+let
+    operators = OperatorEnum(;
+        binary_operators=(+, *, -),
+        unary_operators=(sin, bad_op, bad_grad_op, undefined_grad_op),
+    )
+    @extend_operators operators
+    x1 = Node(Float64; feature=1)
+
+    nan_forward = bad_op(x1 + 0.5)
+    undefined_grad = undefined_grad_op(x1 + 0.5)
+    nan_grad = bad_grad_op(x1)
+
+    function eval_tree(X, tree)
+        y, _ = eval_tree_array(tree, X, operators)
+        return mean(y)
+    end
+    X = ones(1, 1) * -1.0
+
+    # Forward pass is NaN; Gradient will also be NaN
+    @test isnan(only(eval_tree(X, nan_forward)))
+    evaluated_gradient = zg_gradient(X -> eval_tree(X, nan_forward), X)[1]
+    @test isnan(only(evaluated_gradient))
+
+    # Both forward and gradient are not NaN despite giving `nothing` back
+    @test !isnan(only(eval_tree(X, undefined_grad)))
+    evaluated_gradient = zg_gradient(X -> eval_tree(X, undefined_grad), X)[1]
+    @test iszero(only(evaluated_gradient))
+
+    # Finally, the operator with a NaN gradient but non-NaN forward
+    @test !isnan(only(eval_tree(X, nan_grad)))
+    evaluated_gradient = zg_gradient(X -> eval_tree(X, nan_grad), X)[1]
+    @test isnan(only(evaluated_gradient))
+    evaluated_gradient = zg_gradient(t -> eval_tree(X, t), nan_grad)[1]
+    @show evaluated_gradient
+    # @test isnan(only(evaluated_gradient.gradient))
+end
diff --git a/test/test_optim.jl b/test/test_optim.jl
@@ -12,6 +12,11 @@ original_tree = exp(x1 * 0.8 - 0.0) + 5.2 * x2
 target_tree = exp(x1 * 2.1 - 0.9) + -0.9 * x2
 
 f(tree) = sum(abs2, tree(X, operators) .- y)
+function g!(G, tree)
+    dy = only(gradient(f, tree))
+    G .= dy.gradient
+    return nothing
+end
 
 @testset "Basic optimization" begin
     tree = copy(original_tree)
@@ -26,7 +31,14 @@ f(tree) = sum(abs2, tree(X, operators) .- y)
     @test isapprox(get_constants(res.minimizer), get_constants(target_tree); atol=0.01)
 end
 
-@testset "With gradients" begin
+@testset "With gradients, using Zygote" begin
+    tree = copy(original_tree)
+    res = optimize(f, g!, tree, BFGS())
+    @test tree == original_tree
+    @test isapprox(get_constants(res.minimizer), get_constants(target_tree); atol=0.01)
+end
+
+@testset "With gradients, manually" begin
     tree = copy(original_tree)
     did_i_run = Ref(false)
     # Now, try with gradients too (via Zygote and our hand-rolled forward-mode AD)
diff --git a/test/unittest.jl b/test/unittest.jl
@@ -31,6 +31,10 @@ end
     include("test_derivatives.jl")
 end
 
+@safetestset "Test chain rules" begin
+    include("test_chainrules.jl")
+end
+
 @safetestset "Test undefined derivatives" begin
     include("test_undefined_derivatives.jl")
 end