Apply degree normalization to property part of initial random vectors

breakanalysis · breakanalysis · commit decc31d9c852 · 2025-02-21T16:06:30.000+01:00
A seemingly strange/buggy behavior was reported.
Somewhat simplified, it was expected that when
nodeSelfInfluence &gt; 0 and propertyRatio is high (0.8),
that among (n1: {val: [0.1, 1.0]}), (n2: {val: [0.1, 1.0]}) and (n3: {val: [0.2, 1.0]},
it should "often" hold that SIM(emb(n1), emb(n2)) &gt; SIM(emb(n1), emb(n3).

Whether this expectation is reasonable is out of the scope of this commit, but
to partly remedy this, something else was discovered and fixed:

The initial random vector is split into two segments corresponding to
embeddingDimension = baseEmbeddingDimension + propertyDimension.
The the first segment, entries were scaled by the degree of the node to the power of
`normalizationStrength`, however, the second segment of length propertyDimension was
not scaled by this scaling factor.
The current commit applies the scaling also to the second segment.
This removes the effect of reduced influence of entries in the second segment, that is
reduced node property influence, when normalizationStrength &gt; 0 and deg(n) &gt; 1.
diff --git a/algo/src/main/java/org/neo4j/gds/embeddings/fastrp/FastRP.java b/algo/src/main/java/org/neo4j/gds/embeddings/fastrp/FastRP.java
@@ -344,37 +344,42 @@ public void run() {
 
                 float entryValue = scaling * sqrtSparsity / sqrtEmbeddingDimension;
                 random.reseed(randomSeed ^ graph.toOriginalNodeId(nodeId));
-                var randomVector = computeRandomVector(nodeId, random, entryValue);
+                var randomVector = computeRandomVector(nodeId, random, entryValue, scaling);
                 embeddingB.set(nodeId, randomVector);
                 embeddingA.set(nodeId, new float[embeddingDimension]);
             });
             progressTracker.logProgress(partition.nodeCount());
         }
 
-        private float[] computeRandomVector(long nodeId, Random random, float entryValue) {
+        private float[] computeRandomVector(long nodeId, Random random, float entryValue, float scaling) {
             var randomVector = new float[embeddingDimension];
             for (int i = 0; i < baseEmbeddingDimension; i++) {
                 randomVector[i] = computeRandomEntry(random, entryValue);
             }
 
             propertyVectorAdder.setRandomVector(randomVector);
+            propertyVectorAdder.setScaling(scaling);
             FeatureExtraction.extract(nodeId, -1, featureExtractors, propertyVectorAdder);
 
             return randomVector;
         }
 
         private class PropertyVectorAdder implements FeatureConsumer {
             private float[] randomVector;
+            private float scaling = 1.0f;
 
             void setRandomVector(float[] randomVector) {
                 this.randomVector = randomVector;
             }
+            void setScaling(float scaling) {
+                this.scaling = scaling;
+            }
 
             @Override
             public void acceptScalar(long ignored, int offset, double value) {
                 float floatValue = (float) value;
                 for (int i = baseEmbeddingDimension; i < embeddingDimension; i++) {
-                    randomVector[i] += floatValue * propertyVectors[offset][i - baseEmbeddingDimension];
+                    randomVector[i] += scaling * floatValue * propertyVectors[offset][i - baseEmbeddingDimension];
                 }
             }
 
@@ -384,7 +389,7 @@ public void acceptArray(long ignored, int offset, double[] values) {
                     var value = (float) values[j];
                     float[] propertyVector = propertyVectors[offset + j];
                     for (int i = baseEmbeddingDimension; i < embeddingDimension; i++) {
-                        randomVector[i] += value * propertyVector[i - baseEmbeddingDimension];
+                        randomVector[i] += scaling * value * propertyVector[i - baseEmbeddingDimension];
                     }
                 }
             }

Original file line number	Diff line number	Diff line change
`@@ -344,37 +344,42 @@ public void run() {`
`344`	`344`
`345`	`345`	`float entryValue = scaling * sqrtSparsity / sqrtEmbeddingDimension;`
`346`	`346`	`random.reseed(randomSeed ^ graph.toOriginalNodeId(nodeId));`
`347`		`- var randomVector = computeRandomVector(nodeId, random, entryValue);`
	`347`	`+ var randomVector = computeRandomVector(nodeId, random, entryValue, scaling);`
`348`	`348`	`embeddingB.set(nodeId, randomVector);`
`349`	`349`	`embeddingA.set(nodeId, new float[embeddingDimension]);`
`350`	`350`	`});`
`351`	`351`	`progressTracker.logProgress(partition.nodeCount());`
`352`	`352`	`}`
`353`	`353`
`354`		`- private float[] computeRandomVector(long nodeId, Random random, float entryValue) {`
	`354`	`+ private float[] computeRandomVector(long nodeId, Random random, float entryValue, float scaling) {`
`355`	`355`	`var randomVector = new float[embeddingDimension];`
`356`	`356`	`for (int i = 0; i < baseEmbeddingDimension; i++) {`
`357`	`357`	`randomVector[i] = computeRandomEntry(random, entryValue);`
`358`	`358`	`}`
`359`	`359`
`360`	`360`	`propertyVectorAdder.setRandomVector(randomVector);`
	`361`	`+ propertyVectorAdder.setScaling(scaling);`
`361`	`362`	`FeatureExtraction.extract(nodeId, -1, featureExtractors, propertyVectorAdder);`
`362`	`363`
`363`	`364`	`return randomVector;`
`364`	`365`	`}`
`365`	`366`
`366`	`367`	`private class PropertyVectorAdder implements FeatureConsumer {`
`367`	`368`	`private float[] randomVector;`
	`369`	`+ private float scaling = 1.0f;`
`368`	`370`
`369`	`371`	`void setRandomVector(float[] randomVector) {`
`370`	`372`	`this.randomVector = randomVector;`
`371`	`373`	`}`
	`374`	`+ void setScaling(float scaling) {`
	`375`	`+ this.scaling = scaling;`
	`376`	`+ }`
`372`	`377`
`373`	`378`	`@Override`
`374`	`379`	`public void acceptScalar(long ignored, int offset, double value) {`
`375`	`380`	`float floatValue = (float) value;`
`376`	`381`	`for (int i = baseEmbeddingDimension; i < embeddingDimension; i++) {`
`377`		`- randomVector[i] += floatValue * propertyVectors[offset][i - baseEmbeddingDimension];`
	`382`	`+ randomVector[i] += scaling * floatValue * propertyVectors[offset][i - baseEmbeddingDimension];`
`378`	`383`	`}`
`379`	`384`	`}`
`380`	`385`
`@@ -384,7 +389,7 @@ public void acceptArray(long ignored, int offset, double[] values) {`
`384`	`389`	`var value = (float) values[j];`
`385`	`390`	`float[] propertyVector = propertyVectors[offset + j];`
`386`	`391`	`for (int i = baseEmbeddingDimension; i < embeddingDimension; i++) {`
`387`		`- randomVector[i] += value * propertyVector[i - baseEmbeddingDimension];`
	`392`	`+ randomVector[i] += scaling * value * propertyVector[i - baseEmbeddingDimension];`
`388`	`393`	`}`
`389`	`394`	`}`
`390`	`395`	`}`