compression-algorithm-research-lab
diff --git a/‎.README_images/03e5b34a.png
68.1 KB b/‎.README_images/03e5b34a.png
68.1 KB
diff --git a/‎.README_images/21beabb6.png
61.8 KB b/‎.README_images/21beabb6.png
61.8 KB
diff --git a/‎.README_images/25ad07ef.png
73.1 KB b/‎.README_images/25ad07ef.png
73.1 KB
diff --git a/‎.README_images/55a2e7d1.png
66.8 KB b/‎.README_images/55a2e7d1.png
66.8 KB
diff --git a/‎.README_images/64320512.png
66.7 KB b/‎.README_images/64320512.png
66.7 KB
diff --git a/‎.README_images/e598a60d.png
62.6 KB b/‎.README_images/e598a60d.png
62.6 KB
diff --git a/‎README.assets/55a2e7d1.png
66.8 KB b/‎README.assets/55a2e7d1.png
66.8 KB
diff --git a/‎README.assets/data_compress_4-8b1ba456.png
103 KB b/‎README.assets/data_compress_4-8b1ba456.png
103 KB
diff --git a/‎README.assets/e598a60d.png
62.6 KB b/‎README.assets/e598a60d.png
62.6 KB
diff --git a/‎README.md
Lines changed: 29 additions & 1 deletion b/‎README.md
Lines changed: 29 additions & 1 deletion
diff --git a/‎docs/.$simple8b.drawio.bkp
Lines changed: 2330 additions & 0 deletions b/‎docs/.$simple8b.drawio.bkp
Lines changed: 2330 additions & 0 deletions
diff --git a/‎docs/simple8b.drawio
Lines changed: 2330 additions & 0 deletions b/‎docs/simple8b.drawio
Lines changed: 2330 additions & 0 deletions
diff --git a/‎mode.go
Lines changed: 69 additions & 0 deletions b/‎mode.go
Lines changed: 69 additions & 0 deletions
diff --git a/‎simple16.go
Lines changed: 5 additions & 0 deletions b/‎simple16.go
Lines changed: 5 additions & 0 deletions
diff --git a/‎simple8b.go
Lines changed: 5 additions & 17 deletions b/‎simple8b.go
Lines changed: 5 additions & 17 deletions
diff --git a/‎simple8b_with_mode.go
Lines changed: 11 additions & 0 deletions b/‎simple8b_with_mode.go
Lines changed: 11 additions & 0 deletions
diff --git a/‎type_convert.go
Lines changed: 24 additions & 0 deletions b/‎type_convert.go
Lines changed: 24 additions & 0 deletions
@@ -1,6 +1,34 @@
 # simple8b的Go实现 
 
-TODO 2022-11-28 02:52:45 测试 
+
+
+Simple8b 是 64 位算法，维护了一个查找表，实现将多个整形数据压缩到一个 64bit 长整型中。其中前 4 位表示选择器，用来标记每个值使用多少bit，后面 60 位用于存储数据。 ![simple8b算法查找表](./README.assets/data_compress_4-8b1ba456.png) 如上图所示，Integers Coded表示可压缩的数据集大小，Bits Per Integer表示每个整数分配多少 Bits 来表示，比如要压缩8个数据，选择器选择8，每个数据用7个 bits 表示，但是如果某个数据的值超过了7个 bits 的表示范围，那么就需要尝试用选择器9，只能压缩前7个数据，每个数据用8个bits来表示，以此类推。第一次未压缩的数据将压缩到一个新的64bit的长整型中，由此可见simple8b算法对小整数的压缩效果比较好，对大整数的压缩效果不佳。
+
+
+
+一个int64类型有64位：
+
+![](.README_images/21beabb6.png)
+
+每8个bit分为一组用同一个颜色标识，这样看得更清楚一些，每个不同的颜色是一个byte，总共是8个byte 64个bit：
+
+![](./README.assets/55a2e7d1.png)
+
+其中前4个bit用来存放数值位数长度：
+
+![](./README.assets/e598a60d.png)
+
+比如每个数值使用4个bit来表示：
+
+![](.README_images/25ad07ef.png)
+
+每个数值使用10个bit来表示：
+
+![](.README_images/03e5b34a.png)
+
+每个数值使用15个bit来表示：
+
+![](.README_images/64320512.png)
 
 
 
@@ -0,0 +1,69 @@
+package simple8b
+
+import (
+	"github.com/golang-infrastructure/go-gtypes"
+)
+
+type Mode int
+
+// simple8b的8种模式
+const (
+
+	// Mode0BitPacking1 压缩1位整数，每个整数占1位。适用于整数范围为0到1的稀疏数组。
+	Mode0BitPacking1 Mode = 0
+
+	// Mode1BitPacking4 压缩4位整数，每个整数占4位。适用于整数范围为0到15的稀疏数组。
+	Mode1BitPacking4 Mode = 1
+
+	// Mode2BitPacking8 压缩8位整数，每个整数占8位。适用于整数范围为0到255的稀疏数组。
+	Mode2BitPacking8 Mode = 2
+
+	// Mode3BitPacking12 压缩12位整数，每个整数占12位。适用于整数范围为0到4095的稀疏数组。
+	Mode3BitPacking12 Mode = 3
+
+	// Mode4BitPacking16 压缩16位整数，每个整数占16位。适用于整数范围为0到65535的稀疏数组。
+	Mode4BitPacking16 Mode = 4
+
+	// Mode5BitPacking20 压缩20位整数，每个整数占20位。适用于整数范围为0到1048575的稀疏数组。
+	Mode5BitPacking20 Mode = 5
+
+	// Mode6BitPacking24 压缩24位整数，每个整数占24位。适用于整数范围为0到16777215的稀疏数组。
+	Mode6BitPacking24 Mode = 6
+
+	// Mode7DirectMode 直接存储整数，没有额外的压缩。适用于密集或者无法被前面7种模式有效压缩的整数数组。
+	Mode7DirectMode Mode = 7
+)
+
+// WhichMode 判断给定的无符号整数适合用哪种压缩模式
+func WhichMode[T gtypes.Unsigned](value T) Mode {
+	if value <= 1 {
+		return Mode0BitPacking1
+	} else if value <= 15 {
+		return Mode1BitPacking4
+	} else if value <= 255 {
+		return Mode2BitPacking8
+	} else if value <= 4095 {
+		return Mode3BitPacking12
+	} else if value <= 65535 {
+		return Mode4BitPacking16
+	} else if value <= 1048575 {
+		return Mode5BitPacking20
+	} else if value <= 16777215 {
+		return Mode6BitPacking24
+	} else {
+		return Mode7DirectMode
+	}
+}
+
+// WhichModeForSlice 判断给定的无符号切片应该使用哪种压缩模式
+func WhichModeForSlice[T gtypes.Unsigned](values []T) Mode {
+	mode := Mode0BitPacking1
+	for _, value := range values {
+		m := WhichMode(value)
+		// 要遵从切片中最大的那个数字的模式，要能够盛得下它
+		if m > mode {
+			mode = m
+		}
+	}
+	return mode
+}
@@ -0,0 +1,5 @@
+package simple8b
+
+// 对simple8的扩展
+
+
@@ -31,6 +31,7 @@ func Encode[T gtypes.Integer](slice []T) []byte {
 
 	// 然后就按照这个来存储了
 	for _, value := range slice {
+		// 结合zigzag算法，可以用来压缩负数
 		result = append(result, IntToBytes(zigzag.ToZigZag(value), blockSize)...)
 	}
 
@@ -61,23 +62,10 @@ func DecodeE[T gtypes.Integer](bytes []byte) ([]T, error) {
 	return result, nil
 }
 
-// IntToBytes 把给定的整数的低n位转换为字节数组
-func IntToBytes[T gtypes.Integer](value T, blockSize int) []byte {
-	result := make([]byte, blockSize)
-	for index := range result {
-		byteValue := (uint64(0xFF) << index) & uint64(value)
-		result[index] = uint8(byteValue)
-	}
-	return result
+func EncodeToBytes[T gtypes.Integer](slice []T) []byte {
+
 }
 
-// BytesToInt 把字节转为整数
-func BytesToInt[T gtypes.Integer](bytes []byte) T {
-	var r uint64
-	weight := 0
-	for _, x := range bytes {
-		r = r | (uint64(x) << weight)
-		weight += 8
-	}
-	return T(r)
+func DecodeFromBytes[T gtypes.Integer](bytes []byte) ([]T, error) {
+
 }
@@ -0,0 +1,11 @@
+package simple8b
+
+func EncodeByMode() {
+
+}
+
+func DecodeByMode() {
+
+}
+
+
@@ -0,0 +1,24 @@
+package simple8b
+
+import "github.com/golang-infrastructure/go-gtypes"
+
+// IntToBytes 把给定的整数的低n位转换为字节数组
+func IntToBytes[T gtypes.Integer](value T, blockSize int) []byte {
+	result := make([]byte, blockSize)
+	for index := range result {
+		byteValue := (uint64(0xFF) << index) & uint64(value)
+		result[index] = uint8(byteValue)
+	}
+	return result
+}
+
+// BytesToInt 把字节转为整数
+func BytesToInt[T gtypes.Integer](bytes []byte) T {
+	var r uint64
+	weight := 0
+	for _, x := range bytes {
+		r = r | (uint64(x) << weight)
+		weight += 8
+	}
+	return T(r)
+}
-Original file line number
+Diff line change
@@ @@ -0,0 +1,5 @@ @@
 +package simple8b
++
 +// 对simple8的扩展
++
++