Minor update Unicode data generating.

zufuliu · zufuliu · commit 6599d6f88d9a · 2025-02-25T18:37:12.000+08:00
diff --git a/scintilla/lexlib/CharacterCategory.h b/scintilla/lexlib/CharacterCategory.h
@@ -8,6 +8,7 @@
 
 namespace Lexilla {
 
+// General Category Values https://www.unicode.org/reports/tr44/#GC_Values_Table
 enum CharacterCategory {
 	ccLu, ccLl, ccLt, ccLm, ccLo,
 	ccMn, ccMc, ccMe,
diff --git a/scintilla/scripts/GenerateCaseConvert.py b/scintilla/scripts/GenerateCaseConvert.py
@@ -119,10 +119,13 @@ def updateCaseConvert():
 	rangeGroups, nonRanges = groupRanges(symmetrics)
 
 	print(len(rangeGroups), "ranges")
-	rangeLines = ["%d,%d,%d,%d," % x for x in rangeGroups]
+	rangeLines = []
+	for lower, upper, length, pitch in rangeGroups:
+		assert length < 256 and pitch < 256
+		rangeLines.append(f"0x{lower:04X}'{length:02X},0x{upper:04X}'{pitch:02X},")
 
 	print(len(nonRanges), "non ranges")
-	nonRangeLines = ["%d,%d," % x for x in nonRanges]
+	nonRangeLines = [f"{lower},{upper}," for lower, upper in nonRanges]
 
 	print(len(symmetrics), "symmetric")
 
diff --git a/scintilla/scripts/GenerateCharacterCategory.py b/scintilla/scripts/GenerateCharacterCategory.py
@@ -353,7 +353,7 @@ def updateCharClassifyTable(filename, headfile):
 		return static_cast<CharacterClass>(classifyMap[ch]);
 	}
 	if (ch >= maxUnicode) {
-		return CharacterClass::space; // Cn
+		return CharacterClass::space; // Co, Cn
 	}
 
 	ch -= sizeof(classifyMap);""".replace('maxUnicode', hex(tableSize)),
@@ -368,16 +368,36 @@ def updateCharClassifyTable(filename, headfile):
 	Regenerate(filename, "//", output)
 	Regenerate(headfile, "//", head_output)
 
+def readCharacterCategoryTable(categories):
+	# https://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt
+	version, propertyList = readUnicodePropertyFile('UnicodeData.txt', propertyIndex=2, firstLast=1)
+	indexTable = ['Cn'] * UnicodeCharacterCount
+	flattenUnicodePropertyTable(indexTable, propertyList)
+	diff = {}
+	for index, cc in enumerate(indexTable):
+		indexTable[index] = categories.index(cc)
+		category = unicodedata.category(chr(index))
+		if cc != category:
+			key = (cc, category)
+			if key in diff:
+				prev = diff[key]
+				start, end = prev[-1]
+				if index - end == 1:
+					prev[-1] = (start, index)
+				else:
+					prev.append((index, index))
+			else:
+				diff[key] = [(index, index)]
+	for key, rangeList in diff.items():
+		line = ', '.join(f'{start:04X}..{end:04X}' for start, end in rangeList)
+		print(f'{key[0]} => {key[1]}: {line}')
+	return indexTable
+
 def updateCharacterCategoryTable(filename):
 	categories = findCategories("../lexlib/CharacterCategory.h")
 	output = [f"// Created with Python {platform.python_version()}, Unicode {unicodedata.unidata_version}"]
 
-	# https://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt
-	# version, propertyList = readUnicodePropertyFile('UnicodeData.txt', propertyIndex=2)
-	# indexTable = ['Cn'] * UnicodeCharacterCount
-	# flattenUnicodePropertyTable(indexTable, propertyList)
-	# for index, cc in enumerate(indexTable):
-	# 	indexTable[index] = categories.index(cc)
+	# indexTable = readCharacterCategoryTable(categories)
 	defaultValue = categories.index('Cn')
 	indexTable = [defaultValue] * UnicodeCharacterCount
 	for ch in range(UnicodeCharacterCount):
diff --git a/scintilla/scripts/GenerateGraphemeBreak.py b/scintilla/scripts/GenerateGraphemeBreak.py
@@ -12,41 +12,39 @@ class GraphemeBreakProperty(IntEnum):
 	Other = 0
 	Control = 1
 	Extend = 2
-	RegionalIndicator = 3
+	ZeroWidthJoiner = 3
 	Prepend = 4
 	HangulL = 5
 	HangulV = 6
 	HangulT = 7
 	HangulLV = 8
 	HangulLVT = 9
 	ExtendedPictographic = 10
-	ZeroWidthJoiner = 11
+	RegionalIndicator = 11
 	# Indic_Conjunct_Break
 	ConjunctLinker = 12
 	LinkingConsonant = 13
-	ExtendConjunctLinker = 14
 	# merged property
-	SpacingMark = 15
-	CR = 16
-	LF = 17
+	SpacingMark = 14
+	CR = 15
+	LF = 16
 
 # https://www.unicode.org/reports/tr35/tr35-general.html#segmentations
 # https://github.com/unicode-org/cldr/blob/main/common/segments/root.xml
 # https://www.unicode.org/reports/tr51/#Emoji_Properties
 GraphemeBreakPropertyMap = GraphemeBreakProperty.__members__ | {
-	'Regional_Indicator': GraphemeBreakProperty.RegionalIndicator,
-	'RI': GraphemeBreakProperty.RegionalIndicator,
+	'ZWJ': GraphemeBreakProperty.ZeroWidthJoiner,
 	'L': GraphemeBreakProperty.HangulL,
 	'V': GraphemeBreakProperty.HangulV,
 	'T': GraphemeBreakProperty.HangulT,
 	'LV': GraphemeBreakProperty.HangulLV,
 	'LVT': GraphemeBreakProperty.HangulLVT,
 	'Extended_Pictographic': GraphemeBreakProperty.ExtendedPictographic,
 	'ExtPict': GraphemeBreakProperty.ExtendedPictographic,
-	'ZWJ': GraphemeBreakProperty.ZeroWidthJoiner,
+	'Regional_Indicator': GraphemeBreakProperty.RegionalIndicator,
+	'RI': GraphemeBreakProperty.RegionalIndicator,
 	'Consonant': GraphemeBreakProperty.LinkingConsonant,
 	'Virama': GraphemeBreakProperty.ConjunctLinker,
-	'ExtendLinker': GraphemeBreakProperty.ExtendConjunctLinker,
 }
 
 # https://www.unicode.org/reports/tr44/#Indic_Conjunct_Break
@@ -57,14 +55,15 @@ def updateIndicConjunctBreak(graphemeBreakTable):
 	flattenUnicodePropertyTable(indicConjunctBreak, propertyList)
 	defaultValue = int(GraphemeBreakProperty.Other)
 	extend = int(GraphemeBreakProperty.Extend)
-	extendLinker = int(GraphemeBreakProperty.ExtendConjunctLinker)
+	linker = int(GraphemeBreakProperty.ConjunctLinker)
 	for index, conjunct in enumerate(indicConjunctBreak):
 		grapheme = graphemeBreakTable[index]
 		if grapheme == defaultValue:
+			assert conjunct != 'Virama'
 			grapheme = int(GraphemeBreakPropertyMap.get(conjunct, grapheme))
 		elif grapheme == extend:
 			if conjunct == 'Virama':
-				grapheme = extendLinker
+				grapheme = linker
 		graphemeBreakTable[index] = grapheme
 
 graphemeClusterBoundary = [0x3ffff] * (max(GraphemeBreakProperty.__members__.values()) + 1)
@@ -73,22 +72,21 @@ def buildGraphemeClusterBoundary():
 	table = graphemeClusterBoundary
 
 	notBreak = {
-		'Other': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker'],
+		'Other': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker'],
 		'CR': ['LF'],
-		'Extend': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker'],
-		'RI': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'RI'],
-		'Prepend': ['Other', 'Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'RI', 'Prepend', 'L', 'V', 'T', 'LV', 'LVT', 'ExtPict', 'ConjunctLinker', 'Consonant'],
-		'SpacingMark': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker'],
-		'L': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'L', 'V', 'LV', 'LVT'],
-		'V': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'V', 'T'],
-		'T': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'T'],
-		'LV': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'V', 'T'],
-		'LVT': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'T'],
-		'ExtPict': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker'],
-		'ZWJ': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'ExtPict', 'Consonant'],
-		'ConjunctLinker': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'Consonant'],
-		'Consonant': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'ConjunctLinker'],
-		'ExtendLinker': ['Extend', 'SpacingMark', 'ZWJ', 'ExtendLinker', 'Consonant'],
+		'Extend': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker'],
+		'ZWJ': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'ExtPict', 'Consonant'],
+		'Prepend': ['Other', 'Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'RI', 'Prepend', 'L', 'V', 'T', 'LV', 'LVT', 'ExtPict', 'Consonant'],
+		'SpacingMark': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker'],
+		'L': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'L', 'V', 'LV', 'LVT'],
+		'V': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'V', 'T'],
+		'T': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'T'],
+		'LV': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'V', 'T'],
+		'LVT': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'T'],
+		'ExtPict': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker'],
+		'RI': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'RI'],
+		'ConjunctLinker': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker', 'Consonant'],
+		'Consonant': ['Extend', 'SpacingMark', 'ZWJ', 'ConjunctLinker'],
 	}
 
 	for key, row in notBreak.items():
diff --git a/scintilla/scripts/UnicodeData.py b/scintilla/scripts/UnicodeData.py
@@ -22,11 +22,12 @@ def getCharacterName(ch):
 	except ValueError:
 		return ''
 
-def readUnicodePropertyFile(path, propertyIndex=1):
+def readUnicodePropertyFile(path, propertyIndex=1, firstLast=None):
 	filename, ext = os.path.splitext(os.path.basename(path))
 	version = ''
 	propertyList = {}
 	missingList = {}
+	prevLine = []
 	with open(path, encoding='utf-8') as fd:
 		for line in fd.readlines():
 			line = line.strip()
@@ -56,10 +57,21 @@ def readUnicodePropertyFile(path, propertyIndex=1):
 				missingList[propertyName] = (code, value)
 			else:
 				propertyName = items[propertyIndex].strip()
-				if propertyName in propertyList:
-					propertyList[propertyName].append(code)
-				else:
-					propertyList[propertyName] = [code]
+				if firstLast:
+					last = items[firstLast].strip()
+					if last.endswith('Last>'):
+						first = prevLine[firstLast].strip()
+						prop = prevLine[propertyIndex].strip()
+						assert first.endswith('First>')
+						assert propertyName == prop and len(code) == 1
+						propertyList[propertyName][-1].append(code[0])
+						propertyName = None
+				if propertyName is not None:
+					if propertyName in propertyList:
+						propertyList[propertyName].append(code)
+					else:
+						propertyList[propertyName] = [code]
+			prevLine = items
 
 	print(path, version, 'property:', ', '.join(sorted(propertyList.keys())))
 	return version, propertyList
diff --git a/scintilla/src/CaseConvert.cxx b/scintilla/src/CaseConvert.cxx
@@ -31,63 +31,63 @@ namespace {
 // Another pattern (pitch==2) is where each lower case letter is preceded by
 // the upper case form. These are also grouped into ranges.
 
-constexpr int symmetricCaseConversionRanges[] = {
-//lower, upper, range length, range pitch
+constexpr unsigned int symmetricCaseConversionRanges[] = {
+//(lower << 8, range length), (upper << 8, range pitch)
 //++Autogenerated -- start of section automatically generated
 //**\(\*\n\)
-97,65,26,1,
-224,192,23,1,
-248,216,7,1,
-257,256,24,2,
-314,313,8,2,
-331,330,23,2,
-462,461,8,2,
-479,478,9,2,
-505,504,20,2,
-547,546,9,2,
-583,582,5,2,
-945,913,17,1,
-963,931,9,1,
-985,984,12,2,
-1072,1040,32,1,
-1104,1024,16,1,
-1121,1120,17,2,
-1163,1162,27,2,
-1218,1217,7,2,
-1233,1232,48,2,
-1377,1329,38,1,
-4304,7312,43,1,
-7681,7680,75,2,
-7841,7840,48,2,
-7936,7944,8,1,
-7952,7960,6,1,
-7968,7976,8,1,
-7984,7992,8,1,
-8000,8008,6,1,
-8032,8040,8,1,
-8560,8544,16,1,
-9424,9398,26,1,
-11312,11264,48,1,
-11393,11392,50,2,
-11520,4256,38,1,
-42561,42560,23,2,
-42625,42624,14,2,
-42787,42786,7,2,
-42803,42802,31,2,
-42879,42878,5,2,
-42903,42902,10,2,
-42933,42932,8,2,
-65345,65313,26,1,
-66600,66560,40,1,
-66776,66736,36,1,
-66967,66928,11,1,
-66979,66940,15,1,
-66995,66956,7,1,
-68800,68736,51,1,
-68976,68944,22,1,
-71872,71840,32,1,
-93792,93760,32,1,
-125218,125184,34,1,
+0x0061'1A,0x0041'01,
+0x00E0'17,0x00C0'01,
+0x00F8'07,0x00D8'01,
+0x0101'18,0x0100'02,
+0x013A'08,0x0139'02,
+0x014B'17,0x014A'02,
+0x01CE'08,0x01CD'02,
+0x01DF'09,0x01DE'02,
+0x01F9'14,0x01F8'02,
+0x0223'09,0x0222'02,
+0x0247'05,0x0246'02,
+0x03B1'11,0x0391'01,
+0x03C3'09,0x03A3'01,
+0x03D9'0C,0x03D8'02,
+0x0430'20,0x0410'01,
+0x0450'10,0x0400'01,
+0x0461'11,0x0460'02,
+0x048B'1B,0x048A'02,
+0x04C2'07,0x04C1'02,
+0x04D1'30,0x04D0'02,
+0x0561'26,0x0531'01,
+0x10D0'2B,0x1C90'01,
+0x1E01'4B,0x1E00'02,
+0x1EA1'30,0x1EA0'02,
+0x1F00'08,0x1F08'01,
+0x1F10'06,0x1F18'01,
+0x1F20'08,0x1F28'01,
+0x1F30'08,0x1F38'01,
+0x1F40'06,0x1F48'01,
+0x1F60'08,0x1F68'01,
+0x2170'10,0x2160'01,
+0x24D0'1A,0x24B6'01,
+0x2C30'30,0x2C00'01,
+0x2C81'32,0x2C80'02,
+0x2D00'26,0x10A0'01,
+0xA641'17,0xA640'02,
+0xA681'0E,0xA680'02,
+0xA723'07,0xA722'02,
+0xA733'1F,0xA732'02,
+0xA77F'05,0xA77E'02,
+0xA797'0A,0xA796'02,
+0xA7B5'08,0xA7B4'02,
+0xFF41'1A,0xFF21'01,
+0x10428'28,0x10400'01,
+0x104D8'24,0x104B0'01,
+0x10597'0B,0x10570'01,
+0x105A3'0F,0x1057C'01,
+0x105B3'07,0x1058C'01,
+0x10CC0'33,0x10C80'01,
+0x10D70'16,0x10D50'01,
+0x118C0'20,0x118A0'01,
+0x16E60'20,0x16E40'01,
+0x1E922'22,0x1E900'01,
 
 //--Autogenerated -- end of section automatically generated
 };
@@ -697,19 +697,21 @@ void CaseConverter::AddSymmetric(CaseConversion conversion, int lower, int upper
 
 void CaseConverter::SetupConversions(CaseConversion conversion) {
 	// First initialize for the symmetric ranges
-	for (size_t i = 0; i < std::size(symmetricCaseConversionRanges);) {
-		const int lower = symmetricCaseConversionRanges[i++];
-		const int upper = symmetricCaseConversionRanges[i++];
-		const int length = symmetricCaseConversionRanges[i++];
-		const int pitch = symmetricCaseConversionRanges[i++];
-		for (int j = 0; j < length*pitch; j += pitch) {
+	for (size_t i = 0; i < std::size(symmetricCaseConversionRanges); i += 2) {
+		unsigned int lower = symmetricCaseConversionRanges[i];
+		unsigned int upper = symmetricCaseConversionRanges[i + 1];
+		const int pitch = upper & 0xff;
+		const int length = (lower & 0xff)*pitch;
+		lower >>= 8;
+		upper >>= 8;
+		for (int j = 0; j < length; j += pitch) {
 			AddSymmetric(conversion, lower + j, upper + j);
 		}
 	}
 	// Add the symmetric singletons
-	for (size_t i = 0; i < std::size(symmetricCaseConversions);) {
-		const int lower = symmetricCaseConversions[i++];
-		const int upper = symmetricCaseConversions[i++];
+	for (size_t i = 0; i < std::size(symmetricCaseConversions); i += 2) {
+		const int lower = symmetricCaseConversions[i];
+		const int upper = symmetricCaseConversions[i + 1];
 		AddSymmetric(conversion, lower, upper);
 	}
 	// Add the complex cases
diff --git a/scintilla/src/CharClassify.cxx b/scintilla/src/CharClassify.cxx
diff --git a/scintilla/src/CharClassify.h b/scintilla/src/CharClassify.h