charset: common unicode cell formatting function
authorMischa POSLAWSKY <perl@shiar.org>
Mon, 27 Mar 2017 19:51:42 +0000 (21:51 +0200)
committerMischa POSLAWSKY <perl@shiar.org>
Wed, 29 Mar 2017 11:51:16 +0000 (13:51 +0200)
Convert data to generic [size, class, name, title] to allow different
layouts without hardcoded table properties, while simplifying entry and
automating styling of continued rows.

base.css
charset-unicode.inc.pl
charset.plp

index 179b2ec2c63f750ef5a6372e45c14740cca72c79..50b92d85e1f33d7983b4e5fa4dfadc1a478ffee6 100644 (file)
--- a/base.css
+++ b/base.css
@@ -235,7 +235,7 @@ td.joinl {
        font-size: 200%;
 }
 .glyphs .glyphs {
-       margin: 0.5ex 0;
+       margin: 0.5ex 0; /* nested in legend */
 }
 .glyphs .glyphs td {
        font-size: 100%;
index a0717a7a8ecded5449b4ed3b0aef47a56b28e6d0..6709e844e485a97211e4121bfa775552a006d42b 100644 (file)
 use utf8;
-my %uniblock = (
++{
        # bmp
-       0x000, '<td colspan="2" class="X Cc joinr">control',
-       0x002, '<td colspan="2" class="X L Po joinl joinr">comn',
-       0x004, '<td colspan="4" class="X L Latin joinl">basic latin',
-       0x008, '<td colspan="2" class="X Cc joinr">control',
-       0x00A, '<td colspan="2" class="X L So joinl joinr">comn',
-       0x00C, '<td colspan="4" class="X L Latin joinl">latin1',
-       0x010, '<td colspan="8" class="X L Latin">latin extended-A',
-       0x018, '<td colspan="8" class="X L Latin">latin extended-B',
-       0x020, '<td colspan="5" class="X L Latin">latin ext-B',
-       0x025, '<td colspan="6" class="X L Latin">IPA',
-       0x02B, '<td colspan="5" class="X Sk">spacing modifier',
-       0x030, '<td colspan="8" class="X Mn">diacritics',
-       0x038, '<td colspan="8" class="X L Greek">greek',
-       0x040, '<td colspan="16" class="X L Cyrillic">cyrillic',
-       0x050, '<td colspan="3" class="X L Cyrillic">cyrillic+',
-       0x053, '<td colspan="5" class="X L Armenian">armenian',
-       0x058, '<td colspan="8" class="X L Hebrew">hebrew',
-       0x060, '<td colspan="16" class="X L Arabic">arabic',
-       0x070, '<td colspan="5" class="X L Aramaic">syriac',
-       0x075, '<td colspan="3" class="X L Arabic">arabic+',
-       0x078, '<td colspan="4" class="X L African">thaana',
-       0x07C, '<td colspan="4" class="X L African">n\'ko',
-       0x080, '<td colspan="4" class="X L Hebrew">samaritan',
-       0x084, '<td colspan="2" class="X L Aramaic">manda',
-       0x086, '<td colspan="1" class="X Xr L Aramaic">syr',
-       0x087, '<td colspan="3" class="">reserved',
-       0x08A, '<td colspan="6" class="X L Arabic">arabic ext-A',
-       0x090, '<td colspan="8" class="X L Brahmic">devanagari',
-       0x098, '<td colspan="8" class="X L Brahmic">bengali',
-       0x0A0, '<td colspan="8" class="X L Brahmic">gurmukhi',
-       0x0A8, '<td colspan="8" class="X L Brahmic">gujarati',
-       0x0B0, '<td colspan="8" class="X L Brahmic">oriya',
-       0x0B8, '<td colspan="8" class="X L Brahmic">tamil',
-       0x0C0, '<td colspan="8" class="X L Brahmic">telugu',
-       0x0C8, '<td colspan="8" class="X L Brahmic">kannada',
-       0x0D0, '<td colspan="8" class="X L Brahmic">malayalam',
-       0x0D8, '<td colspan="8" class="X L Brahmic">sinhala',
-       0x0E0, '<td colspan="8" class="X L Brahmic Khmer">thai',
-       0x0E8, '<td colspan="8" class="X L Brahmic Khmer">lao',
-       0x0F0, '<td colspan="16" class="X L Brahmic">tibetan',
-       0x100, '<td colspan="10" class="X L Brahmic">myanmar',
-       0x10A, '<td colspan="6" class="X L Aramaic">georgian',
-       0x110, '<td colspan="16" class="X L Hangul">hangeul jamo',
-       0x120, '<td colspan="16" class="X L African">ethiopic',
-       0x130, '<td colspan="8" class="X L African">ethiopic',
-       0x138, '<td colspan="2" class="X L African">eth+',
-       0x13A, '<td colspan="6" class="X L Syllabic">cherokee',
-       0x140, '<td colspan="16" rowspan="2" class="X L Syllabic">unified canadian aboriginal syllabics',
-       0x160, '<td colspan="8" class="X L Syllabic">unified canadian syllabics',
-       0x168, '<td colspan="2" class="X L Alpha">ogham',
-       0x16A, '<td colspan="6" class="X L Alpha">runic',
-       0x170, '<td colspan="2" class="X L Brahmic">tagalog',
-       0x172, '<td colspan="2" class="X L Brahmic">hanun',
-       0x174, '<td colspan="2" class="X L Brahmic">buhid',
-       0x176, '<td colspan="2" class="X L Brahmic" title="tagbanwa">tagb',
-       0x178, '<td colspan="8" class="X L Brahmic Khmer">khmer',
-       0x180, '<td colspan="11" class="X L Aramaic">mongolian',
-       0x18B, '<td colspan="5" class="X L Syllabic">canadian+',
-       0x190, '<td colspan="5" class="X L Brahmic">limbu',
-       0x195, '<td colspan="3" class="X L Brahmic">tai le',
-       0x198, '<td colspan="6" class="X L Brahmic">new tai lue',
-       0x19E, '<td colspan="2" class="X L Brahmic Khmer" title="khmer symbols">khmer',
-       0x1A0, '<td colspan="2" class="X L Brahmic">lontara',
-       0x1A2, '<td colspan="9" class="X L Brahmic">tai tham',
-       0x1AB, '<td colspan="5" class="X Mn">diacritics+',
-       0x1B0, '<td colspan="8" class="X L Brahmic">balinese',
-       0x1B8, '<td colspan="4" class="X L Brahmic">sundanese',
-       0x1BC, '<td colspan="4" class="X L Brahmic">batak',
-       0x1C0, '<td colspan="5" class="X L Brahmic">lepcha',
-       0x1C5, '<td colspan="3" class="X L Alpha">ol chiki',
-       0x1C8, '<td colspan="1" class="X L Cyrillic">cyr',
-       0x1C9, '<td colspan="3" class="X Xr L Aramaic">georg+',
-       0x1CC, '<td colspan="1" class="X L Brahmic">sn',
-       0x1CD, '<td colspan="3" class="X L Brahmic">vedic',
-       0x1D0, '<td colspan="8" class="X L Latin">phonetic',
-       0x1D8, '<td colspan="4" class="X L Latin">phonetic+',
-       0x1DC, '<td colspan="4" class="X Mn">diacritics+',
-       0x1E0, '<td colspan="16" class="X L Latin">latin extended additional',
-       0x1F0, '<td colspan="16" class="X L Greek">greek+',
-       0x200, '<td colspan="7" class="X Po">general punctuation',
-       0x207, '<td colspan="3" class="X L Latin">suþscript', # suth now means "sub and/or sup"
-       0x20A, '<td colspan="3" class="X Sc">currency',
-       0x20D, '<td colspan="3" class="X Mn">overlay',
-       0x210, '<td colspan="5" class="X So">letterlike',
-       0x215, '<td colspan="4" class="X Latin">number',
-       0x219, '<td colspan="7" class="X So">arrows',
-       0x220, '<td colspan="16" class="X Sm">mathematical symbols',
-       0x230, '<td colspan="16" class="X So">miscellaneous technical',
-       0x240, '<td colspan="4" class="X So">control',
-       0x244, '<td colspan="2" class="X So">OCR',
-       0x246, '<td colspan="10" class="X Latin">enclosed alphanumerics',
-       0x250, '<td colspan="8" class="X So">box drawing',
-       0x258, '<td colspan="2" class="X So">blocks',
-       0x25A, '<td colspan="6" class="X So">geometric shapes',
-       0x260, '<td colspan="16" class="X So">miscellaneous symbols',
-       0x270, '<td colspan="12" class="X So">dingbats',
-       0x27C, '<td colspan="3" class="X Sm">maths-A',
-       0x27F, '<td colspan="1" class="X So" title="supplemental arrows-A">arr',
-       0x280, '<td colspan="16" class="X L Alpha">braille',
-       0x290, '<td colspan="8" class="X So">supplemental arrows-B',
-       0x298, '<td colspan="8" class="X Sm">mathematical symbols-B',
-       0x2A0, '<td colspan="16" class="X Sm">supplemental mathematical operators',
-       0x2B0, '<td colspan="16" class="X So">miscellaneous symbols and arrows',
-       0x2C0, '<td colspan="6" class="X L Cyrillic">glagolitic',
-       0x2C6, '<td colspan="2" class="X L Latin">latin-C',
-       0x2C8, '<td colspan="8" class="X L Greek">coptic',
-       0x2D0, '<td colspan="3" class="X L Aramaic">georgian+',
-       0x2D3, '<td colspan="5" class="X L Alpha">tifinagh', #TODO: proto-canaanite
-       0x2D8, '<td colspan="6" class="X L African">ethiopic+',
-       0x2DE, '<td colspan="2" class="X L Cyrillic">cyrl-A',
-       0x2E0, '<td colspan="8" class="X Po">punctuation+',
-       0x2E8, '<td colspan="8" class="X L Han">cjk radicals',
-       0x2F0, '<td colspan="14" class="X L Han">kangxi radicals',
-       0x2FE, '<td colspan="1" class="">',
-       0x2FF, '<td colspan="1" class="X So Han">idc',
-       0x300, '<td colspan="4" class="X Po Han">cjk misc',
-       0x304, '<td colspan="6" class="X L Hiragana">hiragana',
-       0x30A, '<td colspan="6" class="X L Katakana">katakana',
-       0x310, '<td colspan="3" class="X L Bopomofo">bopomofo',
-       0x313, '<td colspan="6" class="X L Katakana">hangeul compat',
-       0x319, '<td colspan="1" class="X L Han" title="kanbun">kbn',
-       0x31A, '<td colspan="2" class="X L Bopomofo" title="bopomofo extended">bpmf',
-       0x31C, '<td colspan="3" class="X L Han" title="CJK strokes">strokes',
-       0x31F, '<td colspan="1" class="X L Katakana" title="katakana phonetic extensions">k+',
-       0x320, '<td colspan="16" class="X L Han">enclosed cjk characters',
-       0x330, '<td colspan="16" class="X Xd L Han">cjk compatibility',
-       0x340, '<td colspan="16" rowspan="25" class="X L Han">cjk unified ideographs extension A',
-       0x4D0, '<td colspan="12" class="X L Han joinu">cjk unified ideographs extension A',
-       0x4DC, '<td colspan="4" class="X So">hexagrams',
-       0x4E0, '<td colspan="16" rowspan="82" class="X L Han">cjk unified ideographs',
-       0xA00, '<td colspan="16" rowspan="4" class="X L Syllabic">yi',
-       0xA40, '<td colspan="9" class="X L Syllabic joinu">yi',
-       0xA49, '<td colspan="4" class="X L Syllabic">yi radicals',
-       0xA4D, '<td colspan="3" class="X L Latin">lisu',
-       0xA50, '<td colspan="16" class="X L Syllabic">vai',
-       0xA60, '<td colspan="4" class="X L Syllabic joinu">vai',
-       0xA64, '<td colspan="6" class="X L Cyrillic">cyrillic extended-B',
-       0xA6A, '<td colspan="6" class="X L Syllabic">bamum',
-       0xA70, '<td colspan="2" class="X L Mn">tones',
-       0xA72, '<td colspan="14" class="X L Latin">latin extended-D',
-       0xA80, '<td colspan="3" class="X L Brahmic">sylheti',
-       0xA83, '<td colspan="1" class="X No">in',
-       0xA84, '<td colspan="4" class="X L Brahmic">phags-pa',
-       0xA88, '<td colspan="6" class="X L Brahmic">saurashtra',
-       0xA8E, '<td colspan="2" class="X L Brahmic">deva+',
-       0xA90, '<td colspan="3" class="X L Brahmic">kayah li',
-       0xA93, '<td colspan="3" class="X L Brahmic">rejang',
-       0xA96, '<td colspan="2" class="X L Hangul">jamo-A',
-       0xA98, '<td colspan="6" class="X L Brahmic">javanese',
-       0xA9E, '<td colspan="2" class="X L Brahmic" title="myanmar extended-B">mm-B',
-       0xAA0, '<td colspan="6" class="X L Brahmic">cham',
-       0xAA6, '<td colspan="2" class="X L Brahmic" title="myanmar extended-A">mm-A',
-       0xAA8, '<td colspan="6" class="X L Brahmic Khmer">tai viet',
-       0xAAE, '<td colspan="2" class="X L Brahmic" title="meetei mayek extended">mtei+',
-       0xAB0, '<td colspan="3" class="X L African">ethiopic-A',
-       0xAB3, '<td colspan="4" class="X L Latin">latin ext-E',
-       0xAB7, '<td colspan="5" class="X L Syllabic">cherokee+',
-       0xABC, '<td colspan="4" class="X L Brahmic" title="meetai mayek">meithei',
-       0xAC0, '<td colspan="16" rowspan="43" class="X L Hangul">hangeul syllables',
-       0xD70, '<td colspan="11" class="X L Hangul joinu">hangeul syllables',
-       0xD7B, '<td colspan="5" class="X L Hangul">haungeul jamo-B',
-       0xD80, '<td colspan="16" rowspan="4" class="X Cs">high surrogates',
-       0xDC0, '<td colspan="16" rowspan="4" class="X Cs">low surrogates',
-       0xE00, '<td colspan="16" rowspan="25" class="X Co">private use',
-       0xF90, '<td colspan="16" rowspan="2" class="X L Han">cjk compatibility ideographs',
-       0xFB0, '<td colspan="5" class="X Xd L Alpha">presentation',
-       0xFB5, '<td colspan="11" class="X Xd L Arabic joind">',
-       0xFC0, '<td colspan="16" class="X Xd L Arabic joinu joind">arabic presentation forms A',
-       0xFD0, '<td colspan="13" class="X Xd L Arabic joinu">',
-       0xFDD, '<td colspan="2" class="Xi">?',
-       0xFDF, '<td colspan="1" class="X Xd L Arabic joinu">',
-       0xFE0, '<td colspan="1" class="X Cc">var',
-       0xFE1, '<td colspan="1" class="X L Pd">ver',
-       0xFE2, '<td colspan="1" class="X L Mn">½',
-       0xFE3, '<td colspan="2" class="X Xd Pd Han">comp',
-       0xFE5, '<td colspan="2" class="X Xd L Latin">small',
-       0xFE7, '<td colspan="9" class="X Xd L Arabic">arabic presentation B',
-       0xFF0, '<td colspan="15" class="X L Latin">halfwidth &amp; fullwidth forms',
-       0xFFF, '<td colspan="1" class="X Cc">sp',
+       0x0000 => [0x02, 'X Cc joinr',         'control'],
+       0x0002 => [0x02, 'X L Po joinl joinr', 'comn'],
+       0x0004 => [0x04, 'X L Latin joinl',    'basic latin'],
+       0x0008 => [0x02, 'X Cc joinr',         'control'],
+       0x000A => [0x02, 'X L So joinl joinr', 'comn'],
+       0x000C => [0x04, 'X L Latin joinl',    'latin1'],
+       0x0010 => [0x08, 'X L Latin',          'latin extended-A'],
+       0x0018 => [0x08, 'X L Latin',          'latin extended-B'],
+       0x0020 => [0x05, 'X L Latin',          'latin ext-B'],
+       0x0025 => [0x06, 'X L Latin',          'IPA'],
+       0x002B => [0x05, 'X Sk',               'spacing modifier'],
+       0x0030 => [0x08, 'X Mn',               'diacritics'],
+       0x0038 => [0x08, 'X L Greek',          'greek'],
+       0x0040 => [0x10, 'X L Cyrillic',       'cyrillic'],
+       0x0050 => [0x03, 'X L Cyrillic',       'cyrillic+'],
+       0x0053 => [0x05, 'X L Armenian',       'armenian'],
+       0x0058 => [0x08, 'X L Hebrew',         'hebrew'],
+       0x0060 => [0x10, 'X L Arabic',         'arabic'],
+       0x0070 => [0x05, 'X L Aramaic',        'syriac'],
+       0x0075 => [0x03, 'X L Arabic',         'arabic+'],
+       0x0078 => [0x04, 'X L African',        'thaana'],
+       0x007C => [0x04, 'X L African',        'n\'ko'],
+       0x0080 => [0x04, 'X L Hebrew',         'samaritan'],
+       0x0084 => [0x02, 'X L Aramaic',        'manda'],
+       0x0086 => [0x01, 'X Xr L Aramaic',     'syr'],
+       0x0087 => [0x03],
+       0x008A => [0x06, 'X L Arabic',         'arabic ext-A'],
+       0x0090 => [0x08, 'X L Brahmic',        'devanagari'],
+       0x0098 => [0x08, 'X L Brahmic',        'bengali'],
+       0x00A0 => [0x08, 'X L Brahmic',        'gurmukhi'],
+       0x00A8 => [0x08, 'X L Brahmic',        'gujarati'],
+       0x00B0 => [0x08, 'X L Brahmic',        'oriya'],
+       0x00B8 => [0x08, 'X L Brahmic',        'tamil'],
+       0x00C0 => [0x08, 'X L Brahmic',        'telugu'],
+       0x00C8 => [0x08, 'X L Brahmic',        'kannada'],
+       0x00D0 => [0x08, 'X L Brahmic',        'malayalam'],
+       0x00D8 => [0x08, 'X L Brahmic',        'sinhala'],
+       0x00E0 => [0x08, 'X L Brahmic Khmer',  'thai'],
+       0x00E8 => [0x08, 'X L Brahmic Khmer',  'lao'],
+       0x00F0 => [0x10, 'X L Brahmic',        'tibetan'],
+       0x0100 => [0x0A, 'X L Brahmic',        'myanmar'],
+       0x010A => [0x06, 'X L Aramaic',        'georgian'],
+       0x0110 => [0x10, 'X L Hangul',         'hangeul jamo'],
+       0x0120 => [0x10, 'X L African',        'ethiopic'],
+       0x0130 => [0x08, 'X L African',        'ethiopic'],
+       0x0138 => [0x02, 'X L African',        'eth+'],
+       0x013A => [0x06, 'X L Syllabic',       'cherokee'],
+       0x0140 => [0x20, 'X L Syllabic',       'unified canadian aboriginal syllabics'],
+       0x0160 => [0x08, 'X L Syllabic',       'unified canadian syllabics'],
+       0x0168 => [0x02, 'X L Alpha',          'ogham'],
+       0x016A => [0x06, 'X L Alpha',          'runic'],
+       0x0170 => [0x02, 'X L Brahmic',        'tagalog'],
+       0x0172 => [0x02, 'X L Brahmic',        'hanun'],
+       0x0174 => [0x02, 'X L Brahmic',        'buhid'],
+       0x0176 => [0x02, 'X L Brahmic',        'tagb', 'tagbanwa'],
+       0x0178 => [0x08, 'X L Brahmic Khmer',  'khmer'],
+       0x0180 => [0x0B, 'X L Aramaic',        'mongolian'],
+       0x018B => [0x05, 'X L Syllabic',       'canadian+'],
+       0x0190 => [0x05, 'X L Brahmic',        'limbu'],
+       0x0195 => [0x03, 'X L Brahmic',        'tai le'],
+       0x0198 => [0x06, 'X L Brahmic',        'new tai lue'],
+       0x019E => [0x02, 'X L Brahmic Khmer',  'khmer', 'khmer symbols'],
+       0x01A0 => [0x02, 'X L Brahmic',        'lontara'],
+       0x01A2 => [0x09, 'X L Brahmic',        'tai tham'],
+       0x01AB => [0x05, 'X Mn',               'diacritics+'],
+       0x01B0 => [0x08, 'X L Brahmic',        'balinese'],
+       0x01B8 => [0x04, 'X L Brahmic',        'sundanese'],
+       0x01BC => [0x04, 'X L Brahmic',        'batak'],
+       0x01C0 => [0x05, 'X L Brahmic',        'lepcha'],
+       0x01C5 => [0x03, 'X L Alpha',          'ol chiki'],
+       0x01C8 => [0x01, 'X L Cyrillic',       'cyr'],
+       0x01C9 => [0x03, 'X Xr L Aramaic',     'georg+'],
+       0x01CC => [0x01, 'X L Brahmic',        'sn'],
+       0x01CD => [0x03, 'X L Brahmic',        'vedic'],
+       0x01D0 => [0x08, 'X L Latin',          'phonetic'],
+       0x01D8 => [0x04, 'X L Latin',          'phonetic+'],
+       0x01DC => [0x04, 'X Mn',               'diacritics+'],
+       0x01E0 => [0x10, 'X L Latin',          'latin extended additional'],
+       0x01F0 => [0x10, 'X L Greek',          'greek+'],
+       0x0200 => [0x07, 'X Po',               'general punctuation'],
+       0x0207 => [0x03, 'X L Latin',          'suþscript'], # suth now means "sub and/or sup"
+       0x020A => [0x03, 'X Sc',               'currency'],
+       0x020D => [0x03, 'X Mn',               'overlay'],
+       0x0210 => [0x05, 'X So',               'letterlike'],
+       0x0215 => [0x04, 'X Latin',            'number'],
+       0x0219 => [0x07, 'X So',               'arrows'],
+       0x0220 => [0x10, 'X Sm',               'mathematical symbols'],
+       0x0230 => [0x10, 'X So',               'miscellaneous technical'],
+       0x0240 => [0x04, 'X So',               'control'],
+       0x0244 => [0x02, 'X So',               'OCR'],
+       0x0246 => [0x0A, 'X Latin',            'enclosed alphanumerics'],
+       0x0250 => [0x08, 'X So',               'box drawing'],
+       0x0258 => [0x02, 'X So',               'blocks'],
+       0x025A => [0x06, 'X So',               'geometric shapes'],
+       0x0260 => [0x10, 'X So',               'miscellaneous symbols'],
+       0x0270 => [0x0C, 'X So',               'dingbats'],
+       0x027C => [0x03, 'X Sm',               'maths-A'],
+       0x027F => [0x01, 'X So',               'arr', 'supplemental arrows-A'],
+       0x0280 => [0x10, 'X L Alpha',          'braille'],
+       0x0290 => [0x08, 'X So',               'supplemental arrows-B'],
+       0x0298 => [0x08, 'X Sm',               'mathematical symbols-B'],
+       0x02A0 => [0x10, 'X Sm',               'supplemental mathematical operators'],
+       0x02B0 => [0x10, 'X So',               'miscellaneous symbols and arrows'],
+       0x02C0 => [0x06, 'X L Cyrillic',       'glagolitic'],
+       0x02C6 => [0x02, 'X L Latin',          'latin-C'],
+       0x02C8 => [0x08, 'X L Greek',          'coptic'],
+       0x02D0 => [0x03, 'X L Aramaic',        'georgian+'],
+       0x02D3 => [0x05, 'X L Alpha',          'tifinagh'], #TODO: proto-canaanite
+       0x02D8 => [0x06, 'X L African',        'ethiopic+'],
+       0x02DE => [0x02, 'X L Cyrillic',       'cyrl-A'],
+       0x02E0 => [0x08, 'X Po',               'punctuation+'],
+       0x02E8 => [0x08, 'X L Han',            'cjk radicals'],
+       0x02F0 => [0x0E, 'X L Han',            'kangxi radicals'],
+       0x02FE => [0x01],
+       0x02FF => [0x01, 'X So Han',           'idc'],
+       0x0300 => [0x04, 'X Po Han',           'cjk misc'],
+       0x0304 => [0x06, 'X L Hiragana',       'hiragana'],
+       0x030A => [0x06, 'X L Katakana',       'katakana'],
+       0x0310 => [0x03, 'X L Bopomofo',       'bopomofo'],
+       0x0313 => [0x06, 'X L Katakana',       'hangeul compat'],
+       0x0319 => [0x01, 'X L Han',            'kbn', 'kanbun'],
+       0x031A => [0x02, 'X L Bopomofo',       'bpmf', 'bopomofo extended'],
+       0x031C => [0x03, 'X L Han',            'strokes', 'CJK strokes'],
+       0x031F => [0x01, 'X L Katakana',       'k+', 'katakana phonetic extensions'],
+       0x0320 => [0x10, 'X L Han',            'enclosed cjk characters'],
+       0x0330 => [0x10, 'X Xd L Han',         'cjk compatibility'],
+       0x0340 => [0x19C,'X L Han',            'cjk unified ideographs extension A'],
+       0x04DC => [0x04, 'X So',               'hexagrams'],
+       0x04E0 => [0x520,'X L Han',            'cjk unified ideographs'],
+       0x0A00 => [0x49, 'X L Syllabic',       'yi'],
+       0x0A49 => [0x04, 'X L Syllabic',       'yi radicals'],
+       0x0A4D => [0x03, 'X L Latin',          'lisu'],
+       0x0A50 => [0x14, 'X L Syllabic',       'vai'],
+       0x0A64 => [0x06, 'X L Cyrillic',       'cyrillic extended-B'],
+       0x0A6A => [0x06, 'X L Syllabic',       'bamum'],
+       0x0A70 => [0x02, 'X L Mn',             'tones'],
+       0x0A72 => [0x0E, 'X L Latin',          'latin extended-D'],
+       0x0A80 => [0x03, 'X L Brahmic',        'sylheti'],
+       0x0A83 => [0x01, 'X No',               'in'],
+       0x0A84 => [0x04, 'X L Brahmic',        'phags-pa'],
+       0x0A88 => [0x06, 'X L Brahmic',        'saurashtra'],
+       0x0A8E => [0x02, 'X L Brahmic',        'deva+'],
+       0x0A90 => [0x03, 'X L Brahmic',        'kayah li'],
+       0x0A93 => [0x03, 'X L Brahmic',        'rejang'],
+       0x0A96 => [0x02, 'X L Hangul',         'jamo-A'],
+       0x0A98 => [0x06, 'X L Brahmic',        'javanese'],
+       0x0A9E => [0x02, 'X L Brahmic',        'mm-B', 'myanmar extended-B'],
+       0x0AA0 => [0x06, 'X L Brahmic',        'cham'],
+       0x0AA6 => [0x02, 'X L Brahmic',        'mm-A', 'myanmar extended-A'],
+       0x0AA8 => [0x06, 'X L Brahmic Khmer',  'tai viet'],
+       0x0AAE => [0x02, 'X L Brahmic',        'mtei+', 'meetei mayek extended'],
+       0x0AB0 => [0x03, 'X L African',        'ethiopic-A'],
+       0x0AB3 => [0x04, 'X L Latin',          'latin ext-E'],
+       0x0AB7 => [0x05, 'X L Syllabic',       'cherokee+'],
+       0x0ABC => [0x04, 'X L Brahmic',        'meithei', 'meetai mayek'],
+       0x0AC0 => [0x2BB,'X L Hangul',         'hangeul syllables'],
+       0x0D7B => [0x05, 'X L Hangul',         'haungeul jamo-B'],
+       0x0D80 => [0x40, 'X Cs',               'high surrogates'],
+       0x0DC0 => [0x40, 'X Cs',               'low surrogates'],
+       0x0E00 => [0x190,'X Co',               'private use'],
+       0x0F90 => [0x20, 'X L Han',            'cjk compatibility ideographs'],
+       0x0FB0 => [0x05, 'X Xd L Alpha',       'presentation'],
+       0x0FB5 => [0x28, 'X Xd L Arabic',      'arabic presentation forms A'],
+       0x0FDD => [0x02, 'Xi',                 '?'],
+       0x0FDF => [0x01, 'X Xd L Arabic joinu', ''], # continue after brief intermission
+       0x0FE0 => [0x01, 'X Cc',               'var'],
+       0x0FE1 => [0x01, 'X L Pd',             'ver'],
+       0x0FE2 => [0x01, 'X L Mn',             '½'],
+       0x0FE3 => [0x02, 'X Xd Pd Han',        'comp'],
+       0x0FE5 => [0x02, 'X Xd L Latin',       'small'],
+       0x0FE7 => [0x09, 'X Xd L Arabic',      'arabic presentation B'],
+       0x0FF0 => [0x0F, 'X L Latin',          'halfwidth &amp; fullwidth forms'],
+       0x0FFF => [0x01, 'X Cc',               'sp'],
 
        # smp
-       0x1000, '<td colspan="8" class="X L Syllabic">linear B syllabary',
-       0x1008, '<td colspan="8" class="X L Syllabic">linear B ideograms',
-       0x1010, '<td colspan="4" class="X No">aegean num',
-       0x1014, '<td colspan="5" class="X No">greek numbers',
-       0x1019, '<td colspan="4" class="X So">ancient sym',
-       0x101D, '<td colspan="3" class="X L Syllabic">phaistos',
-       0x1020, '<td colspan="4" class="X Xr L Greek">iberian',
-       0x1024, '<td colspan="4" class="">reserved',
-       0x1028, '<td colspan="2" class="X L Greek">lycian',
-       0x102A, '<td colspan="4" class="X L Greek">carian',
-       0x102E, '<td colspan="2" class="X L No">coptic',
-       0x1030, '<td colspan="3" class="X L Greek">italic',
-       0x1033, '<td colspan="2" class="X L Greek">gothic',
-       0x1035, '<td colspan="3" class="X L Cyrillic">permic',
-       0x1038, '<td colspan="2" class="X L Alpha">ugarit',
-       0x103A, '<td colspan="4" class="X L Alpha">old persian',
-       0x103E, '<td colspan="2" class="X Xr L Alpha">sh.qs',
-       0x1040, '<td colspan="5" class="X L Alpha">deseret',
-       0x1045, '<td colspan="3" class="X L Alpha">shavian',
-       0x1048, '<td colspan="3" class="X L Alpha">osmanya',
-       0x104B, '<td colspan="5" class="X L Alpha">osage',
-       0x1050, '<td colspan="3" class="X L Alpha">elbasan',
-       0x1053, '<td colspan="4" class="X L Alpha">c albanian',
-       0x1057, '<td colspan="5" class="X Xr L Alpha">vithkuqi',
-       0x105C, '<td colspan="4" class="X Xr L Alpha">todhri',
-       0x1060, '<td colspan="16" class="X L Syllabic">linear A',
-       0x1070, '<td colspan="8" class="X L Syllabic">linear A',
-       0x1078, '<td colspan="8" class="X Xr L Syllabic">cypro-minoan',
-       0x1080, '<td colspan="4" class="X L Syllabic">cypriot',
-       0x1084, '<td colspan="2" class="X L Aramaic">aram',
-       0x1086, '<td colspan="2" class="X L Aramaic">palmr',
-       0x1088, '<td colspan="3" class="X L Aramaic">nabataean',
-       0x108A, '<td colspan="1" class="">res',
-       0x108C, '<td colspan="2" class="X Xr L Alpha">numid',
-       0x108E, '<td colspan="2" class="X L Aramaic">hatr',
-       0x1090, '<td colspan="2" class="X L Aramaic">phoen',
-       0x1092, '<td colspan="2" class="X L Greek">lydian',
-       0x1094, '<td colspan="4" class="">reserved',
-       0x1098, '<td colspan="2" class="X L Alpha" title="meroitic hieroglyphs">mero h',
-       0x109A, '<td colspan="6" class="X L Alpha">meroitic cursive',
-       0x10A0, '<td colspan="6" class="X L Syllabic">kharoshthi',
-       0x10A6, '<td colspan="2" class="X L Aramaic">s arab',
-       0x10A8, '<td colspan="2" class="X L Aramaic">n arab',
-       0x10AA, '<td colspan="2" class="X Xr L Brahmic">balti',
-       0x10AC, '<td colspan="4" class="X L Aramaic">manichaean',
-       0x10B0, '<td colspan="4" class="X L Aramaic">avestan',
-       0x10B4, '<td colspan="2" class="X L Aramaic">parth',
-       0x10B6, '<td colspan="2" class="X L Aramaic" title="inscriptional pahlavi">pahlav',
-       0x10B8, '<td colspan="3" class="X L Aramaic" title="psalter pahlavi">psalt pahl',
-       0x10BB, '<td colspan="3" class="X Xr L Aramaic" title="book pahlavi">book pahl',
-       0x10BE, '<td colspan="2" class="X Xr L Alpha">babur',
-       0x10C0, '<td colspan="5" class="X L Aramaic">old turkic',
-       0x10C5, '<td colspan="3" class="">reserved',
-       0x10C8, '<td colspan="8" class="X L Aramaic">old hungarian',
-       0x10D0, '<td colspan="4" class="X Xr L Alpha">rohingya',
-       0x10D4, '<td colspan="4" class="X Xr L Alpha">garay',
-       0x10D8, '<td colspan="8" class="X Xr L Syllabic">byblos',
-       0x10E0, '<td colspan="6" class="">reserved',
-       0x10E6, '<td colspan="2" class="X No">rumi',
-       0x10E8, '<td colspan="6" class="">reserved',
-       0x10EE, '<td colspan="2" class="X Xr L Aramaic">elym',
-       0x10F0, '<td colspan="3" class="X Xr L Aramaic">old sog',
-       0x10F3, '<td colspan="4" class="X Xr L Aramaic">sogdian',
-       0x10F7, '<td colspan="1" class="">res',
-       0x10F8, '<td colspan="8" class="X Xr L Aramaic">uyghur',
-       0x1100, '<td colspan="8" class="X L Brahmic">brahmi',
-       0x1108, '<td colspan="5" class="X L Brahmic">kaithi',
-       0x110D, '<td colspan="3" class="X L Brahmic">sora som',
-       0x1110, '<td colspan="5" class="X L Brahmic">chakma',
-       0x1115, '<td colspan="3" class="X L Brahmic">mahajani',
-       0x1118, '<td colspan="6" class="X L Brahmic">sharada',
-       0x111E, '<td colspan="2" class="X No Brahmic">sinhal',
-       0x1120, '<td colspan="5" class="X L Brahmic">khojki',
-       0x1125, '<td colspan="3" class="X Xr L Brahmic">landa',
-       0x1128, '<td colspan="3" class="X L Brahmic">multani',
-       0x112B, '<td colspan="5" class="X L Brahmic">khudabadi',
-       0x1130, '<td colspan="8" class="X L Brahmic">grantha',
-       0x1138, '<td colspan="6" class="X Xr L Brahmic">tulu',
-       0x113E, '<td colspan="2" class="X Xr L Brahmic" title="sharada extension">shar+',
-       0x1140, '<td colspan="8" class="X L Brahmic">newar',
-       0x1148, '<td colspan="6" class="X L Brahmic">tirhuta',
-       0x114E, '<td colspan="2" class="X Xr L Alpha">tani',
-       0x1150, '<td colspan="8" class="X Xr L Brahmic">ranjana',
-       0x1158, '<td colspan="8" class="X L Brahmic">siddham',
-       0x1160, '<td colspan="6" class="X L Brahmic">modi',
-       0x1166, '<td colspan="2" class="X L Aramaic" title="mongolian extension">mong',
-       0x1168, '<td colspan="5" class="X L Brahmic">takri',
-       0x116D, '<td colspan="3" class="X Xr L Brahmic">jenticha',
-       0x1170, '<td colspan="4" class="X Xr L Brahmic">ahom',
-       0x1174, '<td colspan="6" class="X Xr L Alpha">zou',
-       0x117A, '<td colspan="6" class="X Xr L Brahmic">pyu',
-       0x1180, '<td colspan="5" class="X Xr L Brahmic">dogra',
-       0x1185, '<td colspan="4" class="X Xr L Brahmic">sirmauri',
-       0x1189, '<td colspan="1" class="">res',
-       0x118A, '<td colspan="6" class="X L Syllabic">warang citi',
-       0x1190, '<td colspan="4" class="X Xr L Brahmic">tolong siki',
-       0x1194, '<td colspan="4" class="X Xr L Brahmic">tikamuli',
-       0x1198, '<td colspan="4" class="X Xr L Brahmic">khambu rai',
-       0x119C, '<td colspan="4" class="X Xr L Brahmic">kirat rai',
-       0x11A0, '<td colspan="5" class="X Xr L Brahmic">zanabazar square',
-       0x11A5, '<td colspan="6" class="X Xr L Brahmic">soyombo',
-       0x11AB, '<td colspan="1" class="">res',
-       0x11AC, '<td colspan="4" class="X L Alpha">pau cin hau',
-       0x11B0, '<td colspan="5" class="X Xr L Brahmic">dhives akuru',
-       0x11B5, '<td colspan="4" class="X Xr L Brahmic">leke',
-       0x11B9, '<td colspan="6" class="X Xr L Brahmic">nandinagari',
-       0x11BF, '<td colspan="1" class="">res',
-       0x11C0, '<td colspan="7" class="X L Brahmic">bhaiksuki',
-       0x11C7, '<td colspan="5" class="X L Brahmic">marchen',
-       0x11CC, '<td colspan="4" class="X Xr L Brahmic">balti B',
-       0x11D0, '<td colspan="6" class="X Xr L Brahmic">masaram gondi',
-       0x11D6, '<td colspan="5" class="X Xr L Brahmic">gunjala gondi',
-       0x11DB, '<td colspan="5" class="X Xr L Brahmic">kawi',
-       0x11E0, '<td colspan="7" class="X Xr L Brahmic">tocharian',
-       0x11E7, '<td colspan="6" class="X Xr L Brahmic">khotanese',
-       0x11ED, '<td colspan="1" class="">res',
-       0x11EE, '<td colspan="2" class="X Xr L Brahmic" title="makasar">makas',
-       0x11F0, '<td colspan="4" class="X Xr L Brahmic">vatteluttu',
-       0x11F4, '<td colspan="2" class="">res',
-       0x11F6, '<td colspan="6" class="X Xr L Brahmic">chola',
-       0x11FC, '<td colspan="4" class="X Xr L Brahmic">tamil+',
-       0x1200, '<td colspan="16" rowspan="4" class="X L Syllabic">cuneiform',
-       0x1240, '<td colspan="8" class="X No">cuneiform numbers',
-       0x1248, '<td colspan="8" class="X L Syllabic">early dynastic cuneiform',
-       0x1250, '<td colspan="5" class="X L Syllabic">e. dyn. cuneiform',
-       0x1255, '<td colspan="11" class="">reserved',
-       0x1260, '<td colspan="16" rowspan="8" class="X Xr L Syllabic">proto-cuneiform',
-       0x12E0, '<td colspan="16" class="X Xr L Syllabic">indus',
-       0x12F0, '<td colspan="9" class="X Xr L Syllabic">indus',
-       0x12F9, '<td colspan="7" class="">reserved',
-       0x1300, '<td colspan="16" rowspan="4" class="X L Syllabic">egyptian hieroglyphs',
-       0x1340, '<td colspan="3" class="X L Syllabic">egyptian',
-       0x1343, '<td colspan="1" class="X Xr L Syllabic" title="Egyptian control characters">eg.c',
-       0x1344, '<td colspan="12" class="X Xr L Syllabic joind">',
-       0x1350, '<td colspan="16" rowspan="15" class="X Xr L Syllabic joinu">egyptian hieroglyphs extended-A',
-       0x1440, '<td colspan="16" rowspan="2" class="X L Syllabic joind">anatolian hieroglyphs',
-       0x1460, '<td colspan="8" class="X L Syllabic">anatolian',
-       0x1468, '<td colspan="8" class="X Xr L Syllabic joind">',
-       0x1470, '<td colspan="16" rowspan="9" class="X Xr L Syllabic joinu">egyptian hieroglyphs extended-B',
-       0x1500, '<td colspan="4" class="X Xr L Brahmic">lampung',
-       0x1504, '<td colspan="3" class="X Xr L Brahmic">kerinci',
-       0x1507, '<td colspan="1" class="">res',
-       0x1508, '<td colspan="8" class="X Xr L Syllabic joind">',
-       0x1510, '<td colspan="16" rowspan="4" class="X Xr L Syllabic joinu">mandombe',
-       0x1550, '<td colspan="16" rowspan="5" class="X Xr L Syllabic">maya hieroglyphs',
-       0x15A0, '<td colspan="16" rowspan="2" class="">reserved',
-       0x15C0, '<td colspan="16" rowspan="4" class="X Xr L Syllabic">aztec pictograms',
-       0x1600, '<td colspan="8" class="X Xr L Alpha">cirth',
-       0x1608, '<td colspan="8" class="X Xr L Alpha">tengwar',
-       0x1610, '<td colspan="4" class="X Xr L Brahmic">khema',
-       0x1614, '<td colspan="4" class="X Xr L Brahmic">khe prih',
-       0x1618, '<td colspan="2" class="">res',
-       0x161A, '<td colspan="6" class="X Xr L Alpha">moon',
-       0x1620, '<td colspan="16" rowspan="5" class="X Xr L Syllabic">blissymbols',
-       0x1670, '<td colspan="11" class="X Xr L Syllabic">bagam',
-       0x167B, '<td colspan="5" class="X Xr L Syllabic">iban',
-       0x1680, '<td colspan="16" rowspan="2" class="X L Syllabic">bamum supplement',
-       0x16A0, '<td colspan="4" class="X L Syllabic">bamum+',
-       0x16A4, '<td colspan="3" class="X L Alpha">mro',
-       0x16A7, '<td colspan="6" class="X Xr L Alpha">mossang tangsa',
-       0x16AD, '<td colspan="3" class="X L Alpha">bassa vah',
-       0x16B0, '<td colspan="9" class="X L Syllabic">pahawh hmong',
-       0x16B9, '<td colspan="7" class="X Xr L Syllabic">woleai',
-       0x16C0, '<td colspan="8" class="X Xr L Syllabic">kpelle',
-       0x16C8, '<td colspan="5" class="X Xr L Syllabic">afaka',
-       0x16CD, '<td colspan="3" class="X Xr L Syllabic" title="Latsam Khimhun Tangsa">lk tangsa',
-       0x16D0, '<td colspan="13" class="">reserved',
-       0x16DD, '<td colspan="3" class="X Xr L Brahmic">kulitan',
-       0x16E0, '<td colspan="4" class="X Xr L Alpha">mwangwego',
-       0x16E4, '<td colspan="6" class="X Xr L Alpha">medefaidrin',
-       0x16EA, '<td colspan="6" class="X Xr L Brahmic" title="buginese">lontara+',
-       0x16F0, '<td colspan="10" class="X L Syllabic">miao',
-       0x16FA, '<td colspan="4" class="X Xr L Brahmic">lontara b-b',
-       0x16FE, '<td colspan="2" class="X So" title="Ideographic Symbols and Punctuation">ideo',
-       0x1700, '<td colspan="16" rowspan="24" class="X L Syllabic">tangut ideographs',
-       0x1880, '<td colspan="16" rowspan="3" class="X L Syllabic">tangut components',
-       0x18B0, '<td colspan="16" rowspan="2" class="X Xr L Han">khitan small',
-       0x18D0, '<td colspan="16" rowspan="9" class="X Xr L Han">khitan ideographs',
-       0x1960, '<td colspan="16" rowspan="5" class="X Xr L Han">jurchen',
-       0x19B0, '<td colspan="6" class="X Xr L Han">jurchen',
-       0x19B6, '<td colspan="4" class="X Xr L Han">jurchen rad',
-       0x19BA, '<td colspan="6" class="">reserved',
-       0x19C0, '<td colspan="16" rowspan="2" class="">reserved',
-       0x19E0, '<td colspan="16" rowspan="5" class="X Xr L Syllabic">pau cin hau syllabary',
-       0x1A30, '<td colspan="16" rowspan="5" class="X Xr L Syllabic">eskaya',
-       0x1A80, '<td colspan="16" rowspan="2" class="X Xr L Syllabic">naxi geba',
-       0x1AA0, '<td colspan="11" class="X Xr L Syllabic">naxi geba',
-       0x1AAB, '<td colspan="1" class="">res',
-       0x1AAC, '<td colspan="4" class="X Xr L Syllabic joind">',
-       0x1AB0, '<td colspan="16" rowspan="5" class="X Xr L Syllabic joinu">naxi dongba',
-       0x1B00, '<td colspan="16" class="X L Hiragana">kana supplement',
-       0x1B10, '<td colspan="3" class="X Xr L Hiragana">kana+A',
-       0x1B13, '<td colspan="4" class="X Xr L Syllabic">kaidā',
-       0x1B17, '<td colspan="9" class="X Xr L Han joind">',
-       0x1B20, '<td colspan="16" class="X Xr L Han joinu">nushu',
-       0x1B30, '<td colspan="16" rowspan="2" class="X Xr L Han">shuishu',
-       0x1B50, '<td colspan="16" rowspan="7" class="X Xr L Syllabic">proto-elamite',
-       0x1BC0, '<td colspan="10" class="X L Alpha">duployan',
-       0x1BCA, '<td colspan="1" class="X L Cc" title="Shorthand Formatting">sh',
-       0x1BCB, '<td colspan="5" class="X Xr L Alpha">pitman',
-       0x1BD0, '<td colspan="16" rowspan="3" class="X Xr L Alpha">shorthands?',
-       0x1C00, '<td colspan="16" rowspan="11" class="X Xr L Alpha">micmac hieroglyphs',
-       0x1CB0, '<td colspan="16" rowspan="3" class="X Xr L Syllabic">rongorongo',
-       0x1CE0, '<td colspan="16" rowspan="2" class="">reserved',
-       0x1D00, '<td colspan="16" class="X So">byzantine musical',
-       0x1D10, '<td colspan="16" class="X So">musical symbols',
-       0x1D20, '<td colspan="5" class="X So">anc greek music',
-       0x1D25, '<td colspan="9" class="">reserved',
-       0x1D2E, '<td colspan="2" class="X Xr No" title="Mayan Numerals">mayan',
-       0x1D30, '<td colspan="6" class="X So" title="tetragrams">tai xuan jing',
-       0x1D36, '<td colspan="2" class="X No">rod',
-       0x1D38, '<td colspan="8" class="X Xr L Sm">mathematical alphanumeric+',
-       0x1D40, '<td colspan="16" rowspan="4" class="X L Sm">mathematical alphanumeric',
-       0x1D80, '<td colspan="16" rowspan="2" class="X L Alpha joind">sutton',
-       0x1DA0, '<td colspan="11" class="X L Alpha joinu">',
-       0x1DAB, '<td colspan="5" class="">reserved',
-       0x1DB0, '<td colspan="16" rowspan="5" class="">reserved',
-       0x1E00, '<td colspan="3" class="X L Cyrillic">glagol+',
-       0x1E03, '<td colspan="5" class="X Xr L Brahmic">pallava',
-       0x1E08, '<td colspan="6" class="X Xr L Brahmic">chalukya',
-       0x1E0E, '<td colspan="2" class="">res',
-       0x1E10, '<td colspan="11" class="X Xr L Alpha">eebee hmong',
-       0x1E1B, '<td colspan="5" class="X Xr L Alpha">cher vang hmong',
-       0x1E20, '<td colspan="6" class="X Xr L Brahmic">western cham',
-       0x1E27, '<td colspan="3" class="X Xr L Alpha" title="zaghawa">beria',
-       0x1E2A, '<td colspan="7" class="">reserved',
-       0x1E30, '<td colspan="16" rowspan="2" class="X Xr L Syllabic">loma',
-       0x1E50, '<td colspan="16" rowspan="3" class="">reserved',
-       0x1E80, '<td colspan="14" class="X L Syllabic">mende kikakui',
-       0x1E8E, '<td colspan="2" class="">res',
-       0x1E90, '<td colspan="6" class="X L Alpha">adlam',
-       0x1E96, '<td colspan="10" class="">reserved',
-       0x1EA0, '<td colspan="16" rowspan="2" class="">reserved',
-       0x1EC0, '<td colspan="7" class="X Xr No">persian siyaq',
-       0x1EC7, '<td colspan="5" class="X Xr No">indic siyaq',
-       0x1ECC, '<td colspan="4" class="X Xr No">diwani siyaq',
-       0x1ED0, '<td colspan="5" class="X Xr No">ottoman siyaq',
-       0x1ED5, '<td colspan="11" class="">reserved',
-       0x1EE0, '<td colspan="16" class="X L Arabic">arabic mathematical alphabetic', # Sm
-       0x1EF0, '<td colspan="16" class="">reserved',
-       0x1F00, '<td colspan="3" class="X So">mahjong',
-       0x1F03, '<td colspan="7" class="X So">domino tiles',
-       0x1F0A, '<td colspan="6" class="X So">playing cards',
-       0x1F10, '<td colspan="16" class="X L Latin">enclosed alphanumeric supplement', # So
-       0x1F20, '<td colspan="16" class="X L Han">enclosed ideographic supplement', # So
-       0x1F30, '<td colspan="16" rowspan="3" class="X So">miscellaneous symbols and pictographs',
-       0x1F60, '<td colspan="5" class="X So">emoticons',
-       0x1F65, '<td colspan="3" class="X So">ornament',
-       0x1F68, '<td colspan="8" class="X So">transport',
-       0x1F70, '<td colspan="8" class="X So">alchemical',
-       0x1F78, '<td colspan="8" class="X So">geometric shapes ext',
-       0x1F80, '<td colspan="16" class="X So">supplemental arrows-C',
-       0x1F90, '<td colspan="16" class="X So">supplemental symbols and pictographs',
-       0x1FA0, '<td colspan="16" rowspan="6" class="">reserved',
-);
-
-sub {
-       return defined $uniblock{$_[0]} ? $uniblock{$_[0]} : ();
-}
-
+       0x1000 => [0x08, 'X L Syllabic',       'linear B syllabary'],
+       0x1008 => [0x08, 'X L Syllabic',       'linear B ideograms'],
+       0x1010 => [0x04, 'X No',               'aegean num'],
+       0x1014 => [0x05, 'X No',               'greek numbers'],
+       0x1019 => [0x04, 'X So',               'ancient sym'],
+       0x101D => [0x03, 'X L Syllabic',       'phaistos'],
+       0x1020 => [0x04, 'X Xr L Greek',       'iberian'],
+       0x1024 => [0x04],
+       0x1028 => [0x02, 'X L Greek',          'lycian'],
+       0x102A => [0x04, 'X L Greek',          'carian'],
+       0x102E => [0x02, 'X L No',             'coptic'],
+       0x1030 => [0x03, 'X L Greek',          'italic'],
+       0x1033 => [0x02, 'X L Greek',          'gothic'],
+       0x1035 => [0x03, 'X L Cyrillic',       'permic'],
+       0x1038 => [0x02, 'X L Alpha',          'ugarit'],
+       0x103A => [0x04, 'X L Alpha',          'old persian'],
+       0x103E => [0x02, 'X Xr L Alpha',       'sh.qs'],
+       0x1040 => [0x05, 'X L Alpha',          'deseret'],
+       0x1045 => [0x03, 'X L Alpha',          'shavian'],
+       0x1048 => [0x03, 'X L Alpha',          'osmanya'],
+       0x104B => [0x05, 'X L Alpha',          'osage'],
+       0x1050 => [0x03, 'X L Alpha',          'elbasan'],
+       0x1053 => [0x04, 'X L Alpha',          'c albanian'],
+       0x1057 => [0x05, 'X Xr L Alpha',       'vithkuqi'],
+       0x105C => [0x04, 'X Xr L Alpha',       'todhri'],
+       0x1060 => [0x18, 'X L Syllabic',       'linear A'],
+       0x1078 => [0x08, 'X Xr L Syllabic',    'cypro-minoan'],
+       0x1080 => [0x04, 'X L Syllabic',       'cypriot'],
+       0x1084 => [0x02, 'X L Aramaic',        'aram'],
+       0x1086 => [0x02, 'X L Aramaic',        'palmr'],
+       0x1088 => [0x03, 'X L Aramaic',        'nabataean'],
+       0x108A => [0x01],
+       0x108C => [0x02, 'X Xr L Alpha',       'numid'],
+       0x108E => [0x02, 'X L Aramaic',        'hatr'],
+       0x1090 => [0x02, 'X L Aramaic',        'phoen'],
+       0x1092 => [0x02, 'X L Greek',          'lydian'],
+       0x1094 => [0x04],
+       0x1098 => [0x02, 'X L Alpha',          'mero h', 'meroitic hieroglyphs'],
+       0x109A => [0x06, 'X L Alpha',          'meroitic cursive'],
+       0x10A0 => [0x06, 'X L Syllabic',       'kharoshthi'],
+       0x10A6 => [0x02, 'X L Aramaic',        's arab'],
+       0x10A8 => [0x02, 'X L Aramaic',        'n arab'],
+       0x10AA => [0x02, 'X Xr L Brahmic',     'balti'],
+       0x10AC => [0x04, 'X L Aramaic',        'manichaean'],
+       0x10B0 => [0x04, 'X L Aramaic',        'avestan'],
+       0x10B4 => [0x02, 'X L Aramaic',        'parth'],
+       0x10B6 => [0x02, 'X L Aramaic',        'pahlav', 'inscriptional pahlavi'],
+       0x10B8 => [0x03, 'X L Aramaic',        'psalt pahl', 'psalter pahlavi'],
+       0x10BB => [0x03, 'X Xr L Aramaic',     'book pahl', 'book pahlavi'],
+       0x10BE => [0x02, 'X Xr L Alpha',       'babur'],
+       0x10C0 => [0x05, 'X L Aramaic',        'old turkic'],
+       0x10C5 => [0x03],
+       0x10C8 => [0x08, 'X L Aramaic',        'old hungarian'],
+       0x10D0 => [0x04, 'X Xr L Alpha',       'rohingya'],
+       0x10D4 => [0x04, 'X Xr L Alpha',       'garay'],
+       0x10D8 => [0x08, 'X Xr L Syllabic',    'byblos'],
+       0x10E0 => [0x06],
+       0x10E6 => [0x02, 'X No',               'rumi'],
+       0x10E8 => [0x06],
+       0x10EE => [0x02, 'X Xr L Aramaic',     'elym'],
+       0x10F0 => [0x03, 'X Xr L Aramaic',     'old sog'],
+       0x10F3 => [0x04, 'X Xr L Aramaic',     'sogdian'],
+       0x10F7 => [0x01],
+       0x10F8 => [0x08, 'X Xr L Aramaic',     'uyghur'],
+       0x1100 => [0x08, 'X L Brahmic',        'brahmi'],
+       0x1108 => [0x05, 'X L Brahmic',        'kaithi'],
+       0x110D => [0x03, 'X L Brahmic',        'sora som'],
+       0x1110 => [0x05, 'X L Brahmic',        'chakma'],
+       0x1115 => [0x03, 'X L Brahmic',        'mahajani'],
+       0x1118 => [0x06, 'X L Brahmic',        'sharada'],
+       0x111E => [0x02, 'X No Brahmic',       'sinhal'],
+       0x1120 => [0x05, 'X L Brahmic',        'khojki'],
+       0x1125 => [0x03, 'X Xr L Brahmic',     'landa'],
+       0x1128 => [0x03, 'X L Brahmic',        'multani'],
+       0x112B => [0x05, 'X L Brahmic',        'khudabadi'],
+       0x1130 => [0x08, 'X L Brahmic',        'grantha'],
+       0x1138 => [0x06, 'X Xr L Brahmic',     'tulu'],
+       0x113E => [0x02, 'X Xr L Brahmic',     'shar+', 'sharada extension'],
+       0x1140 => [0x08, 'X L Brahmic',        'newar'],
+       0x1148 => [0x06, 'X L Brahmic',        'tirhuta'],
+       0x114E => [0x02, 'X Xr L Alpha',       'tani'],
+       0x1150 => [0x08, 'X Xr L Brahmic',     'ranjana'],
+       0x1158 => [0x08, 'X L Brahmic',        'siddham'],
+       0x1160 => [0x06, 'X L Brahmic',        'modi'],
+       0x1166 => [0x02, 'X L Aramaic',        'mong', 'mongolian extension'],
+       0x1168 => [0x05, 'X L Brahmic',        'takri'],
+       0x116D => [0x03, 'X Xr L Brahmic',     'jenticha'],
+       0x1170 => [0x04, 'X Xr L Brahmic',     'ahom'],
+       0x1174 => [0x06, 'X Xr L Alpha',       'zou'],
+       0x117A => [0x06, 'X Xr L Brahmic',     'pyu'],
+       0x1180 => [0x05, 'X Xr L Brahmic',     'dogra'],
+       0x1185 => [0x04, 'X Xr L Brahmic',     'sirmauri'],
+       0x1189 => [0x01],
+       0x118A => [0x06, 'X L Syllabic',       'warang citi'],
+       0x1190 => [0x04, 'X Xr L Brahmic',     'tolong siki'],
+       0x1194 => [0x04, 'X Xr L Brahmic',     'tikamuli'],
+       0x1198 => [0x04, 'X Xr L Brahmic',     'khambu rai'],
+       0x119C => [0x04, 'X Xr L Brahmic',     'kirat rai'],
+       0x11A0 => [0x05, 'X Xr L Brahmic',     'zanabazar square'],
+       0x11A5 => [0x06, 'X Xr L Brahmic',     'soyombo'],
+       0x11AB => [0x01],
+       0x11AC => [0x04, 'X L Alpha',          'pau cin hau'],
+       0x11B0 => [0x05, 'X Xr L Brahmic',     'dhives akuru'],
+       0x11B5 => [0x04, 'X Xr L Brahmic',     'leke'],
+       0x11B9 => [0x06, 'X Xr L Brahmic',     'nandinagari'],
+       0x11BF => [0x01],
+       0x11C0 => [0x07, 'X L Brahmic',        'bhaiksuki'],
+       0x11C7 => [0x05, 'X L Brahmic',        'marchen'],
+       0x11CC => [0x04, 'X Xr L Brahmic',     'balti B'],
+       0x11D0 => [0x06, 'X Xr L Brahmic',     'masaram gondi'],
+       0x11D6 => [0x05, 'X Xr L Brahmic',     'gunjala gondi'],
+       0x11DB => [0x05, 'X Xr L Brahmic',     'kawi'],
+       0x11E0 => [0x07, 'X Xr L Brahmic',     'tocharian'],
+       0x11E7 => [0x06, 'X Xr L Brahmic',     'khotanese'],
+       0x11ED => [0x01],
+       0x11EE => [0x02, 'X Xr L Brahmic',     'makas', 'makasar'],
+       0x11F0 => [0x04, 'X Xr L Brahmic',     'vatteluttu'],
+       0x11F4 => [0x02],
+       0x11F6 => [0x06, 'X Xr L Brahmic',     'chola'],
+       0x11FC => [0x04, 'X Xr L Brahmic',     'tamil+'],
+       0x1200 => [0x40, 'X L Syllabic',       'cuneiform'],
+       0x1240 => [0x08, 'X No',               'cuneiform numbers'],
+       0x1248 => [0x08, 'X L Syllabic',       'early dynastic cuneiform'], #TODO: join bottom but title at top
+       0x1250 => [0x05, 'X L Syllabic',       'e. dyn. cuneiform'],
+       0x1255 => [0x0B],
+       0x1260 => [0x80, 'X Xr L Syllabic',    'proto-cuneiform'],
+       0x12E0 => [0x19, 'X Xr L Syllabic',    'indus'],
+       0x12F9 => [0x07],
+       0x1300 => [0x43, 'X L Syllabic',       'egyptian hieroglyphs'],
+       0x1343 => [0x01, 'X Xr L Syllabic',    'eg.c', 'Egyptian control characters'],
+       0x1344 => [0xFC, 'X Xr L Syllabic',    'egyptian hieroglyphs extended-A'],
+       0x1440 => [0x28, 'X L Syllabic',       'anatolian hieroglyphs'],
+       0x1468 => [0x98, 'X Xr L Syllabic',    'egyptian hieroglyphs extended-B'],
+       0x1500 => [0x04, 'X Xr L Brahmic',     'lampung'],
+       0x1504 => [0x03, 'X Xr L Brahmic',     'kerinci'],
+       0x1507 => [0x01],
+       0x1508 => [0x48, 'X Xr L Syllabic',    'mandombe'],
+       0x1550 => [0x50, 'X Xr L Syllabic',    'maya hieroglyphs'],
+       0x15A0 => [0x20],
+       0x15C0 => [0x40, 'X Xr L Syllabic',    'aztec pictograms'],
+       0x1600 => [0x08, 'X Xr L Alpha',       'cirth'],
+       0x1608 => [0x08, 'X Xr L Alpha',       'tengwar'],
+       0x1610 => [0x04, 'X Xr L Brahmic',     'khema'],
+       0x1614 => [0x04, 'X Xr L Brahmic',     'khe prih'],
+       0x1618 => [0x02],
+       0x161A => [0x06, 'X Xr L Alpha',       'moon'],
+       0x1620 => [0x50, 'X Xr L Syllabic',    'blissymbols'],
+       0x1670 => [0x0B, 'X Xr L Syllabic',    'bagam'],
+       0x167B => [0x05, 'X Xr L Syllabic',    'iban'],
+       0x1680 => [0x24, 'X L Syllabic',       'bamum supplement'],
+       0x16A4 => [0x03, 'X L Alpha',          'mro'],
+       0x16A7 => [0x06, 'X Xr L Alpha',       'mossang tangsa'],
+       0x16AD => [0x03, 'X L Alpha',          'bassa vah'],
+       0x16B0 => [0x09, 'X L Syllabic',       'pahawh hmong'],
+       0x16B9 => [0x07, 'X Xr L Syllabic',    'woleai'],
+       0x16C0 => [0x08, 'X Xr L Syllabic',    'kpelle'],
+       0x16C8 => [0x05, 'X Xr L Syllabic',    'afaka'],
+       0x16CD => [0x03, 'X Xr L Syllabic',    'lk tangsa', 'Latsam Khimhun Tangsa'],
+       0x16D0 => [0x0D],
+       0x16DD => [0x03, 'X Xr L Brahmic',     'kulitan'],
+       0x16E0 => [0x04, 'X Xr L Alpha',       'mwangwego'],
+       0x16E4 => [0x06, 'X Xr L Alpha',       'medefaidrin'],
+       0x16EA => [0x06, 'X Xr L Brahmic',     'lontara+', 'buginese'],
+       0x16F0 => [0x0A, 'X L Syllabic',       'miao'],
+       0x16FA => [0x04, 'X Xr L Brahmic',     'lontara b-b'],
+       0x16FE => [0x02, 'X So',               'ideo', 'Ideographic Symbols and Punctuation'],
+       0x1700 => [0x180,'X L Syllabic',       'tangut ideographs'],
+       0x1880 => [0x30, 'X L Syllabic',       'tangut components'],
+       0x18B0 => [0x20, 'X Xr L Han',         'khitan small'],
+       0x18D0 => [0x90, 'X Xr L Han',         'khitan ideographs'],
+       0x1960 => [0x56, 'X Xr L Han',         'jurchen'],
+       0x19B6 => [0x04, 'X Xr L Han',         'jurchen rad'],
+       0x19BA => [0x06],
+       0x19C0 => [0x20],
+       0x19E0 => [0x50, 'X Xr L Syllabic',    'pau cin hau syllabary'],
+       0x1A30 => [0x50, 'X Xr L Syllabic',    'eskaya'],
+       0x1A80 => [0x2B, 'X Xr L Syllabic',    'naxi geba'],
+       0x1AAB => [0x01],
+       0x1AAC => [0x54, 'X Xr L Syllabic',    'naxi dongba'],
+       0x1B00 => [0x10, 'X L Hiragana',       'kana supplement'],
+       0x1B10 => [0x03, 'X Xr L Hiragana',    'kana+A'],
+       0x1B13 => [0x04, 'X Xr L Syllabic',    'kaidā'],
+       0x1B17 => [0x19, 'X Xr L Han',         'nushu'],
+       0x1B30 => [0x20, 'X Xr L Han',         'shuishu'],
+       0x1B50 => [0x70, 'X Xr L Syllabic',    'proto-elamite'],
+       0x1BC0 => [0x0A, 'X L Alpha',          'duployan'],
+       0x1BCA => [0x01, 'X L Cc',             'sh', 'Shorthand Formatting'],
+       0x1BCB => [0x05, 'X Xr L Alpha',       'pitman'],
+       0x1BD0 => [0x30, 'X Xr L Alpha',       'shorthands?'],
+       0x1C00 => [0xB0, 'X Xr L Alpha',       'micmac hieroglyphs'],
+       0x1CB0 => [0x30, 'X Xr L Syllabic',    'rongorongo'],
+       0x1CE0 => [0x20],
+       0x1D00 => [0x10, 'X So',               'byzantine musical'],
+       0x1D10 => [0x10, 'X So',               'musical symbols'],
+       0x1D20 => [0x05, 'X So',               'anc greek music'],
+       0x1D25 => [0x09],
+       0x1D2E => [0x02, 'X Xr No',            'mayan', 'Mayan Numerals'],
+       0x1D30 => [0x06, 'X So',               'tai xuan jing', 'tetragrams'],
+       0x1D36 => [0x02, 'X No',               'rod'],
+       0x1D38 => [0x08, 'X Xr L Sm',          'mathematical alphanumeric+'],
+       0x1D40 => [0x40, 'X L Sm',             'mathematical alphanumeric'],
+       0x1D80 => [0x2B, 'X L Alpha',          'sutton'],
+       0x1DAB => [0x55],
+       0x1E00 => [0x03, 'X L Cyrillic',       'glagol+'],
+       0x1E03 => [0x05, 'X Xr L Brahmic',     'pallava'],
+       0x1E08 => [0x06, 'X Xr L Brahmic',     'chalukya'],
+       0x1E0E => [0x02],
+       0x1E10 => [0x0B, 'X Xr L Alpha',       'eebee hmong'],
+       0x1E1B => [0x05, 'X Xr L Alpha',       'cher vang hm.'],
+       0x1E20 => [0x06, 'X Xr L Brahmic',     'western cham'],
+       0x1E26 => [0x03, 'X Xr L Alpha',       'beria', 'zaghawa'],
+       0x1E29 => [0x07],
+       0x1E30 => [0x20, 'X Xr L Syllabic',    'loma'],
+       0x1E50 => [0x30],
+       0x1E80 => [0x0E, 'X L Syllabic',       'mende kikakui'],
+       0x1E8E => [0x02],
+       0x1E90 => [0x06, 'X L Alpha',          'adlam'],
+       0x1E96 => [0x2A],
+       0x1EC0 => [0x07, 'X Xr No',            'persian siyaq'],
+       0x1EC7 => [0x05, 'X Xr No',            'indic siyaq'],
+       0x1ECC => [0x04, 'X Xr No',            'diwani siyaq'],
+       0x1ED0 => [0x05, 'X Xr No',            'ottoman siyaq'],
+       0x1ED5 => [0x0B],
+       0x1EE0 => [0x10, 'X L Arabic',         'arabic mathematical alphabetic'], # Sm
+       0x1EF0 => [0x10],
+       0x1F00 => [0x03, 'X So',               'mahjong'],
+       0x1F03 => [0x07, 'X So',               'domino tiles'],
+       0x1F0A => [0x06, 'X So',               'playing cards'],
+       0x1F10 => [0x10, 'X L Latin',          'enclosed alphanumeric supplement'], # So
+       0x1F20 => [0x10, 'X L Han',            'enclosed ideographic supplement'], # So
+       0x1F30 => [0x30, 'X So',               'miscellaneous symbols and pictographs'],
+       0x1F60 => [0x05, 'X So',               'emoticons'],
+       0x1F65 => [0x03, 'X So',               'ornament'],
+       0x1F68 => [0x08, 'X So',               'transport'],
+       0x1F70 => [0x08, 'X So',               'alchemical'],
+       0x1F78 => [0x08, 'X So',               'geometric shapes ext'],
+       0x1F80 => [0x10, 'X So',               'supplemental arrows-C'],
+       0x1F90 => [0x10, 'X So',               'supplemental symbols and pictographs'],
+       0x1FA0 => [0x60],
+};
index 402d8398067851939d1eb7b8fbcb1b2e0faf68be..e55e771f2acd2a78196d0cb41db45db4b060a2c1 100644 (file)
@@ -101,6 +101,43 @@ for my $cp437 (grep {$request[$_]->{set} eq 'cp437'} 0 .. $#request) {
        );
 }
 
+sub range_cell {
+       my ($table, $offset) = @_;
+       my $def = $table->{$offset} or return;
+       my ($len, $class, $name, $title) = @{$def};
+
+       my $attr = '';
+       $name //= $len <= 2 ? 'res' : 'reserved';
+
+       if (my $part = $offset % 16) {
+               # continued row
+               my $cols = 16 - $part;  # remaining
+               $cols = $len if $len < $cols; #TODO: optimise
+               if ($len -= $cols) {
+                       # continued on new row
+                       $table->{$offset + $cols} = [$len, "$class joinu", $name, $title];
+                       $name = '';
+                       $class .= ' joind';
+               }
+               $len = $cols;
+       }
+       elsif (my $rows = $len >> 4) {
+               # multiple full rows
+               if ($len -= $rows << 4) {
+                       # partial row remains
+                       $table->{$offset + $rows * 16} = [$len, "$class joinu", '', $title];
+                       $class .= ' joind';
+               }
+               $attr .= sprintf ' rowspan=%d', $rows;
+               $len = 16;
+       }
+
+       $attr .= sprintf ' colspan=%d', $len unless $len == 1;
+       $attr .= sprintf ' class="%s"', $class if $class;
+       $attr .= sprintf ' title="%s"', EscapeHTML($title) if $title;
+       return "<td$attr>$name";
+}
+
 for my $row (@request) {
        printf '<div class="section"><table class="glyphs%s">', !$row->{cell} && ' charmap';
        printf '<caption>%s</caption>', $row->{set};
@@ -116,7 +153,11 @@ for my $row (@request) {
                for my $lsb (0 .. $#nibble) {
                        my $val = ( ($msb<<4) + $lsb ) * $nibsize;
                        if ($row->{cell}) {
-                               print $row->{cell}->($val);
+                               if (ref $row->{cell} eq 'CODE') {
+                                       print $row->{cell}->($val);
+                                       next;
+                               }
+                               print range_cell($row->{cell}, $val);
                                next;
                        }