charset: no .X on empty glyph cells
[sheet.git] / Shiar_Sheet / FormatChar.pm
index d3926bca4e09e26576f054a74aa825029a47ac45..ef0445d01d968f127be31ebc2f821affb0fed564 100644 (file)
@@ -3,11 +3,12 @@ package Shiar_Sheet::FormatChar;
 use 5.010;
 use strict;
 use warnings;
+use utf8;
 
 use Data::Dump 'pp';
 use PLP::Functions 'EscapeHTML';
 
-our $VERSION = '1.06';
+our $VERSION = '1.07';
 
 our $uc = do 'unicode-char.inc.pl';
 
@@ -30,15 +31,15 @@ sub glyph_html {
        my ($self, $char) = @_;
        my $codepoint = ord $char;
        my $info = $self->glyph_info($codepoint);
-       my ($class, $name, $mnem, $html, $string) = @$info;
+       my ($class, $name, $mnem, $entity, $string) = @$info;
 
        my $cell = EscapeHTML($string || $char);
-       my $title = sprintf 'U+%04X%s', $codepoint, $name && " ($name)";
+       my $title = sprintf 'U+%04X%s', $codepoint, !!$name && " ($name)";
 
-       $cell = "<span>$cell</span>" if $class =~ /\bZs\b/;
+       $cell = "<span>$cell</span>" if $class and $class =~ /\bZs\b/;
        $cell = '&nbsp;' if $cell eq '';
 
-       return ($cell, EscapeHTML($title), "X $class", $mnem, $html);
+       return ($cell, EscapeHTML($title), !!$class && "X $class", $mnem, $entity);
 }
 
 sub glyphs_html {
@@ -51,7 +52,7 @@ sub glyphs_html {
                EscapeHTML($_[0]), # cell
                join(' | ', map { $_->[1] } @chars), # title
                $chars[0][2], # class
-               join(' ',  grep { defined } map { $_->[3] } @chars), # digraph
+               join(' ',  map { $_->[3] // '…' } @chars), # digraph
        );
 }
 
@@ -80,12 +81,13 @@ sub cell {
 
                $input =~ s/^\\//;  # escaped char
                ($cell, $title, my $class, $mnem, $entity) = $self->glyphs_html($input);
+               my $codepoint = ord $input;
 
                if ($self->{style} eq 'univer') {
                        if ($input =~ /\p{age=unassigned}/) {
                                # check include for assignments after unicode 6.0 (perl v5.14)
                                state $agemap = do 'unicode-age.inc.pl';
-                               my $version = $agemap->{ord $input};
+                               my $version = $agemap->{$codepoint};
                                push @class, $version ? 'l2' : 'l1';
                        }
                        elsif ($input =~ /^\p{in=1.1}*$/) {
@@ -107,33 +109,38 @@ sub cell {
                }
 
                if ($self->{style} eq 'di') {
-                       if ($class =~ /\bu-di\b/) {
-                               push @class, ('l3', 'u-di'); # standard digraph
+                       if ($mnem and $mnem =~ /…/) {
+                               # incomplete representation, usually partial
+                       }
+                       elsif ($class =~ /\bu-di\b/) {
+                               push @class, ('l4', 'u-di'); # standard digraph
                        }
                        elsif ($class =~ /\bu-prop\b/) {
-                               push @class, ('l2', 'u-prop'); # unofficial
+                               push @class, ('l3', 'u-prop'); # unofficial
                        }
                }
                elsif ($self->{style} eq 'html') {
                        if (defined $entity) {
-                               push @class, ('l3', 'u-html');
+                               push @class, ($codepoint <= 0xFF ? 'l4' : 'l3', 'u-html');
                        }
                }
                else {
-                       my $codepoint = ord(substr $input, 0, 1);
                        if ($codepoint <= 0xFF) {
-                               push @class, 'l3', 'u-lat1';  # latin1
+                               push @class, 'l4', 'u-lat1';  # latin1
                        }
                        elsif ($codepoint <= 0xD7FF) {
-                               push @class, 'l2', 'u-bmp';  # bmp
+                               push @class, 'l3', 'u-bmp';  # bmp
                        }
                }
 
                if ($input =~ /[ -~]/) {
-                       push @class, 'l4', 'u-ascii'; # ascii
+                       push @class, 'l5', 'u-ascii'; # ascii
+               }
+               elsif ($input =~ /^\p{in=6.0}+$/) {
+                       push @class, 'l2'; # in unicode 6.0
                }
                else {
-                       push @class, 'l1'; # basic unicode
+                       push @class, 'l1'; # any unicode
                }
        }}
 
@@ -174,10 +181,12 @@ sub cell {
                }
        }
 
-       return sprintf('<td%s%s%s>%s%s',
-               defined $title  ? qq{ title="$title"}  : '',
-               @class ? sprintf(' class="%s"', join ' ', @class) : '',
-               $html || '',
+       return sprintf('<%s>%s%s',
+               join(' ', 'td',
+                       defined $title  ? qq{ title="$title"}  : (),
+                       @class ? sprintf('class="%s"', join ' ', @class) : (),
+                       $html || (),
+               ),
                $cell eq '' ? '&nbsp;' : $cell,
                $anno,
        );
@@ -218,9 +227,17 @@ sub table {
                        $colspan++;
                        next;
                }
+               elsif ($cell eq '>-') {
+                       $rows[-1] .= '<th>';
+                       next;
+               }
+               elsif ($cell =~ m/^</) {
+                       $rows[-1] .= '<td>'.$cell;
+                       next;
+               }
 
                $rows[-1] .= $self->cell($cell,
-                       $colspan > 1 && qq{ colspan="$colspan"},
+                       $colspan > 1 && qq{colspan="$colspan"},
                );
 
                $colspan = 1;