font: strip ascii chars from default ipa selection
[sheet.git] / font.plp
index 22479b4763f2b124264b94ae33a5c27f29186e7f..b081ac2749567468c920a663f81b52ffafed1372 100644 (file)
--- a/font.plp
+++ b/font.plp
@@ -52,37 +52,60 @@ for my $os (@ossel) {
 # parse input
 
 my @chars;
+my @querydesc;
 
-for ($ENV{PATH_INFO} || $get{q} || ()) {
+my $query = $ENV{PATH_INFO} || $get{q} || 'ipa';
+for ($query) {
        s{^/}{};
-       when ('') {
-               next;
+       when (qr{^[a-z]+(?:/|\z)}) {
+               for (split / /) {
+                       push @querydesc, "preset group $_";
+                       my ($tablegroup, $tablename) = split m{/}, $_, 2;
+                       my @tables = $tablename ? $tables->{$tablegroup}->{$tablename}
+                                  : sort values %{ $tables->{$tablegroup} };
+                       for (@tables) {
+                               my $includerows;  # ignore rows before body row
+                               for (@{$_}) {
+                                       $includerows ||= m/^[.]/ or next;
+                                       next if /^[.-]/;
+                                       next if $_ eq '>' or $_ eq '=';
+                                       push @chars, $_;
+                               }
+                       }
+               }
+               when ('ipa') {
+                       @chars = grep { !m/[a-zA-Z]/ } @chars;
+               }
        }
-       when (qr{/}) {
-               push @{ $get{'@g'} }, $_;
+       when (qr{[\d,;\s+-]+}) {
+               push @querydesc, "character codepoints $_";
+               for (map { split /[^\d-]/ } $_) {
+                       my ($charnum, $range) = split /-/, $_;
+                       push @chars, chr $_ for $charnum .. ($range // $charnum);
+               }
+       }
+       when (qr{[A-Z]}) {
+               push @querydesc, "unicode match $_";
+               eval {
+                       my $match = qr/\A\p{$_}\z/;
+                       push @chars, grep { m/$match/ } map { chr $_ }
+                               0..0xD7FF, 0xE000..0xFDCF, 0xFDF0..0xFFFD;
+               } or die "invalid unicode match: $_\n";
        }
        default {
                die "unknown parameter: $_\n";
        }
 }
 
-$get{'@g'} //= ['latin/sample'];
-
-for (map { split / / } @{ $get{'@g'} }) {
-       my ($tablegroup, $tablename) = split m{/}, $_, 2;
-       my $table = $tables->{$tablegroup}->{$tablename};
-
-       for (@{$table}) {
-               m/^[.]/ .. 1 or next;
-               next if /^[.-]/;
-               next if $_ eq '>' or $_ eq '=';
-               push @chars, $_;
-       }
-}
+@chars <= 1500 or die sprintf(
+       'too many matches (%d) for %s'."\n",
+       scalar @chars, join(', ', @querydesc),
+);
 
 # output character list
 
 print '<table class=mapped>';
+say '<caption>'.EscapeHTML(join ', ', @querydesc).'</caption>';
 print '<col>' x 3;
 print "<colgroup span=$_>" for 2, map { scalar @{$oslist{$_}} } @ossel;
 
@@ -95,7 +118,7 @@ printf '<td colspan=%d>%s fonts', scalar @{ $oslist{$_} }, $_
 print '<tr>';
 print '<td colspan=2>unicode';
 print '<td>name';
-print '<td>di<td>html';
+print '<td><a href="/digraphs" title="digraph">di</a><td>html';
 printf '<td title="%s">%s', $font{$_}->{-name}, $font{$_}->{-id} // $_
        for @fontlist;
 say '</thead>';
@@ -107,9 +130,9 @@ for my $chr (@chars) {
        print "<tr><th>$chr\n";
        my $info = $glyphs->glyph_info($codepoint);
        my ($class, $name, $mnem, $html, $string) = @$info;
-       print "<td>$_" for sprintf('%X', $codepoint), EscapeHTML($name);
+       print "<td>$_" for sprintf('%X', $codepoint), EscapeHTML($name || '?');
        printf '<td class="%s">%s', @$_ for (
-               [$ascii ? 'l0' : defined $mnem ? 'l4' : 'l1', $mnem // ''],
+               [$ascii ? 'l0' : defined $mnem ? $class =~ /\bu-di\b/ ? 'l4' : 'l3' : 'l1', $mnem // ''],
                [$ascii ? 'l0' : defined $html ? 'l4' : 'l1', $html // ''],
                (map {
                        !$font{$_}->{-id} ? [l0 => '?'] :