ascii option to avoid unicode
[barcat.git] / barcat
diff --git a/barcat b/barcat
index ad6ccab98ffdaf7ad0eaab230979ff1fbbecff05..cc3f607a990787bdb985d9735aeb7a23079c45a3 100755 (executable)
--- a/barcat
+++ b/barcat
@@ -1,30 +1,31 @@
 #!/usr/bin/perl -CA
-use 5.018;
+use 5.014;
 use warnings;
 use utf8;
 use List::Util qw( min max sum );
 use open qw( :std :utf8 );
-use experimental qw( lexical_subs );
+use re '/msx';
 
-our $VERSION = '1.06';
+our $VERSION = '1.07';
 
 use Getopt::Long '2.33', qw( :config gnu_getopt );
 my %opt;
 GetOptions(\%opt,
+       'ascii|a!',
        'color|c!',
        'C' => sub { $opt{color} = 0 },
        'field|f=s' => sub {
                eval {
                        local $_ = $_[1];
-                       $opt{anchor} = /^[0-9]+$/ ? qr/(?:\S*\h+){$_}\K/ : qr/$_/;
-               } or die $@ =~ s/(?: at .+)?$/ for option $_[0]/r;
+                       $opt{anchor} = /\A[0-9]+\z/ ? qr/(?:\S*\h+){$_}\K/ : qr/$_/;
+               } or die $@ =~ s/(?:\ at\ \N+)?\Z/ for option $_[0]/r;
        },
        'human-readable|H!',
        'interval|t:i',
        'trim|length|l=s' => sub {
                my ($optname, $optval) = @_;
                $optval =~ s/%$// and $opt{trimpct}++;
-               $optval =~ m/^-?[0-9]+$/ or die(
+               $optval =~ m/\A-?[0-9]+\z/ or die(
                        "Value \"$optval\" invalid for option $optname",
                        " (number or percentage expected)\n"
                );
@@ -35,11 +36,11 @@ GetOptions(\%opt,
        'hidemax=i',
        'minval=f',
        'maxval=f',
-       'limit|L=s' => sub {
+       'limit|L:s' => sub {
                my ($optname, $optval) = @_;
                $optval ||= 0;
                ($opt{hidemin}, $opt{hidemax}) =
-               $optval =~ m/\A (?: ([0-9]+)? - )? ([0-9]+)? \z/x or die(
+               $optval =~ m/\A (?: ([0-9]+)? - )? ([0-9]+)? \z/ or die(
                        "Value \"$optval\" invalid for option limit",
                        " (range expected)\n"
                );
@@ -50,13 +51,26 @@ GetOptions(\%opt,
                $opt{'graph-format'} = substr $_[1], 0, 1;
        },
        'spark:s' => sub {
-               $opt{spark} = [split //, $_[1] || '▁▂▃▄▅▆▇█'];
+               $opt{spark} = [split //,
+                       $_[1] || ($opt{ascii} ? ' ..oOO' : ' ▁▂▃▄▅▆▇█')
+               ];
        },
        'palette=s' => sub {
                $opt{palette} = {
                        fire   => [qw( 90 31 91 33 93 97 96 )],
+                       fire88 => [map {"38;5;$_"} qw(
+                               80  32 48 64  68 72 76  77 78 79  47
+                       )],
+                       fire256=> [map {"38;5;$_"} qw(
+                               235  52 88 124 160 196
+                               202 208 214 220 226  227 228 229 230 231  159
+                       )],
+                       ramp88 => [map {"38;5;$_"} qw(
+                               64 65 66 67 51 35 39 23 22 26 25 28
+                       )],
                        whites => [qw( 1;30 0;37 1;37 )],
-               }->{$_[1]} // [ split /\s/, $_[1] ];
+                       greys  => [map {"38;5;$_"} 52, 235..255, 47],
+               }->{$_[1]} // [ split /[^0-9;]/, $_[1] ];
        },
        'stat|s!',
        'signal-stat=s',
@@ -67,18 +81,32 @@ GetOptions(\%opt,
                exit;
        },
        'usage|h' => sub {
-               local $/;
+               local $/ = undef;  # slurp
                my $pod = readline *DATA;
-               $pod =~ s/^=over\K/ 22/m;  # indent options list
-               $pod =~ s/^=item \N*\n\n\N*\n\K(?:(?:^=over.*?^=back\n)?(?!=)\N*\n)*/\n/msg;
+               $pod =~ s/^=over\K/ 25/;  # indent options list
+               $pod =~ s{
+                       ^=item \h \N*\n\n \N*\n \K  # first line
+                       (?: (?: ^=over .*? ^=back\n )? (?!=) \N*\n )*
+               }{\n}g;  # abbreviate options
+               $pod =~ s/[.,](?=\n)//g;  # trailing punctuation
+               $pod =~ s/^=item\ \K(?=--)/____/g;  # align long options
+               # abbreviate <variable> indicators
+               $pod =~ s/\Q>.../s>/g;
+               $pod =~ s/<(?:number|count|seconds)>/N/g;
+               $pod =~ s/<character(s?)>/\Uchar$1/g;
+               $pod =~ s/\Q | /|/g;
+               $pod =~ s/(?<!\w)<([a-z]+)>/\U$1/g;  # uppercase
 
                require Pod::Usage;
-               my $parser = Pod::Usage->new;
+               my $parser = Pod::Usage->new(USAGE_OPTIONS => {
+                       -indent => 2, -width => 78,
+               });
                $parser->select('SYNOPSIS', 'OPTIONS');
                $parser->output_string(\my $contents);
                $parser->parse_string_document($pod);
 
                $contents =~ s/\n(?=\n\h)//msg;  # strip space between items
+               $contents =~ s/^\ \ \K____/    /g;  # nbsp substitute
                print $contents;
                exit;
        },
@@ -90,17 +118,34 @@ GetOptions(\%opt,
        },
 ) or exit 64;  # EX_USAGE
 
-$opt{width} ||= $ENV{COLUMNS} || 80;
+$opt{width} ||= $ENV{COLUMNS} || qx(tput cols) || 80 unless $opt{spark};
 $opt{color} //= -t *STDOUT;  # enable on tty
 $opt{'graph-format'} //= '-';
 $opt{trim}   *= $opt{width} / 100 if $opt{trimpct};
-$opt{units}   = [split //, ' kMGTPEZYyzafpnμm'] if $opt{'human-readable'};
+$opt{units}   = [split //, ' kMGTPEZYyzafpn'.($opt{ascii} ? 'u' : 'μ').'m']
+       if $opt{'human-readable'};
 $opt{anchor} //= qr/\A/;
 $opt{'value-length'} = 6 if $opt{units};
 $opt{'value-length'} = 1 if $opt{unmodified};
 $opt{'signal-stat'} //= exists $SIG{INFO} ? 'INFO' : 'QUIT';
 $opt{markers} //= '=avg >31.73v <68.27v +50v |0';
 $opt{palette} //= $opt{color} && [31, 90, 32];
+$opt{hidemin} = ($opt{hidemin} || 1) - 1;
+$opt{input} = (@ARGV && $ARGV[0] =~ m/\A[-0-9]/) ? \@ARGV : undef
+       and undef $opt{interval};
+
+$opt{'sum-format'} = sub { sprintf '%.8g', $_[0] };
+$opt{'calc-format'} = sub { sprintf '%*.*f', 0, 2, $_[0] };
+$opt{'value-format'} = $opt{units} && sub {
+       my $unit = int(log(abs $_[0] || 1) / log(10) - 3*($_[0] < 1) + 1e-15);
+       my $float = $_[0] !~ /^0*[-0-9]{1,3}$/;
+       sprintf('%3.*f%1s',
+               $float && ($unit % 3) == ($unit < 0),  # tenths
+               $_[0] / 1000 ** int($unit/3),   # number
+               $#{$opt{units}} * 1.5 < abs $unit ? "e$unit" : $opt{units}->[$unit/3]
+       );
+};
+
 
 my (@lines, @values, @order);
 
@@ -121,20 +166,24 @@ if (defined $opt{interval}) {
        } or warn $@, "Expect slowdown with large datasets!\n";
 }
 
-my $valmatch = qr/$opt{anchor} ( \h* -? [0-9]* \.? [0-9]+ (?: e[+-]?[0-9]+ )? |)/x;
-while (readline) {
+my $valmatch = qr<
+       $opt{anchor} ( \h* -? [0-9]* [.]? [0-9]+ (?: e[+-]?[0-9]+ )? |)
+>x;
+while (defined ($_ = $opt{input} ? shift @{ $opt{input} } : readline)) {
        s/\r?\n\z//;
-       s/^\h*// unless $opt{unmodified};
-       push @values, s/$valmatch/\n/ && $1;
-       push @order, $1 if length $1;
-       if (defined $opt{trim} and defined $1) {
+       s/\A\h*// unless $opt{unmodified};
+       my $valnum = s/$valmatch/\n/ && $1;
+       push @values, $valnum;
+       push @order, $valnum if length $valnum;
+       if (defined $opt{trim} and defined $valnum) {
                my $trimpos = abs $opt{trim};
-               $trimpos -= length $1 if $opt{unmodified};
+               $trimpos -= length $valnum if $opt{unmodified};
                if ($trimpos <= 1) {
                        $_ = substr $_, 0, 2;
                }
                elsif (length > $trimpos) {
-                       substr($_, $trimpos - 1) = '…';
+                       # cut and replace (intentional lvalue for speed, contrary to PBP)
+                       substr($_, $trimpos - 1) = $opt{ascii} ? '>' : '…';
                }
        }
        push @lines, $_;
@@ -142,6 +191,10 @@ while (readline) {
                and $. % $opt{interval} == 0;
 }
 
+if ($opt{'zero-missing'}) {
+       push @values, (0) x 10;
+}
+
 $SIG{INT} = 'DEFAULT';
 
 sub color {
@@ -152,20 +205,23 @@ sub color {
 
 sub show_lines {
 
-state $nr = $opt{hidemin} ? $opt{hidemin} - 1 : 0;
-@lines and @lines > $nr or return;
+state $nr = $opt{hidemin};
 @lines or return;
-@lines > $nr or return unless $opt{hidemin};
+@lines > $nr or return;
 
 @order = sort { $b <=> $a } @order unless tied @order;
-my $maxval = $opt{maxval} // ($opt{hidemax} ? max grep { length } @values[0 .. $opt{hidemax} - 1] : $order[0]) // 0;
+my $maxval = $opt{maxval} // (
+       $opt{hidemax} ? max grep { length } @values[0 .. $opt{hidemax} - 1] :
+       $order[0]
+) // 0;
 my $minval = $opt{minval} // min $order[-1] // (), 0;
+my $range = $maxval - $minval;
 my $lenval = $opt{'value-length'} // max map { length } @order;
 my $len    = defined $opt{trim} && $opt{trim} <= 0 ? -$opt{trim} + 1 :
        max map { length $values[$_] && length $lines[$_] }
                0 .. min $#lines, $opt{hidemax} || ();  # left padding
-my $size   = ($maxval - $minval) &&
-       ($opt{width} - $lenval - $len) / ($maxval - $minval);  # bar multiplication
+my $size   = defined $opt{width} && $range &&
+       ($opt{width} - $lenval - $len) / $range;  # bar multiplication
 
 my @barmark;
 if ($opt{markers} and $size > 0) {
@@ -176,13 +232,22 @@ if ($opt{markers} and $size > 0) {
                                return sum(@order) / @order;
                        }
                        elsif ($func =~ /\A([0-9.]+)v\z/) {
+                               die "Invalid marker $char: percentile $1 out of bounds\n" if $1 > 100;
                                my $index = $#order * $1 / 100;
                                return ($order[$index] + $order[$index + .5]) / 2;
                        }
-                       else {
+                       elsif ($func =~ /\A-?[0-9.]+\z/) {
                                return $func;
                        }
-               } - $minval;
+                       else {
+                               die "Unknown marker $char: $func\n";
+                       }
+               };
+               defined $pos or do {
+                       warn $@ if $@;
+                       next;
+               };
+               $pos -= $minval;
                $pos >= 0 or next;
                color(36) for $barmark[$pos * $size] = $char;
        }
@@ -195,28 +260,16 @@ if ($opt{markers} and $size > 0) {
                        ($lastmax - $minval) * $size + .5,
                        '-' x (($values[$nr - 1] - $minval) * $size);
                print color(92);
-               say '+' x (($maxval - $lastmax - $minval) * $size + .5);
+               say '+' x (($range - $lastmax) * $size + .5);
                print color(0);
                $lastmax = $maxval;
        }
 }
 
-@lines > $nr or return if $opt{hidemin};
-
-sub sival {
-       my $unit = int(log(abs $_[0] || 1) / log(10) - 3*($_[0] < 1) + 1e-15);
-       my $float = $_[0] !~ /^0*[-0-9]{1,3}$/;
-       sprintf('%3.*f%1s',
-               $float && ($unit % 3) == ($unit < 0),  # tenths
-               $_[0] / 1000 ** int($unit/3),   # number
-               $#{$opt{units}} * 1.5 < abs $unit ? "e$unit" : $opt{units}->[$unit/3]
-       );
-}
-
 say(
        color(31), sprintf('%*s', $lenval, $minval),
        color(90), '-', color(36), '+',
-       color(32), sprintf('%*s', $size * ($maxval - $minval) - 3, $maxval),
+       color(32), sprintf('%*s', $size * $range - 3, $maxval),
        color(90), '-', color(36), '+',
        color(0),
 ) if $opt{header};
@@ -224,25 +277,33 @@ say(
 while ($nr <= $#lines) {
        $nr >= $opt{hidemax} and last if defined $opt{hidemax};
        my $val = $values[$nr];
-       my $rel = length $val && ($val - $minval) / ($maxval - $minval);
+       my $rel = length $val && $range && ($val - $minval) / $range;
+       my $color = !length $val || !$opt{palette} ? undef :
+               $val == $order[0] ? $opt{palette}->[-1] : # max
+               $val == $order[-1] ? $opt{palette}->[0] : # min
+               $opt{palette}->[ $rel * ($#{$opt{palette}} - 1) + 1 ];
 
        if ($opt{spark}) {
-               print color($opt{palette}->[ $rel * $#{$opt{palette}} ]) if $opt{palette};
-               print $opt{spark}->[ $rel * $#{$opt{spark}} ];
+               say '' if $opt{width} and $nr and $nr % $opt{width} == 0;
+               print color($color), $opt{spark}->[
+                       !$val || !$#{$opt{spark}} ? 0 : # blank
+                       $val == $order[0] ? -1 : # max
+                       $val == $order[-1] ? 1 : # min
+                       $#{$opt{spark}} < 3 ? 1 :
+                       $rel * ($#{$opt{spark}} - 3) + 2.5
+               ];
                next;
        }
 
        if (length $val) {
-               my $color = !$opt{palette} ? undef :
-                       $val == $order[0] ? $opt{palette}->[-1] : # max
-                       $val == $order[-1] ? $opt{palette}->[0] : # min
-                       $opt{palette}->[ $rel * ($#{$opt{palette}} - 1) + 1 ];
-               $val = $opt{units} ? sival($val) : sprintf "%*s", $lenval, $val;
+               $val = $opt{'value-format'} ? $opt{'value-format'}->($val) :
+                       sprintf "%*s", $lenval, $val;
                color($color) for $val;
        }
        my $line = $lines[$nr] =~ s/\n/$val/r;
        printf '%-*s', $len + length($val), $line;
-       print $barmark[$_] // $opt{'graph-format'} for 1 .. $size && (($values[$nr] || 0) - $minval) * $size + .5;
+       print $barmark[$_] // $opt{'graph-format'}
+               for 1 .. $size && (($values[$nr] || 0) - $minval) * $size + .5;
        say '';
 }
 continue {
@@ -250,25 +311,28 @@ continue {
 }
 say $opt{palette} ? color(0) : '' if $opt{spark};
 
+       return $nr;
 }
 
 sub show_stat {
        if ($opt{hidemin} or $opt{hidemax}) {
-               $opt{hidemin} ||= 1;
-               $opt{hidemax} ||= @lines;
-               printf '%s of ', sum(@values[$opt{hidemin} - 1 .. $opt{hidemax} - 1]) // 0;
+               printf '%.8g of ', $opt{'sum-format'}->(sum(grep { length }
+                       @values[$opt{hidemin} .. ($opt{hidemax} || @lines) - 1]
+               ) // 0);
        }
        if (@order) {
                my $total = sum @order;
-               printf '%s total', color(1) . $total . color(0);
-               printf ' in %d values', scalar @values;
+               printf '%s total', color(1) . $opt{'sum-format'}->($total) . color(0);
+               printf ' in %d values', scalar @order;
+               printf ' over %d lines', scalar @lines if @order != @lines;
                printf(' (%s min, %s avg, %s max)',
                        color(31) . $order[-1] . color(0),
-                       color(36) . (sprintf '%*.*f', 0, 2, $total / @order) . color(0),
+                       color(36) . $opt{'calc-format'}->($total / @order) . color(0),
                        color(32) . $order[0] . color(0),
                );
        }
        say '';
+       return 1;
 }
 
 sub show_exit {
@@ -289,11 +353,12 @@ barcat - graph to visualize input values
 
 =head1 SYNOPSIS
 
-B<barcat> [<options>] [<input>]
+B<barcat> [<options>] [<file>... | <numbers>]
 
 =head1 DESCRIPTION
 
-Visualizes relative sizes of values read from input (file(s) or STDIN).
+Visualizes relative sizes of values read from input
+(parameters, file(s) or STDIN).
 Contents are concatenated similar to I<cat>,
 but numbers are reformatted and a bar graph is appended to each line.
 
@@ -307,13 +372,19 @@ you'll need a larger animal like I<gnuplot>.
 
 =over
 
+=item -a, --[no-]ascii
+
+Restrict user interface to ASCII characters,
+replacing default UTF-8 by their closest approximation.
+Input is always interpreted as UTF-8 and shown as is.
+
 =item -c, --[no-]color
 
 Force colored output of values and bar markers.
 Defaults on if output is a tty,
 disabled otherwise such as when piped or redirected.
 
-=item -f, --field=(<number>|<regexp>)
+=item -f, --field=(<number> | <regexp>)
 
 Compare values after a given number of whitespace separators,
 or matching a regular expression.
@@ -336,7 +407,7 @@ turning long numbers like I<12356789> into I<12.4M>.
 Also changes an exponent I<1.602176634e-19> to I<160.2z>.
 Short integers are aligned but kept without decimal point.
 
-=item -t, --interval[=(<seconds>|-<lines>)]
+=item -t, --interval[=(<seconds> | -<lines>)]
 
 Output partial progress every given number of seconds or input lines.
 An update can also be forced by sending a I<SIGALRM> alarm signal.
@@ -351,7 +422,7 @@ unless C<--length=0>.
 Prepend a dash (i.e. make negative) to enforce padding
 regardless of encountered contents.
 
-=item -L, --limit=(<count>|<start>-[<end>])
+=item -L, --limit[=(<count> | <start>-[<end>])]
 
 Stop output after a number of lines.
 All input is still counted and analyzed for statistics,
@@ -403,13 +474,18 @@ These options can be set to customize this range.
 
 Override colors of parsed numbers.
 Can be any CSI escape, such as I<90> for default dark grey,
-or alternatively I<1;30> for bold black.
+or alternatively I<1;30> for bright black.
 
 In case of additional colors,
 the last is used for values equal to the maximum, the first for minima.
 If unspecified, these are green and red respectively (I<31 90 32>).
+Multiple intermediate colors will be distributed
+relative to the size of values.
+
+Predefined color schemes are named I<whites> and I<fire>,
+or I<greys> and I<fire256> for 256-color variants.
 
-=item --spark[=<glyphs>]
+=item --spark[=<characters>]
 
 Replace lines by I<sparklines>,
 single characters corresponding to input values.
@@ -474,7 +550,7 @@ Monitor network latency from prefixed results:
 
 Commonly used after counting, for example users on the current server:
 
-    users | sed 's/ /\n/g' | sort | uniq -c | barcat
+    users | tr ' ' '\n' | sort | uniq -c | barcat
 
 Letter frequencies in text files:
 
@@ -491,14 +567,18 @@ Any kind of database query with counts, preserving returned alignment:
     echo 'SELECT count(*),schemaname FROM pg_tables GROUP BY 2' |
     psql -t | barcat -u
 
+In PostgreSQL from within the client:
+
+       postgres=> SELECT sin(generate_series(0, 3, .1)) \g |barcat
+
 Earthquakes worldwide magnitude 1+ in the last 24 hours:
 
-    https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/1.0_day.csv |
-    column -tns, | graph -f4 -u -l80%
+    curl https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/1.0_day.csv |
+    column -tns, | barcat -f4 -u -l80%
 
 External datasets, like movies per year:
 
-    curl https://github.com/prust/wikipedia-movie-data/raw/master/movies.json |
+    curl https://github.com/prust/wikipedia-movie-data/raw/master/movies.json -L |
     perl -054 -nlE 'say if s/^"year"://' | uniq -c | barcat
 
 But please get I<jq> to process JSON
@@ -506,7 +586,7 @@ and replace the manual selection by C<< jq '.[].year' >>.
 
 Pokémon height comparison:
 
-    curl https://github.com/Biuni/PokemonGO-Pokedex/raw/master/pokedex.json |
+    curl https://github.com/Biuni/PokemonGO-Pokedex/raw/master/pokedex.json -L |
     jq -r '.pokemon[] | [.height,.num,.name] | join(" ")' | barcat
 
 USD/EUR exchange rate from CSV provided by the ECB:
@@ -515,10 +595,9 @@ USD/EUR exchange rate from CSV provided by the ECB:
          -Gd 'node=SEARCHRESULTS&q=EXR.D.USD.EUR.SP00.A&exportType=csv' |
     grep '^[12]' | barcat -f',\K' --value-length=7
 
-Total population history from the World Bank dataset (XML):
-External datasets, like total population in XML from the World Bank:
+Total population history in XML from the World Bank:
 
-    curl http://api.worldbank.org/v2/country/1W/indicator/SP.POP.TOTL |
+    curl http://api.worldbank.org/v2/country/1W/indicator/SP.POP.TOTL -L |
     xmllint --xpath '//*[local-name()="date" or local-name()="value"]' - |
     sed -r 's,</wb:value>,\n,g; s,(<[^>]+>)+, ,g' | barcat -f1 -H
 
@@ -530,11 +609,15 @@ Or the top 3 most frequent authors with statistics over all:
 
     git shortlog -sn | barcat -L3 -s
 
-Activity of the last days (substitute date C<-v-{}d> on BSD):
+Sparkline graphics of simple input given as inline parameters:
+
+       barcat --spark= 3 1 4 1 5 0 9 2 4
+
+Activity graph of the last days (substitute date C<-v-{}d> on BSD):
 
     ( git log --pretty=%ci --since=30day | cut -b-10
       seq 0 30 | xargs -i date +%F -d-{}day ) |
-    sort | uniq -c | awk '$1--' | graph --spark
+    sort | uniq -c | awk '$1--' | barcat --spark
 
 =head1 AUTHOR