TODO: non-alphabetic (.) support
[perl/list-index.git] / lib / List / Index.pm
index 89fdc75c83fa3c7b8709734f6b0403aeee087048..dca0d1f3970b83ffad665fc385ea2ed00b8bd778 100644 (file)
@@ -6,7 +6,7 @@ use warnings;
 
 use Exporter 'import';
 
-our $VERSION = '1.00';
+our $VERSION = '1.01';
 our @EXPORT_OK = qw(rangematch);
 
 sub new {
@@ -23,31 +23,53 @@ sub ranges {
        my $pages    = $options->{pages   } || 1 + int $#$self / $pagesize;
 
        $pagesize = @$self / $pages;
-       my $offset = 0;
-       my @links;
+       my $offset = $pagesize;
+       my @links = ('');
        while ($offset < @$self) {
                my $link = substr $self->[$offset], 0, $length;
                if ($context) {
-                       my $trim = 1;
-                       my $before = $offset > $context ? $self->[$offset - $context] : '';
-                       for my $match (split //, $before) {
-                               scalar $link =~ /\G\Q$match/g or last;
-                               $trim++;
+                       {
+                               # take a value slightly before the current offset
+                               my $before = $offset > $context ? $self->[$offset - $context] : '.';
+                               # see how much of it matches the current link
+                               my $trim = 1;
+                               for my $match (split //, $before) {
+                                       scalar $link =~ /\G\Q$match/g or last;
+                                       $trim++;
+                               }
+                               # truncate link upto where the earlier value starts to differ
+                               substr($link, $trim) = '' unless $trim > length $link;
+                       }
+
+                       if ($offset + $context < $#$self) {
+                               # take a value after the current offset
+                               my $after = $self->[$offset + $context];
+                               # see how much of it matches the current link
+                               my $trim = 1;
+                               for my $match (split //, $after) {
+                                       scalar $link =~ /\G\Q$match/g or last;
+                                       $trim++;
+                               }
+                               # use this link if it's shorter
+                               if ($trim < length $link) {
+                                       $link = substr $after, 0, $trim;
+                               }
                        }
-                       substr($link, $trim) = '' unless $trim > length $link;
                }
 
-               push @links, [$link];
+               push @links, $link;
                $offset += $pagesize;
        }
 
+       use List::MoreUtils 'uniq';
+       @links = uniq @links;
        for my $i (0 .. $#links - 1) {
-               my ($link, $lastchar) = $links[$i + 1]->[0] =~ /(.*)(.)/;
-               $link .= $lastchar eq '.' ? 'z' : chr( ord($lastchar) - 1 )
-                       unless $lastchar eq 'a';
-               $links[$i]->[1] = $link;
+               my ($link, $lastchar) = $links[$i + 1] =~ /(.*)(.)/;
+               $link .= $lastchar le 'a' ? '.' : chr( ord($lastchar) - 1 );
+               next if $link eq $links[$i] and $i;
+               $links[$i] .= '-'.$link;
        }
-       $links[-1]->[1] = '';
+       $links[-1] .= '-';
 
        return \@links;
 }
@@ -56,36 +78,80 @@ sub rangematch {
        my ($link) = @_;
        my ($s1, $s2) = $link =~ /([^-]*) - ([^-]*)/x
                or return qr/^\Q$link/i;
+       $s1 =~ s/\.$//;
        my @allow;
 
        if (length $s1) {
+               if (length $s2) {
+                       $s1 le $s2 or $s1 =~ /^\Q$s2/ or return undef;
+               }
+
                my $prefix = '';
-               my $c1;
+               my $char;
                for my $i (0 .. length($s1) - 1) {
-                       $c1 = substr $s1, $i, 1;
-                       my $c2 = length $s2 <= $i ? undef : substr $s2, $i, 1;
-                       my $next = $i + 1 >= length($s1) ? $c1 : chr( ord($c1) + 1 );
-                       my $last = defined $c2 && $i == 0 ? chr( ord($c2) - (length $s2 > 1) ) : 'z';
-                       $next le $last or next if defined $c2;
+                       my $lasti = $i == length($s1) - 1;
+                       $char = substr $s1, $i, 1;
+                       my $next = $char;
+                       # do not include prefix character in final range
+                       $next = chr( ord($char) + 1 ) unless $lasti;
+
+                       my $last = 'z';
+                       next if $next gt $last;
+                       if (length $s2 > $i) {
+                               if ($s2 =~ /^\Q$prefix/) {
+                                       $last = substr $s2, $i, 1;
+                                       next if $char eq $last;
+                                       $last = chr( ord($last) - (length $s2 > 1) );
+                                       next if $next gt $last;
+                               }
+                       }
+
+                       if ($char eq '.') {
+                               if ($last eq 'z') {
+#                                      push @allow, $prefix if $i and $lasti;
+#                                      next;
+                               }
+#                              if ($last eq 'z') {
+#                                      push @allow, $prefix if $i and $lasti;
+#                                      next;
+#                              }
+                               $next = 'a';
+                       }
+
                        push @allow, $prefix."[$next-$last]";
                }
                continue {
-                       $prefix .= $c1;
+                       $prefix .= $char eq '.' ? '[^a-z]' : $char;
                }
        }
 
        if (length $s2) {
                my $prefix = '';
+               my $char;
                for my $i (0 .. length($s2) - 1) {
-                       my $c1 = length $s1 <= $i ? undef : substr $s1, $i, 1;
-                       my $c2 = substr $s2, $i, 1;
+                       $char = substr $s2, $i, 1;
                        my $last = 'z';
-                       push @allow, "$prefix(?![$c2-$last])"
+                       if (length $s1 > $i) {
+                               my $c1 = substr $s1, $i, 1;
+                               if ($s1 =~ /^\Q$prefix/) {
+                                       next if $c1 le $char;
+                               }
+                       }
+
+                       if ($char eq '.') {
+                               next if $i < length($s2) - 1;
+                       }
+
+                       push @allow, $prefix.'(?!['.($char eq '.' ? 'a' : $char)."-$last])"
                                if $i or $s1 eq '';
-                       $prefix .= $c2;
                }
+               continue {
+                       $prefix .= $char eq '.' ? '[^a-z]' : $char;
+               }
+
                push @allow, $prefix
-                       unless length $s1 > length $s2 or length $s1 != 0 && length $s2 == 1; #TODO
+                       if $s2 =~ /^\Q$prefix/ and $s1 le $s2
+                       and not (length $s2 == 1 && length $s1 >= length $s2 && $s1 ne $s2);
        }
 
        my $match = sprintf @allow <= 1 ? '%s' : '(?:%s)', join('|', @allow);
@@ -105,7 +171,11 @@ List::Index - Paginate alphabetic entries by finding minimal prefixes
        use List::Index;
        my $index = List::Index->new(\@values);
        my @pages = $index->ranges({pagesize => 50});
-       printf '<a href="?start=%s&amp;end=%s">%1$s</a> ', @$_ for @pages;
+       printf '<a href="?q=%s-%s">%1$s</a> ', @$_ for @pages;
+
+       use List::Index 'rangematch';
+       my $limit = rangematch('b-bmq');  # matches prefix like 'baa'..'bmq'
+       @results = grep { $limit } @results;
 
 =head1 DESCRIPTION