unicode-sampler.git
8 years agosymmetric ascii art bunny
Mischa POSLAWSKY [Sun, 13 Sep 2015 18:07:29 +0000 (20:07 +0200)]
symmetric ascii art bunny

Keep to ASCII characters as commonly used (curved quotation marks were
likely substituted due to an erroneous copypaste).

8 years agodrop mathematical ABC symbols line
Mischa POSLAWSKY [Sat, 12 Sep 2015 13:29:06 +0000 (15:29 +0200)]
drop mathematical ABC symbols line

Places too much emphasis on an relatively insignificant plane 1 block.
One such character also introduced in commit 30491ef4cf (2015-09-09)
[complex conjugate formula to cover blackletter and italic letters]
remains elsewhere.

8 years agoinsert non-joiner between non-ligature fl in german pangram
Mischa POSLAWSKY [Sat, 12 Sep 2015 13:25:54 +0000 (15:25 +0200)]
insert non-joiner between non-ligature fl in german pangram

Lost during copypaste from original.

8 years agofix mistyped letter in greek iliad
Mischa POSLAWSKY [Fri, 11 Sep 2015 18:11:40 +0000 (20:11 +0200)]
fix mistyped letter in greek iliad

Obvious mistake caught while rereading.

8 years agoglagolitic tower of bable transcription
Mischa POSLAWSKY [Fri, 11 Sep 2015 17:22:47 +0000 (19:22 +0200)]
glagolitic tower of bable transcription

Another line to properly finish the story.  Preferred succession from
Slavonic would be old Croatian in Glagolitic script.  However, unable to
find any such version online, settle for an original composition.

Based on a different source of Church Slavonic without abbreviations
from <http://www.vechnoe.info/bible/translit/gen/11>:

Прїидѣте и изшедше смѣсимъ имъ ту язы́ки ихъ,
да не услы́шатъ ко́ждо дру́га своего.

Converted to Glagolitic using some naive conversion rules:

tr{абвгдежѕзиїклмнопрстуфхѡщцчшъыьѣёюяѩѫ,.}
  {ⰰⰱⰲⰳⰴⰵⰶⰷⰸⰺⰻⰽⰾⰿⱀⱁⱂⱃⱄⱅⱆⱇⱈⱉⱋⱌⱍⱎⱏⰹⱐⱑⱖⱓⱔⱗⱘ·:};
s/ⰹ/ⱏⰹ/g;
s/\Bⰺ/ⰻ/g;

Arbitrarily appended three dot+paragraphos punctuation to end text.

8 years agocyrillic tower of babel in multiple slavic languages
Mischa POSLAWSKY [Fri, 11 Sep 2015 14:32:41 +0000 (16:32 +0200)]
cyrillic tower of babel in multiple slavic languages

Replace Russian sample by Genesis 11:1-6 with each line in another
translation from <http://www.omniglot.com/babel/langfam.htm#ie>:
Russian, Serbian, Belarusian, Ukrainian, Macedonian, Church Slavonic.
Adds 16 distinct letters in 29 forms, only loses ф.

Manually transcribed the image of Slavonic (hopefully correctly),
featuring obsolete letters (yat, yus, ou both monographic and digraphic)
and diacritics including U+0483 titlo and U+2DED es with pokrytie.

8 years agocomplex conjugate formula to cover blackletter and italic letters
Mischa POSLAWSKY [Wed, 9 Sep 2015 21:07:56 +0000 (23:07 +0200)]
complex conjugate formula to cover blackletter and italic letters

Elaborate on complex numbers ℂ, covering some more symbols including an
italic i from plane 1.  Should provide a new challenge to render correctly
(notably aligning bracket lines after combining mark and 4-byte UTF-8).

8 years agoreorder languages to transition from semitic to indic
Mischa POSLAWSKY [Wed, 9 Sep 2015 20:44:50 +0000 (22:44 +0200)]
reorder languages to transition from semitic to indic

Ethiopic after Hebrew (similar languages, simple rendering);
Thai before Hindi to group the more complex scripts together.

8 years agomove typography section up
Mischa POSLAWSKY [Wed, 9 Sep 2015 20:42:05 +0000 (22:42 +0200)]
move typography section up

More logical to list general features before going into specific languages.

8 years agomove font overview to top
Mischa POSLAWSKY [Wed, 9 Sep 2015 20:35:43 +0000 (22:35 +0200)]
move font overview to top

Generic introduction before going into specifics.

Initially kept below <pre> for html compatibility, but this should not
influence the normal/intended layout.

8 years agoreplace random signs in typography by basic arithmetics
Mischa POSLAWSKY [Wed, 9 Sep 2015 20:25:05 +0000 (22:25 +0200)]
replace random signs in typography by basic arithmetics

Keeps minus and dashes but with better context and some other common symbols.
Loses trademark sign, but who wants to see that anyway?

8 years agotypography item for currency usage (elaborating on euro sign)
Mischa POSLAWSKY [Wed, 9 Sep 2015 19:53:54 +0000 (21:53 +0200)]
typography item for currency usage (elaborating on euro sign)

Sample Spanish, American, and Japanese pricing syntax equivalent to
"1 USD a piece", featuring the cada/una sign, superscript zeroes,
and small katakana and wide numbers.

8 years agoimprove paragraph headers
Mischa POSLAWSKY [Wed, 9 Sep 2015 00:50:00 +0000 (02:50 +0200)]
improve paragraph headers

Mark sub-headers with leading bullet (improve structural clarity without
another indentation level).

8 years agoreplace ethiopic by multilingual sample
Mischa POSLAWSKY [Tue, 8 Sep 2015 23:17:49 +0000 (01:17 +0200)]
replace ethiopic by multilingual sample

Replace armaric proverbs by Unicode introduction translations
from <http://www.unicode.org/standard/WhatIsUnicode-more.html>
> Unicode provides a unique number for every character,
> no matter what the platform,
> no matter what the program,
> no matter what the language.
in common Ethiopian/Amharic, non-semitic Agaw/B(i)lin, and supplemented
SebatBe(i)t/Cheha, for a more varied overview: containing 61 letter forms
from 29 distinct consonant groups, previously 82 from 25.

Other translations in Tigrigna and Xamtanga do not fit in 80 columns,
but are related to Ethiopian and Agaw respectively so are not too distinct.

Different punctuation marks in originals were kept for variety.
Cheha includes 2 characters (ᎏ and ᎇ) from Ethiopic Supplement block U+138x
and 1 variant form (ኵ could be rendered with a labialisation loop).

Unfortunately no extended code points (U+2D8x/AB0x) as sources are very hard
to come by: theoretically there should be bible translations of Basketo,
Gumuz, or Bench; but no equivalent texts could be found online, let alone in
a suitable encoding (found only snippets with private-use chars and images).

8 years agoextend hebrew sample to 5 lines
Mischa POSLAWSKY [Tue, 8 Sep 2015 21:33:23 +0000 (23:33 +0200)]
extend hebrew sample to 5 lines

Two lines is a very minimal test; rather include the entire body from
<http://www.oocities.org/kr/tomchiukc/Language/Unicode/x-utf8.html>
covering the entire alefbet (adds חטפק).

8 years agocombine short pangrams
Mischa POSLAWSKY [Tue, 8 Sep 2015 20:58:39 +0000 (22:58 +0200)]
combine short pangrams

Single line showcasing all language-specific letters of
Danish, Hungarian, Polish, Esperanto.

Besides saving space, it gives a good overview of traditional
character set compatibility, respectively listing characters from
ISO-8859/Latin-1 (da), Latin-2 (hu/pl), and Latin-3 (eo).

Bullet separators are only in Windows-125x supersets.

Bedaŭrinde malgajnis mian propran ŝerceton ĉar tro longas :(

8 years agolithuanian pangram
Mischa POSLAWSKY [Tue, 8 Sep 2015 20:33:19 +0000 (22:33 +0200)]
lithuanian pangram

While it does not introduce any new diacritics (just czech háčeks and polish
ogoneks and dot) the different combinations are not as widely supported
(less widely used and not in ISO-8859-2).

8 years agomore natural ipa transcription of english panphone
Mischa POSLAWSKY [Tue, 8 Sep 2015 19:58:26 +0000 (21:58 +0200)]
more natural ipa transcription of english panphone

Pronunciation of "again" is rarely with a palatal g, and usually with
a monophthong.  Instead include other non-phonemic realisations like
- common aspiration (frequent after initial voiceless stops),
- retraction (postalveolar variation before rhotic sound), and
- release (not audible for the first stop of a cluster).
Also replace one instance of /ʌ/ by allophone /ɐ/.

8 years agohebrew zarka table including all common prosodic signs
Mischa POSLAWSKY [Mon, 7 Sep 2015 16:32:31 +0000 (18:32 +0200)]
hebrew zarka table including all common prosodic signs

Test sentence from <http://www.sagreiss.org/cantillizer/cantillation.htm>
covering 32 distinct marks over 24 letters.  Superset of more commonly used
vowel points, with combinations of upto 4 glyphs.  Notably Unifont (v8.0.01)
makes no effort at all even to avoid overlapping with letters.

8 years agothai pangram
Mischa POSLAWSKY [Mon, 7 Sep 2015 15:27:11 +0000 (17:27 +0200)]
thai pangram

Replace random text containing only 43 distinct letters with 15 diacritics
(103 combinations) by a dedicated pangram used on multiple websites, notably
<http://www.thai-language.com/ref/typographical-styles>.  It is said to be
owned by "The Computer Association of Thailand under the Royal Patronage of
His Majesty the King" (abbreviated to fit in header line).

This should cover all commonly used forms (an additional 11 letters in
86 combinations).  It still lacks the mostly obsolete consonants ฃ and ฅ,
but includes all vowel signs not found in other pangrams.
Also no traditional numerals, but western digits are more commonly used.

Padded to retain aligned columns (but no longer explicitly indicated as it's
only a minor aspect of correct rendering).

Append "angkhan wisanchani khomut" marking the very end of a written work
to cover khankhu and khomut signs, but leaving out the obsolete fongman mark
at the beginning.

8 years agocover all latin1 spacing accents by adding cedilla
Mischa POSLAWSKY [Sat, 5 Sep 2015 08:52:49 +0000 (10:52 +0200)]
cover all latin1 spacing accents by adding cedilla

Fill line by including missing U+00B8 CEDILLA which exists together with
Unicode extension U+02D8 BREVE on U+1E1D E.

8 years agoinclude vietnamese in diacritics decomposition line
Mischa POSLAWSKY [Sat, 5 Sep 2015 08:33:29 +0000 (10:33 +0200)]
include vietnamese in diacritics decomposition line

Test multiple combining marks with a sentence containing various accents from
<http://lists.hanoilug.org/pipermail/du-an-most/2011-December/005228.html>
(apparently a common saying).

Replace latvian by a shorter variant from <http://clagnut.com/blog/2380/>,
with unneeded adjectives (brīvi, celofāna) omitted to fit.

8 years agosingle-line slovak pangram
Mischa POSLAWSKY [Sat, 5 Sep 2015 08:29:58 +0000 (10:29 +0200)]
single-line slovak pangram

More efficient sentence from <https://sk.wikipedia.org?oldid=6081871>,
lacking some ASCII but including all specific letters.

8 years agoancient greek verse from homer's iliad
Mischa POSLAWSKY [Sat, 5 Sep 2015 07:45:42 +0000 (09:45 +0200)]
ancient greek verse from homer's iliad

Slightly non-standard orthography showcasing some archaic features.

Based on polytonal transcription with pneuma (including psili), tonos
(oxeia, bareia, perispwmenh), coronis, and diairesis.  Includes macron
length marks from <http://www.ancientgreekonline.com/Iliad/Iliad.htm>,
which is also the source of the more minimal punctuation:

> Modern emendations and modern punctuation have been avoided wherever
> possible, especially in the case of commas, which are usually an unwelcome
> intrusion upon the exquisite system of particles that give both clarity
> and effervescence to the epic hexameters.

Reconstructed digamma and qoppa have been ported from the hypothetical
adapter's hand illustrated on p65 of "Homer and the Origin of the Greek
Alphabet", 1991 by Barry B. Powell (available at <http://monoskop.org/>),
resulting in one of each:

> the digamma was written, in recording poetry, only in those cases where the
> sound represented by digamma still made metrical position in the verse.

This seems like a far better approach compared to for example
<http://www.download-free-mp3music.com/song/homers-iliad-1-32/190349993/>
which attempts to recover all parachronistic occurrences.

Qoppa is rarely seen in modern texts, but is an appropriate variation of
kappa before back vowels.

Does not include san variation (too random in this style), nor iota
ligatures (which came later).  Does seem to feature everything from the
previous sample, except for the excessive amount of lines.

8 years agomonotonic greek anthem
Mischa POSLAWSKY [Sat, 5 Sep 2015 08:10:00 +0000 (10:10 +0200)]
monotonic greek anthem

Replace hymn lyrics by post-1982 orthography, which should be covered first
and foremost.  Includes all letters except Ξ and Φ, including accented
vowels; just no dialytica.

8 years agoenlarge font overview block to 4 lines
Mischa POSLAWSKY [Sat, 5 Sep 2015 06:10:04 +0000 (08:10 +0200)]
enlarge font overview block to 4 lines

Extend further to be able to feature:

- all 94 ASCII characters;
- uncommon extension examples for georgian, hebrew, arabic;
- many more currency signs (inspired by HTML sampler top row),
  grouped by rarity: common symbols first (last ones are new to Unicode:
  rupee in 6.0, ruble in 7.0), then other significant national symbols
  (assortment from <http://sheet.shiar.nl/unicode>);
- dingbats and technical symbols (mostly personal favourites),
  restrict to plane 0 for now (extended emoji have unreliable width);
- common key/control graphic representations (space, bs, option/alt,
  command, menu, enter, null; also playstation (or symbolics kb) shapes).

8 years agoextend font overview to 3x70
Mischa POSLAWSKY [Sat, 5 Sep 2015 05:22:52 +0000 (07:22 +0200)]
extend font overview to 3x70

Maximise width to include more characters, including:

- more punctuation (guillemets, <>, section marks);
- grouped brackets for better discoverability;
- the first 3 letters for other alphabets (testing support of arabic
  contextual forms);
- extended cyrillic (old yat, uncommon accent).

8 years agoseparate perl operators with whitespace
Mischa POSLAWSKY [Thu, 3 Sep 2015 10:33:51 +0000 (12:33 +0200)]
separate perl operators with whitespace

Assume keming is never really an issue for ASCII,
so prefer common spacing style outside of golf.

8 years agorandom c code sample
Mischa POSLAWSKY [Thu, 3 Sep 2015 10:32:29 +0000 (12:32 +0200)]
random c code sample

From <http://people.mpi-inf.mpg.de/~uwe/misc/uw-ttyp0/>.
Includes several bitwise operators and other common sequences (->, !=, ++).

8 years agochess notation line
Mischa POSLAWSKY [Thu, 3 Sep 2015 01:14:21 +0000 (03:14 +0200)]
chess notation line

Part of the "Immportal Game" between Adolf Anderssen and Lionel Kieseritzky,
from <https://en.wikipedia.org?oldid=644618706> in algebraic notation with:

- figurine pieces (7 out of 12, and 5 kinds (only missing rooks), probably
  as good as we can get without resorting to an uninspired listing),
- chess marks using stylistic daggers,
- precomposed annotation symbols ligature of ?! (along with ⁇/⁉/‼ apparently
  in Unicode for this very purpose),
- precomposed glyphs for ordinal digits with period,
- multiplication symbol for captures (common in books, as summarised in
  Wikipedia discussion <https://en.wikipedia.org?oldid=599812962>
  though they finally prefer compatibility over typography it seems).

8 years agolookalikes for 2 and 5
Mischa POSLAWSKY [Thu, 3 Sep 2015 01:09:20 +0000 (03:09 +0200)]
lookalikes for 2 and 5

Though rarely indistinct, still good for font comparison.

8 years agoappend guillemets to quoting line
Mischa POSLAWSKY [Thu, 3 Sep 2015 01:07:02 +0000 (03:07 +0200)]
append guillemets to quoting line

8 years agocondense typography points
Mischa POSLAWSKY [Thu, 3 Sep 2015 00:46:23 +0000 (02:46 +0200)]
condense typography points

- Quoting styles on single line;
- Additional latin1 spacing accents in sentence;
- Simplify euro sign sample (extremely commonly supported nowadays),
  removing need for double spacing.

8 years agoarrow drawing characters
Mischa POSLAWSKY [Thu, 3 Sep 2015 00:17:57 +0000 (02:17 +0200)]
arrow drawing characters

Random assortment of basic arrow characters, especially to test arrow line
extensions U+23AF/23D0.  Also contains all eighth blocks and scan lines.

8 years agoaztec scan code in block drawing characters
Mischa POSLAWSKY [Sat, 22 Aug 2015 04:20:17 +0000 (06:20 +0200)]
aztec scan code in block drawing characters

Test proper rendering and alignment (which can be verified by external scanner)
of an original 2D code creatable using Barcode Writer in Pure PostScript:

cat <<-. |
0 0 moveto (Unicode code) (ecaddchars=2)
/azteccode /uk.co.terryburton.bwipp findresource exec
.
cat /usr/share/libpostscriptbarcode/barcode.ps -

Older 2014 version in Debian needs pre-encoded input to create 15x15 code:

(10110111000111101010001001000000101001100000100100100000010100110)(raw)

Then converted via PBM to 2x2 box characters:

pstopnm -pbm -forceplain -stdout -portrait -xsize 15 \
-llx 0 -lly 0 -urx .42 -ury .42 -xborder 0 -yborder 0 |
perl -CO -ln -e'
use utf8;
/^[01]+$/  or next;
sub halfbits ($;$) {
pack "C*", map { $_ << $_[1] } unpack "C*", # multiply values
pack "(b2)*", split /..\K/, $_[0];  # value of every 2 bits
}
($_) = halfbits($_) | halfbits(<>, 2);  # 0..3 + 0,4,8,12
y/\0-\017/ ▘▝▀▖▌▞▛▗▚▐▜▄▙▟█/;
print;
'

Ironically, Aztec Codes do not really support Unicode (raw bytes are
declared to be Latin1), but it's currently the only widely supported 2D code
of this size.

8 years agoascii/jis art of bunny and japanese smiley thing
Mischa POSLAWSKY [Thu, 3 Sep 2015 00:05:44 +0000 (02:05 +0200)]
ascii/jis art of bunny and japanese smiley thing

Bunny from <https://steamcommunity.com/groups/ascii-art> and elsewhere
to test practical line art.

Kaomoji amalgamated from various sources to mix widths and scripts
(Japanese, Tibetan, Geometric, Maths).

8 years agoascii art for practical box drawing test
Mischa POSLAWSKY [Thu, 3 Sep 2015 00:04:25 +0000 (02:04 +0200)]
ascii art for practical box drawing test

ANSI art example from <https://commons.wikimedia.org?oldid=117654083>
featuring IBM-CP437 compatible block drawing commonly found in .nfo logos.

8 years agoredesign box drawing to fit 137 code points in less space
Mischa POSLAWSKY [Wed, 2 Sep 2015 22:25:06 +0000 (00:25 +0200)]
redesign box drawing to fit 137 code points in less space

The 5 7x7 box figures can be condensed into 3 with similar aesthetics,
more concisely targeted to:
- simple single and double lines (IBM CP850 superset),
- single/double transitions and round corners (previously 3rd and 4th boxes,
  includes all IBM CP437 lines),
- heavy lines and diagonals (5th box with 1st innards).

Introduce another such drawing featuring all dashed lines (including
previously missing quadruple dashed horizontal lines) and block quadrants
(still missing ▚ and ▞).

Keep some smaller figures for heavy line combinations, introducing a single
#-shape to cover half line endings as well as 4 additional heavy transitions,
though various other such code points are still missing.

8 years agomicro sign in scientific sample
Mischa POSLAWSKY [Tue, 1 Sep 2015 16:42:16 +0000 (18:42 +0200)]
micro sign in scientific sample

Replace random length unit to cover another common (Latin1) code point.

8 years agoappend negative squared letters to mathematical fonts
Mischa POSLAWSKY [Tue, 1 Sep 2015 16:27:41 +0000 (18:27 +0200)]
append negative squared letters to mathematical fonts

A, B, and AB indicate blood types, and are supported
as :x: campfire/github/&c emoticon entities.

8 years agocircled letters to introduce mathematical fonts
Mischa POSLAWSKY [Tue, 1 Sep 2015 16:18:17 +0000 (18:18 +0200)]
circled letters to introduce mathematical fonts

More general-purpose, but similar and more commonly supported
so leaves a basic impression if other glyphs do not render.

8 years agomathematical letter symbols (ABC in all styles)
Mischa POSLAWSKY [Tue, 1 Sep 2015 16:03:05 +0000 (18:03 +0200)]
mathematical letter symbols (ABC in all styles)

Compare letterlike fonts at U+2100 and U+1D400.
Should not be used to create words.

8 years agoreplace mixed scripts in "stargate" diacritics sample
Mischa POSLAWSKY [Tue, 1 Sep 2015 14:49:46 +0000 (16:49 +0200)]
replace mixed scripts in "stargate" diacritics sample

Prefer latin "turned V" over greek lambda for strokeless A.
May not matter in most fonts, but should be more appropriate,
or at least introducing another (more rare) character.

8 years agokhoekhoen/nama pangram to cover khoisan orthography
Mischa POSLAWSKY [Tue, 1 Sep 2015 14:38:52 +0000 (16:38 +0200)]
khoekhoen/nama pangram to cover khoisan orthography

Sample from <http://www.omniglot.com/writing/khoekhoe.htm>
for the most widely spoken "Khoisan" language, featuring 3 click letters
(only lacking ʘ) and 2 distinct tone accents.

8 years agoigbo single line to feature all non-ascii letters
Mischa POSLAWSKY [Tue, 1 Sep 2015 14:13:46 +0000 (16:13 +0200)]
igbo single line to feature all non-ascii letters

Keep only second sentence since it contains all unique characters.
This part should remain correct stand-alone, translating as "Rejoice, get
together, speak and agree that it may stand firm, (s)he surely will grow".

Translation and contraction from deleted Wikipedia post available at:
<http://wpedia.goo.ne.jp/enwiki/Wikipedia_talk:Articles_for_creation/Igbo_Pangram>

Unfortunately no suitable samples found featuring tone marks as commonly
found in practical orthographies.

8 years agoindicate voiced sounds in katakana
Mischa POSLAWSKY [Wed, 26 Aug 2015 06:15:10 +0000 (08:15 +0200)]
indicate voiced sounds in katakana

Test properly voiced characters which unlike hiragana aren't covered by
the kanji version.

8 years agoalign japanese characters using ideographic spaces
Mischa POSLAWSKY [Wed, 26 Aug 2015 06:13:54 +0000 (08:13 +0200)]
align japanese characters using ideographic spaces

Avoid excessive column misalignment with variable width rendering.
Test monospacing equivalence in header row only.

8 years agokorean pangram with halfwidth jamo
Mischa POSLAWSKY [Wed, 26 Aug 2015 05:56:02 +0000 (07:56 +0200)]
korean pangram with halfwidth jamo

Another alphabetic equivalent for modern korean, created by:

perl -Mcharnames=:full -CS -pe'package charnames;
s{\S}{chr vianame(viacode(ord $&) =~ s/^(?=HANGUL)/HALFWIDTH /r)}ge'

8 years agokorean pangram with separate jamo
Mischa POSLAWSKY [Wed, 26 Aug 2015 05:50:29 +0000 (07:50 +0200)]
korean pangram with separate jamo

Purely alphabetic variant for further comparison, created using:

perl -Mcharnames=:full -CS -pe 'package charnames;
s/\N{HANGUL CHOSEONG IEUNG}//g;
s{\S}{chr vianame(viacode(ord $&) =~ s/^HANGUL \K\S+/LETTER/r)}ge'

8 years agokorean pangram to compare jamo decomposition
Mischa POSLAWSKY [Wed, 26 Aug 2015 05:39:14 +0000 (07:39 +0200)]
korean pangram to compare jamo decomposition

Seeing how some fonts/terminals/editors mangle the jamo version of
hunminjeongeum, add a line of modern korean in different encodings
to more extensively test equivalent rendering.

This most complete option from <https://ko.wikipedia.org/?oldid=14664370>
contains all jamo including double consonants and combined vowels.

Decomposed version created using:
perl -MLingua::KO::Hangul::Util=:all -CS -ne 'print decomposeSyllable($_)'

8 years agooriginal middle korean hangeul for hunminjeongeum
Mischa POSLAWSKY [Wed, 26 Aug 2015 05:19:31 +0000 (07:19 +0200)]
original middle korean hangeul for hunminjeongeum

Based on <http://faq.ktug.or.kr/wiki/uploads/hunmin.uni> (3rd lines)
with private use characters replaced manually, and hangeul syllables
decomposed to match.

8 years agokorean hunminjeongeum
Mischa POSLAWSKY [Wed, 26 Aug 2015 05:17:50 +0000 (07:17 +0200)]
korean hunminjeongeum

Original introduction to hangeul in modern korean and classical chinese from
<https://ko.wikipedia.org?oldid=14743128> with 스물여덟 replaced by 28 to
test mixing modern digits.

8 years agotest diacritic composition with latvian pangram
Mischa POSLAWSKY [Tue, 25 Aug 2015 11:41:26 +0000 (13:41 +0200)]
test diacritic composition with latvian pangram

Compare the same sentence with precomposed and decomposed characters,
which should look alike with correct support for diacritics composition.
The (alternate) Latvian pangram features accents both above and below
letters, and does not match automated Unicode decomposition because
typographically preferred commas accents are used instead of cedillas.

8 years agoreplace duplicate "text" in introduction by synonym
Mischa POSLAWSKY [Tue, 25 Aug 2015 11:37:06 +0000 (13:37 +0200)]
replace duplicate "text" in introduction by synonym

8 years agoshavian transcription of english panphone
Mischa POSLAWSKY [Tue, 25 Aug 2015 11:36:36 +0000 (13:36 +0200)]
shavian transcription of english panphone

8 years agorunic punctuation in rune sentence
Mischa POSLAWSKY [Tue, 25 Aug 2015 11:04:23 +0000 (13:04 +0200)]
runic punctuation in rune sentence

8 years agomove old english near modern english section
Mischa POSLAWSKY [Tue, 25 Aug 2015 11:03:18 +0000 (13:03 +0200)]
move old english near modern english section

8 years agoborder around font overview instead of typography list
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:53:38 +0000 (12:53 +0200)]
border around font overview instead of typography list

8 years agoadjust font overview to include more ascii characters
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:49:33 +0000 (12:49 +0200)]
adjust font overview to include more ascii characters

8 years agogerman pangram with precomposed ligatures
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:31:07 +0000 (12:31 +0200)]
german pangram with precomposed ligatures

From HTML sampler, attributed to Karl Pentzlin.  Covers many digraphs and
trigraphs, some of which have been replaced by presentational forms if
available in Unicode.  This is mostly a technical test of code points,
not of proper typesetting: proper ligatures should be determined by fonts
and rarely matches only these 6 sets.

Common Fraktur ligatures: ch ck ff ffi ffl fft fi fl ft ll ſch ſi ſſ ſt tz;
replaced by single glyphs for:  ff  ffi   ffl       fi  fl                  ſt.
Usage of long s precludes inclusion of U+FB06 st, but this is already present
elsewhere.

8 years agoamend dutch pangram with short afrikaans to cover accents
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:27:26 +0000 (12:27 +0200)]
amend dutch pangram with short afrikaans to cover accents

Closely related languages augment each other well:
'n digraph is only used in afrikaans, ij only in dutch,
accented letters in both but more common in afrikaans.

8 years agoappend agus araile to irish pangram
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:22:05 +0000 (12:22 +0200)]
append agus araile to irish pangram

Meaningless "et cetera" abbreviation to cover Tironian et sign (agus),
with non-standard insular letter form of r to test Latin Extended-D.

8 years agouppercase part of turkish pangram
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:18:21 +0000 (12:18 +0200)]
uppercase part of turkish pangram

Cover uppercase i.

8 years agolatin pangrams in 16 languages
Mischa POSLAWSKY [Tue, 25 Aug 2015 10:17:26 +0000 (12:17 +0200)]
latin pangrams in 16 languages

Selected mostly from Wikipedia (pangram page in different languages)
to succinctly cover many common latin letters.

8 years agodrop greetings in "various" [3] languages
Mischa POSLAWSKY [Wed, 19 Aug 2015 09:21:22 +0000 (11:21 +0200)]
drop greetings in "various" [3] languages

Superfluous (especially near the end) as we already have more extensive
te(x)sts for English, Greek, and Japanese.

8 years agomore succinct font overview
Mischa POSLAWSKY [Wed, 19 Aug 2015 08:47:25 +0000 (10:47 +0200)]
more succinct font overview

Reorganise assortment to:
- 3 lines (uppercase, lowercase, non-letters) for better discoverability;
- letters grouped together, all with case counterparts;
- repick extended latin to cover a wider range of more common glyphs;
- include more ASCII symbols for programming and internet usage;
- reduce set of mathematical additions to a good comparison of essentials;
- restrict drawing glyphs to one example per type:
  arrow, box drawing (3 styles), block shade, dingbat.

8 years agogeneric font overview at beginning
Mischa POSLAWSKY [Wed, 19 Aug 2015 08:21:56 +0000 (10:21 +0200)]
generic font overview at beginning

Move font selection text near start (but below <pre>) to have a generic
overview/comparison before delving into specifics.

8 years agomove apl snippet with other code
Mischa POSLAWSKY [Wed, 19 Aug 2015 07:58:52 +0000 (09:58 +0200)]
move apl snippet with other code

Logical progression from Perl to even non-ASCII symbols.
Keep only the life program; the first function doesn't contribute as much,
and the second part is just unneeded gibberish.

8 years agoperl code snippet for additional programming symbols
Mischa POSLAWSKY [Wed, 19 Aug 2015 07:58:09 +0000 (09:58 +0200)]
perl code snippet for additional programming symbols

Golf entry by teebee for character referencing
<http://golf.shinh.org/p.rb?Break+Lorem+Ipsum+fixed>
which includes a good amount of \W ASCII, including the common dollar sign,
slashes, and quotes.

8 years agoruby code for basic programming language overview
Mischa POSLAWSKY [Wed, 19 Aug 2015 07:44:30 +0000 (09:44 +0200)]
ruby code for basic programming language overview

Inconsequential but thematic code (encodes and displays a Unicode entity)
written to include all braces (([{|}])), hash (#), and 0/O distinction.

Inspired by font comparison snippets at
<http://hivelogic.com/articles/top-10-programming-fonts>.

8 years agohtml code at top with open <pre>
Mischa POSLAWSKY [Wed, 19 Aug 2015 07:16:42 +0000 (09:16 +0200)]
html code at top with open <pre>

To compare appearance of basic XML (tags, attribute, entity)
and support rendering the following contents as text/html
by opening a preformatted (monospaced) tag early on.

8 years agorewrite introduction to avoid charset and mention updated authorship
Mischa POSLAWSKY [Wed, 19 Aug 2015 07:06:04 +0000 (09:06 +0200)]
rewrite introduction to avoid charset and mention updated authorship

File encoding is insignificant so don't mention it explicitly (test works
equally well if converted to another UCS-compatible charset).
Instead list versions of this file and the covered standard.

8 years agoextended cyrillic samples of sakha and kazakh
Mischa POSLAWSKY [Wed, 19 Aug 2015 06:35:16 +0000 (08:35 +0200)]
extended cyrillic samples of sakha and kazakh

Between these languages the most important non-Slavic letters are present,
including common non-Russian glyphs І Ә Ө Ү Һ, a ligature Ҥ, and variants
with descender or bar (Ң Қ Ғ Ұ).
Not complete, but good for a general impression of Turkish support.

Official translations from <http://www.ohchr.org/>.

8 years agobraille contraction missed by converter
Mischa POSLAWSKY [Wed, 19 Aug 2015 05:29:36 +0000 (07:29 +0200)]
braille contraction missed by converter

Groupsign -en- (lower e) may be used in the end of "queen" (explicitly
mentioned in <http://www.brailleauthority.org/literary/ebae2002.pdf>).

8 years agobraille of english pangram instead
Mischa POSLAWSKY [Wed, 19 Aug 2015 03:36:55 +0000 (05:36 +0200)]
braille of english pangram instead

Replace long story in "scientific" (and very artificial) GS8 notation
by a transcription of the English panphone using common Grade-2 British
courtesy of <https://www.branah.com/braille-translator>.

Loses coverage of some 8-cell dots, but includes common abbreviations and
practical orthography.  Use braille blanks U+2800 instead of spaces.

8 years agoadjust english phonetic sample to cover more sounds
Mischa POSLAWSKY [Wed, 19 Aug 2015 00:24:38 +0000 (02:24 +0200)]
adjust english phonetic sample to cover more sounds

* Reorder words for more a less contrived meaning.
* Replace "wanted before" by "looked for it", to add /ʊ/ (the only absent
  monophtong) without losing any sounds.
* Introduce /ʉ/ by using a slight Scottish accent for "hue".
* Include commonly found glottal stop before "all".

8 years agoenglish phonetic pangram/panphone for ipa showcase
Mischa POSLAWSKY [Tue, 18 Aug 2015 23:49:25 +0000 (01:49 +0200)]
english phonetic pangram/panphone for ipa showcase

Replace the poor "linguistics" section by the last example from
<http://www.quora.com/Is-there-a-text-that-covers-the-entire-English-phonetic-range>
which covers most English phonemes including more rare distinctions
(m/ɱ, x, l/ɫ, w/ʍ).

Manually transcribed in an attempt to cover most sounds naturally, using a
mostly Irish/generic pronunciation (I'm not native though).  Compare
<https://en.wikipedia.org?oldid=673810019> for an overview of regional
differences.  Alternate IPA transcriptions in native dialects found at
<https://www.reddit.com/r/conlangs/comments/2quvnf/make_a_dialect_of_english/>
but not used due to more limited inventories.

8 years agojapanese iroha in all scripts
Mischa POSLAWSKY [Fri, 14 Aug 2015 21:27:27 +0000 (23:27 +0200)]
japanese iroha in all scripts

Kanji, hiragana, and original version downloaded from
<https://en.wikipedia.org?oldid=670286422>.

Katakana transliteration from <http://www.columbia.edu/~fdc/utf8/>.

Halfwidth variant derived using perl -Mcharnames=:full -CS -pe'
package charnames; s/\S/chr vianame("HALFWIDTH ".viacode(ord $&))/ge'
with incompatible characters replaced by small forms (prefer coverage over
natural conversion) and a voiced mark appended for even more coverage.

8 years agoreplace chinese extension B character from extension A
Mischa POSLAWSKY [Fri, 14 Aug 2015 19:40:34 +0000 (21:40 +0200)]
replace chinese extension B character from extension A

U+4D85 is obviously incorrect; assume U+24D85 was intended.

8 years agochinese samples of extended unicode blocks
Mischa POSLAWSKY [Fri, 14 Aug 2015 19:36:51 +0000 (21:36 +0200)]
chinese samples of extended unicode blocks

Random characters from each block from <http://ctext.org/font-test-page>.

8 years agochinese sample text: 1st chapter of qian zi wen
Mischa POSLAWSKY [Fri, 14 Aug 2015 19:14:55 +0000 (21:14 +0200)]
chinese sample text: 1st chapter of qian zi wen

Classic coverage poem in traditional orthography downloaded from
<http://www.gutenberg.org/ebooks/24184>.

8 years agochinese transliteration of 3 choice characters -ü
Mischa POSLAWSKY [Fri, 14 Aug 2015 19:02:39 +0000 (21:02 +0200)]
chinese transliteration of 3 choice characters -ü

Selected most frequently used characters ending in ü with all its tones.
Covers the most difficult pinyin (multiple accents), some limited bopomofo,
IPA tone bars (combinable into contours), and traditional/simplified glyph
comparison.

8 years agochinese selection of 50 most common mandarin characters
Mischa POSLAWSKY [Fri, 14 Aug 2015 18:17:28 +0000 (20:17 +0200)]
chinese selection of 50 most common mandarin characters

Extracted from Modern Chinese Character Frequency List (updated 2005-12-21)
published by 笪骏 [DA Jun] <http://lingua.mtsu.edu/chinese-computing>.
These characters should cover 30% of modern chinese texts.

8 years agotibetan declaration of human rights
Mischa POSLAWSKY [Fri, 14 Aug 2015 17:25:09 +0000 (19:25 +0200)]
tibetan declaration of human rights

Good sample copied from ཝེ་ཁེ་རིག་མཛོད <https://bo.wikipedia.org?oldid=123541>.
Prefix the title for yig-mgo, and adoption date [1948-12-10] as found on
<http://blog.amdotibet.cn/aaa999/archives/82869.aspx> for numbers.

8 years agotamil and kannada poems from Kermit UTF-8 Sampler
Mischa POSLAWSKY [Fri, 14 Aug 2015 17:17:51 +0000 (19:17 +0200)]
tamil and kannada poems from Kermit UTF-8 Sampler

Extracted from 2012-05-07 version of <http://www.columbia.edu/~fdc/utf8/>
by Frank da Cruz.

8 years agoapl function for game of life
Mischa POSLAWSKY [Fri, 14 Aug 2015 17:15:00 +0000 (19:15 +0200)]
apl function for game of life

8 years agodrop headers and abbreviate descriptions
Mischa POSLAWSKY [Fri, 31 Jul 2015 01:23:13 +0000 (03:23 +0200)]
drop headers and abbreviate descriptions

Get rid of some English clutter;
Original sources should be easy to find by searching online.

8 years agohebrew sample
Mischa POSLAWSKY [Fri, 31 Jul 2015 00:30:32 +0000 (02:30 +0200)]
hebrew sample

Ideally test RTL, but good for modern script coverage in any case.
Best use of the common Unicode invitation so far, as it mixes direction
and includes niqqud.

8 years agodevanagari sample
Mischa POSLAWSKY [Fri, 31 Jul 2015 00:19:09 +0000 (02:19 +0200)]
devanagari sample

Copied from <http://r12a.github.io/scripts/summaries/devanagari>.

Context-based positioning at start of last 2 lines; digits at end of line 3;
multiple combining characters at line 2 start; contextual shaping in line 1
and start of line 4.

8 years agospell old english in old english
Mischa POSLAWSKY [Fri, 31 Jul 2015 00:16:12 +0000 (02:16 +0200)]
spell old english in old english

Includes capital AE.

8 years agoreplace s in latin old english by long variants
Mischa POSLAWSKY [Fri, 31 Jul 2015 00:13:23 +0000 (02:13 +0200)]
replace s in latin old english by long variants

Also include precomposed st-ligature for good measure (matching runic).

8 years agotransliterate runes with traditional orthography
Mischa POSLAWSKY [Thu, 30 Jul 2015 23:49:10 +0000 (01:49 +0200)]
transliterate runes with traditional orthography

Prefer original thorn and wynn letters.  Then "modernize" eth and long
vowels for additional coverage of Old English transcription.

8 years agoupdate to current upstream version 2002/2009
Markus Kuhn [Mon, 6 Apr 2009 18:13:43 +0000 (20:13 +0200)]
update to current upstream version 2002/2009

Latest <http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-demo.txt>
removes trailing whitespace.

21 years agoupdate to 2002 version
Markus Kuhn [Thu, 25 Jul 2002 12:00:00 +0000 (12:00 +0000)]
update to 2002 version

Retrieved from <http://www.cl.cam.ac.uk/~mgk25>.

22 years agoUTF-8 encoded sample plain-text file
Markus Kuhn [Fri, 20 Aug 1999 12:00:00 +0000 (12:00 +0000)]
UTF-8 encoded sample plain-text file

Extracted from <http://www.w3.org/2001/06/utf-8-test/UTF-8-demo.html>,
the earliest version I could find.