Forum How do I...?

Ubuntu cyrillic problem

antonius
I have a fresh instalation of Ubuntu, and Prince installed on it.

Msttcorefonts are also installed and that's all.

Now I get wrong characters when I try to compile a document with cyrillic text in unicode. No other encoding is tested. Prince generates a few warnings about glyphs fallback, but I get every character wrong.

I haven't found any information about solving such a problem neither in the help nor on this site. Maybe I have to set language explicitly?

And I have to say that this document is displayed perfectly with Firefox on the same system, so all necessary fonts and characters are available systemwide.

What can I do to convert unicode cyrillic document to pdf?
mikeday
Can you paste some of the errors you are getting from Prince? That will help to clarify whether it is a font glyph issue or an encoding issue.
antonius
Oh, still haven't reached this Ubuntu machine, but it appears there is the same problem with Mac OS X 10.6.8

The test document looks like that:

<!DOCTYPE HTML>

<meta charset="utf-8">
<title>Идеальная печать</title>

<body>
    <h1>Литературный лирический субъект</h1>
    <p>Талант Капниста по-настоящему раскрылся в комедии «Ябеда», здесь силлабическая соразмерность колонов пространственно аннигилирует    строфоид, и это является некими межсловесными отношениями другого типа, природу которых еще предстоит конкретизировать далее.</p>    <p>Голос персонажа, если уловить хореический ритм или аллитерацию на "р", иллюстрирует лирический субъект, но известны случаи           прочитывания содержания приведённого отрывка иначе. Композиционный анализ, за счет использования параллелизмов и повторов на разных         языковых уровнях, последовательно вызывает жанр, что связано со смысловыми оттенками, логическим выделением или с синтаксической омонимией. </p>    <p>Метонимия дает скрытый смысл, именно поэтому голос автора романа не имеет никаких преимуществ перед голосами персонажей. Цикл        диссонирует цикл, причём сам Тредиаковский свои стихи мыслил как “стихотворное дополнение” к книге Тальмана. Аллюзия изящно редуцирует      диссонансный пастиш, заметим, каждое стихотворение объединено вокруг основного философского стержня.</p></body>


I run prince this way:

[~]$ prince doc.html && open doc.pdf 
prince: warning: no glyphs for character U+0081, fallback to '?'
prince: warning: no glyphs for character U+0081, fallback to '?'
prince: warning: no glyphs for character U+008F, fallback to '?'
prince: warning: no glyphs for character U+008D, fallback to '?'
prince: warning: no glyphs for character U+009D, fallback to '?'
prince: warning: no glyphs for character U+0090, fallback to '?'
[~]$


And I attach a screenshot of the document in browser (correct text), and a screenshot of pdf (incorrect text).

It looks ver similar to what I get on Ubuntu.
  1. Screen shot 2011-12-19 at 13.24.17.png75.6 kB
    Borowser, the text is displayed as it should
  2. Screen shot 2011-12-19 at 13.24.48.png245.9 kB
    Pdf, incorrect text
mikeday
If you replace the HTML5-style <meta charset="utf-8"> with the HTML4 method it should work:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8">

We're working on a HTML5 parser for a future release of Prince.
antonius
Thank you, that's it.

Somehow I treated Prince as a regular browser in HTML support, so I was sure that valid document should be enough to be parsed well. And also I thought that setting encoding was optional, but now I see it is a mandatory for non-latin languages.

Lack of HTML5 support is not a problem in my case, it just requires a bit of attention.

Thanks.