Forum How do I...?

Character set windows-1250

radekn
I did not succeed to generate PDF from HTML in windows-1250 charset. If I use different PDF creator it works properly.

princexml (MS windows port) embedds:
TimesNewRoman (embedded)
Type: TrueType (CID)
Encoding: Identity-H

etc.

PDFCreator:
Times-Roman
Type: Type 1
Encoding: Own
Real font: Times-Roman
Type of real type: True Type

HTML contains folowing header:
<META http-equiv=Content-Type content="text/html; charset=windows-1250"><LINK media=all href="5_soubory/printtimes16.css" type=text/css rel=stylesheet>

Princexml PDF results in some letters being corrupted. Please advise how to properly configure fonts.css

Thank you
Radekn
mikeday
Is the HTML file publicly accessible, or perhaps can you email it to me? That way I can check if there is some problem with the character encoding that could be affecting Prince.
radekn
mikeday wrote:
Is the HTML file publicly accessible, or perhaps can you email it to me? That way I can check if there is some problem with the character encoding that could be affecting Prince.



I was trying to send you e-mail, but it was bounced back with following message:

"The IP address entered was not found on any database managed by Trend Micro's Network Reputation Services.

Please note: These databases are based on IP addresses; they do not use host or domain names."
radekn
See initial portion of HTML:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0056)https://ps.vop2000/armman/preview_oddil.asp?idoddilu=973 -->
<HTML><HEAD><TITLE>Systém pro tvorbu publikací</TITLE>
<META http-equiv=Content-Type content="text/html; charset=windows-1250"><LINK
media=all href="5.10_soubory/printtimes16.css" type=text/css rel=stylesheet>
<STYLE>P {
TEXT-ALIGN: justify
}
LI {
TEXT-ALIGN: justify
}
</STYLE>

<SCRIPT language=JavaScript src="5.10_soubory/datepicker.js"></SCRIPT>

<META content="MSHTML 6.00.6000.16640" name=GENERATOR></HEAD>
<BODY leftMargin=0 topMargin=0>
<P class=ukrytpritisku><BR><A
href="https://ps.vop2000/armman/view_oddil.asp?idoddilu=973"><B>Obsah
oddílu</B></A></P>
<DIV id=preview>
<H3 style="MARGIN-TOP: 0px">5.10.11&nbsp;&nbsp;Technický popis-Protipožární
ochrana</H3>
<P><B>Bezpečnostní pokyny pro protipožární hasicí systém.</B> </P>
<P><B>Všeobecné pokyny: <BR><BR></B>Při normálním použití protipožárního
hasicího systému v&nbsp;provozním módu (systém připojen na napájecí napětí
vozidla) musí být dodržovány následující zásady: </P>
<UL>
<LI>Před startováním vozidla musí být ukončen systémový test. Při zapnutí
hlavního spínače baterií do polohy zapnuto stačit tlačítko test (1) na řídící
jednotce PPZ (<A
href="https://ps.vop200/armman/view_odstavec.asp?idodstavce=4">Viz Obr.
<B>Řídící jednotka PPZ s&nbsp;popisem</B></A>)<B> .</B> Všechny kontrolky
budou svítit a&nbsp;opět zhasnou. Jestliže ne, informuj příslušníky
opravářských dílen a&nbsp;nestartuj vozidlo;
<LI>nepokládej volné předměty v&nbsp;blízkosti ventilů a&nbsp;trysek hasicích
tlakových&nbsp;lahví - nebezpečí poranění při aktivaci systému. Nejmenší
vzdálenost od trysek v&nbsp;prosoru osádky je 30 cm.</LI></UL>
<P><IMG class=s640 src="5.10_soubory/ZTWWVVCP.gif" border=0></P>
<DIV align=center><I>Obr.&nbsp;5-1.&nbsp;&nbsp;Řídící jednotka PPZ s
popisem</I><BR><BR></DIV>
<DIV class=legenda align=center><B>Legenda:</B>&nbsp;1 - tlačítko test; 2 -
žlutá kontrolka pro indikaci závady tlakových lahví PPZ(prázdná láhev, přerušení
sériového propojení nebo zkrat); 3 - žlutá kontrolka bez funkce (svítí pouze
během testu systému); 4 - konektor rozhraní RS 232; 5 - žlutá kontrolka závada
láhve PPZ (láhev je prázdná, přerušení sériového propojení nebo zkrat); 6 -
žlutá kontrolka signalizace chyby optických snímačů v prostoru osádky (vadné
sériové propojení nebo chyba ručního spínače aktivace); 7 - červená kontrolka
signalizace požáru v motorovém prostoru, když je oheň je uhašený, automaticky
zhasne. Blikání - signalizuje, vadný teplotní snímač nebo sériové zapojení k
teplotním snímačům je vadné; 8 - vypínač PPZ pro prostor osádky; 9 - ruční
spínač aktivace PPZ motorového prostoru; <BR><BR></DIV>
mikeday
Strange about the email, I have no idea what "Trend Micro's Network Reputation Services" are. Perhaps mikeday.yeslogic@gmail.com will work better? :)

The problem with posting the document on the forum is that the multiple steps from file, to browser, to server, back to browser, to file will probably result in the encoding being changed several times and the original problem being obscured.
radekn
mikeday wrote:
Strange about the email, I have no idea what "Trend Micro's Network Reputation Services" are. Perhaps mikeday.yeslogic@gmail.com will work better? :)

The problem with posting the document on the forum is that the multiple steps from file, to browser, to server, back to browser, to file will probably result in the encoding being changed several times and the original problem being obscured.


I have resent the e-mail to alternative address.
radekn
It seems that Windows-1250 character set was converted to Latin-1 in PDF. Therefore some letters became garbled.
mikeday
The solution seems to be to move the <meta> element earlier in the <head>, before the <title> element. This is really a bug in the HTML parser that we are currently using. Once it sees the <title> it doesn't seem to keep looking to check the <meta> tag.
radekn
I found solution how to deal with windows-1250 character set:

1. HTML page shall be converted to Latin-2 character set
2. <TITLE> tag shall be deleted or <META> moved before <TITLE>

If only step 1 is done, first 3 pages of PDF have garbled letters, the rest of document is OK.

Windows-1250 character set is not supported even when deleting <TITLE> tag.

Of course omitting conversion and TITLE deletion would be much better.