Traduzione accentate da IBM-PC a Win Latin-1


Una traduzione ridotta dal set di caratteri ibm-pc a win latin-1 può essere eseguita limitandosi alle sole accentate. Questo metodo è vantaggioso quando esiste un'incertezza sulla codifica dell'input. Ad esempio un nostro programma dovrebbe essere eseguito in console è cioè in cp437, ma viene editato in cp1252. Il vantaggio di questo metodo è quello di cercare di sistemare almeno le sei lettere accentate minuscole utilizzate in italiano: àèéìòù. Ovviamente è necessario conoscere la codifica di destinazione.

Si stabilisce la corrispondenza tra sei codici cp437 ( x85 x8A x82 x8D x95 x97) e sltrettanti codici cp1252 (xE0 xE8 xE9 xEC xF2 xF9). In quanto i codici non si sovrappongono si sostituiscono solo quelli. Il risultato è il seguente:

  1. Se la destinazione è cp1252 le eventuali accentate cp437 vengono tradotte. Ma accentate cp1252 non vengono toccate.
  2. Se la destinazione è cp437 le eventuali accentate cp1252 vengono tradotte. Ma accentate cp437 non vengono toccate.

Esaminiamo i relativi frammenti delle tabelle di codifica per poter cogliere i pro e contro di questa tecnica.

Codici Alti (128 -- 255)

CP437 lettere accentate italiane

Codice

Glyph

Nome

Unicode

Windows

Glyph

130 - 82

é

[é] - Accent

00233 - 00E9

233 - E9

é

133 - 85

à

[à] - Accent

00224 - 00E0

224 - E0

à

138 - 8A

è

[è] - Accent

00232 - 00E8

232 - E8

è

141 - 8D

ì

[ì] - Accent

00236 - 00EC

236 - EC

ì

149 - 95

ò

[ò] - Accent

00242 - 00F2

242 - F2

ò

151 - 97

ù

[ù] - Accent

00249 - 00F9

249 - F9

ù


CP437 Codici che occupano le posizioni delle accentate Italiane in CP1252

Codice

Glyph

Nome

Unicode

Windows

Glyph

224 - E0

α

[] - Symbol

00945 - 03B1

160 - A0

 

232 - E8

Φ

[] - Symbol

00934 - 03A6

160 - A0

 

233 - E9

Θ

[] - Symbol

00920 - 0398

160 - A0

 

236 - EC

[] - Symbol

08734 - 221E

160 - A0

 

242 - F2

[] - Symbol

08805 - 2265

160 - A0

 

249 - F9

[•] - Symbol

08729 - 2219

149 - 95

Come si vede i simboli 224, 232, 233, 236, 242 sono essenzialmente simboli matematici. L'unico simbolo veramente usato è il 249 (bullet). Questa tecnica di traduzione non permette di usare questo simbolo nella codifica ibm-pc.


CP1252 lettere accentate italiane

Codice

Glyph

Nome

Unicode

IBM-PC

Glyph

224 - E0

à

[à]

00224 - 00E0

133 - 85

à

232 - E8

è

[è]

00232 - 00E8

138 - 8A

è

233 - E9

é

[é]

00233 - 00E9

130 - 82

é

236 - EC

ì

[ì]

00236 - 00EC

141 - 8D

ì

242 - F2

ò

[ò]

00242 - 00F2

149 - 95

ò

249 - F9

ù

[ù]

00249 - 00F9

151 - 97

ù


CP1252 Codici che occupano le posizioni delle accentate Italiane in CP437

Codice

Glyph

Nome

Unicode

IBM-PC

Glyph

130 - 82

[&bsquo;]

08218 - 201A

044 - 2C

,

133 - 85

[&ellipsis;]

08230 - 2026

255 - FF

 

138 - 8A

Š

[Š]

00352 - 0160

255 - FF

 

141 - 8D

 

[]

00141 - 008D

255 - FF

 

149 - 95

[•]

08226 - 2022

249 - F9

151 - 97

[&emdash;]

08212 - 2014

045 - 2D

-

Tutta questa zona è libera nella codifica Latin-1. Nella codifica cp1252 il simbolo 141 non è definito, i simboli 130 e 138 sono sicuramente di utilizzo rarissimo, metre i simboli 133, 149 e 151 possono sicuramente essere usati. E' curioso che il bullet appaia in ambedue le tabelle di scontro. Il danno in questo caso è più sensibile.

dsg.dtd.body.trans • LastModified: 14-9-2007 • John Peter Arnold