Juegos de caracteres: ASCII, CP850, ISO-8859-15, Unicode, UTF-8, etc.

Hemos hablado ya en algunas entradas anteriores sobre juegos de caracteres:

Si bien muchos visitantes pueden tener claro ¿qué es un juego de caracteres?, también es posible que muchos otros se sientan un poco perdidos entre todas estas siglas y no entiendan por qué los nombres de los ficheros o su contenido, que se ven bien en un sistema operativo, no se ven bien en otro.

Teoría básica de ordenadores es que éstos sólo saben de unos y ceros. Afortunadamente, con unos y ceros, gracias al sistema binario se puede representar cualquier número. Por tanto, los ordenadores básicamente sólo saben manejar números.

Parecerá una perogrullada, pero en este punto es necesario recordar que las letras no son números. Mientras que los unos y ceros se convierten en un número decimal como los que solemos usar de forma natural, no hay ninguna regla matemática que asocie unos y ceros con una letra.

Sin embargo, sí que podemos definir reglas arbitrarias para que los ordenadores puedan trabajar con letras asociando letras/caracteres determinados a un número determinado, lo que llamaremos “juego de caracteres. El juego de caracteres más famoso es el ASCII (American Standard Code for Information Interchange), creado en 1960 para los teletipos de la época. Es un sistema en el que a cada carácter le asignamos un número de 7 bits (del 0 al 127) que nos permite tener 128 caracteres, de los cuales 33 son de control necesarios en los antiguos teletipos pero mayormente obsoletos hoy en día, y los 95 restantes son los números 0-9, las letras mayúsculas (sin la “Ñ”) A-Z, las letras minúsculas (sin la “ñ”) a-z, así como los siguientes signos de puntuación:

! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~

En este sistema, por ejemplo a la “a” le corresponde el número 97 y a la “J” el número 74.

Es evidente que el juego de caracteres ASCII presenta una visión bastante anglocéntrica de la informática, ya que es excluyente con todas las personas que tenemos el vicio de usar lenguas distintas al inglés y necesitamos caracteres como la ñ, la ç o la ß. Es por eso que cuando los teletipos quedaron atrás y los ordenadores trajeron los “bytes” o, lo que es lo mismo, los números de 8 bits (del 0 al 255), los juegos de caracteres pudieron empezar a usar 128 caracteres más de los que tenía ASCII, en los que se incluyeron los símbolos necesarios para idiomas europeos diferentes al inglés.

[...]

Puedes leer el resto de la entrada en Juegos de caracteres: ASCII, CP850, ISO-8859-15, Unicode, UTF-8, etc. (3,467 palabras)



Lo hice y lo entendí 2008 | © Vicente Navarro Jover con una licencia CC BY-SA |
3 comentarios

Etiquetas: , , , , , , , , , , , , , , , ,

You have already tagged this post. Your tags:

Noticia original: www.vicente-navarro.com

Valid XHTML 1.0 Strict