1. 首页 > 小常识

内码和外码分别是什么啊

  内码和外码分别是什么啊?是内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的,分为字符编码、汉字内码、国标码等多种类型的。关于内码和外码分别是什么啊以及内码和外码分别是什么啊英语,内码和外码分别是什么啊英文,内码和外码分别是什么啊,外码和内码的关系,什么叫内码等问题,小编将为你整理以下的知识答案:

内码和外码分别是什么啊

内码和外码分别是什么啊

  是内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的,分为字符编码、汉字内码、国标码等多种类型。外码是相对于内码而言的辞汇。在计算机科学及相关领域中,外码指的是外在的经过学习之后,可直接了解的编码形式(例如:文字或语音符号)的。

  二进制是由1和0两个数字组成的,它可以表示两种状态,即开和关。

  所有输入电脑的任何信息最终都要转化为二进制。

  目前通用的是ASCII码。

  最基本的单位为bit。

内码

  内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的,分为字符编码、汉字内码、国标码等多种类型。

外码

  外码是相对于内码而言的辞汇。

  在计算机科学及相关领域中,外码指的是外在的经过学习之后,可直接了解的编码形式(例如:文字或语音符号)。

  中文输入法对汉字的编码即属外码。

  常见的中文外码有仓颉码、行列码、大易码、呒虾米码、注音码、拼音码。

仓颉输入法

  仓颉输入法是一种常用的中文输入法,由有“中文电脑之父美誉的朱邦复先生于1976年创制。

  初期只有繁体中文版本,原名“形意检字法,用以解决电脑处理汉字的问题,包括汉字输入、字形输出、内码存储、汉字排序等。

行列输入法

  行列输入法是一套免费授权、具有开放理念的字根式中文输入法,发明人是倚天资讯共同创办人廖明德。

  他在发明行列输入法之后成立行列科技,以研究、开发、推广行列输入法。

  行列输入法除了可以输入繁体中文和简体中文之外,亦可输入Unicode当中的中日韩统一表意文字。

大易码

  每组字码具有多个字根以供拆字。

  它已经成为很多操作系统内预设的中文输入法。

  而多数的繁体中文键盘亦有标示大易码。

  大易是依据传统造字原则和笔顺,并且将单字和大量词汇一起纳入研究而发展出来的输入法,在1987年12月初次发表。

什么是内码和外码?

  我们常说汉字的"内码"与"外码"。

  内码是汉字在计算机内部存储,处理和传输用的信息编码。

  它必须与ASCII码兼容但又不能冲突。

  所以把国标码两个字节的最高位置1,以区别于西文,这就是内码。

  汉字的输入码称为"外码"。

  输入码即指我们输入汉字时使用的编码。

  常见的外码分为数字编码(如区位码),拼音编码和字形编码(如五笔)。

  再说区位码,"啊"的区位码是1601,写成16进制是0x10,0x01。

  这和计算机广泛使用的ASCII编码冲突。

  为了兼容00-7f的 ASCII编码,我们在区位码的高、低字节上分别加上A0。

  这样"啊"的编码就成为B0A1。

  我们将加过两个A0的编码也称为GB2312编码,虽然 GB2312的原文根本没提到这一点。

  内码是指操作系统内部的字符编码。

  早期操作系统的内码是与语言相关的.现在的Windows在内部统一使用Unicode,然后用代码页适应各种语言,"内码"的概念就比较模糊了。

  我们一般将缺省代码页指定的编码说成是内码。

  内码这个词汇,并没有什么官方的定义。

  代码页也只是微软的一种习惯叫法。

  作为程序员,我们只要知道它们是什么东西,没有必要过多地考证这些名词。

  所谓代码页(code page)就是针对一种语言文字的字符编码。

  例如GBK的code page是CP936,BIG5的code page是CP950,GB2312的code page是CP20936。

  Windows中有缺省代码页的概念,即缺省用什么编码来解释字符。

  例如Windows的记事本打开了一个文本文件,里面的内容是字节流:BA、BA、 D7、D6。

  Windows应该去怎么解释它呢?是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释,还是按照ISO8859-1 去解释?如果按GBK去解释,就会得到"汉字"两个字。

  按照其它编码解释,可能找不到对应的字符,也可能找到错误的字符。

  所谓"错误"是指与文本作者的本意不符,这时就产生了乱码。

  答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。

  缺省代码页可以通过控制面板的区域选项设置。

  记事本的另存为中有一项ANSI,其实就是按照缺省代码页的编码方法保存。

  Windows的内码是Unicode,它在技术上可以同时支持多个代码页。

  只要文件能说明自己使用什么编码,用户又安装了对应的代码页,Windows就能正确显示,例如在HTML文件中就可以指定charset。

  有的HTML文件作者,特别是英文作者,认为世界上所有人都使用英文,在文件中不指定charset。

  如果他使用了0x80-0xff之间的字符,中文Windows又按照缺省的GBK去解释,就会出现乱码。

  这时只要在这个html文件中加上指定charset的语句,例如:

  <meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">

  如果原作者使用的代码页和ISO8859-1兼容,就不会出现乱码了

版权声明:本文来源于互联网,不代表本站立场与观点,子健常识网无任何盈利行为和商业用途,如有错误或侵犯利益请联系我们。

联系我们

在线咨询:点击这里给我发消息

微信号:79111873