当前课程知识点:计算机文化基础 > 第3课:数字世界中形形色色的“数” > 换一种思路来数字化文本信息 > 字符集的发展历程
前面我们已经了解了
文本信息是如何通过编码
实现数字化的
同时大家也建立起
字符集和字符编码这两个概念
不过问题也来了
各自为政的字符集
和各有针对的编码方式
怎么让我们在不同的语言平台上
进行无缝的交流呢
特别是在这个当下
互联网大同世界
这就是不仅让计算机识字
还要认识各种各样的语言文字
我们根据计算机对多国语言的
支持程度
将它的发展历程分为了三个阶段
第一个阶段
刚识字
它只支持英语
其他语言都不能够在计算机上
表示和存储
为了使得计算机支持更多的语言
不同的国家和地区
他们就制定了自己的
语言符号集和编码方式
这就是一个本地化的阶段
我们又把它称之为
叫作ANSI编码
在这个阶段
它最大的问题就是
不同的ANSI编码
它们之间是互不兼容的
当信息在国际之间
进行交流的话
它就是无法将属于两种语言
的文字存放在一起
它们就会出现了乱码
这我们来看
以新浪这个首页为例
它是以简体中文的方式
呈现
那如果我们要让它以
大五码的方式来呈现
那它的编码和解码
是不一致的
所以它就出现了一个乱码
就这样很自然
我们就开启了多国语言共存时代
进入了UNICODE字符集阶段
注意在这里强调的是
字符集这三个字
之前我们提到的GB2312
还有大五码
它们都涉及到是字符集
和字符编码这两部分
而UNICODE它只强调了一个
字符集的通用性
它负责把世界上
各种文字和符号的字符
收编进来
打造一个万国码的一个集合
到目前为止
它已经收录了
超过十万个字符
这个量级的编码
就不是能够用两个字节就能够
进行编码胜任的
UNICODE的字符集
通常它就得采用四个字节来编码
那好了问题就来了
四个字节来编码
这明显太浪费空间了
即使我是一个中文的用户
我的国际化成本也得翻一番
这不仅它要占用更多的存储空间
也要耗用更多的网络带宽资源
因此它在实际的应用过程当中
UNICODE的编码它的实现方式
是会有所不同的
比如说我们来看这封邮件
这是一个留学生发给我的一封邮件
我们就会看到这样的一段话
以下文本采用UTF8字符编码
你目前采用的是GB2312字符编码
所有可能有些字符
不能够正常的显示
那么什么是UTF
UTF它就是Unicode
Transformation Format
也就指的是
UNICODE转换格式的英文缩写
它常见的有UTF8
UTF16
UTF-32
那我们刚才看到的UTF8
它指的就是一种变长的编码
通常它使用到1到6个字节
来进行UNICODE字符集里的字符编码
它最大的一个特点就是
兼容ASCII码
所以对于西文用户
特别是英文用户来说
它采用了这个UTF8的
这样的一种编码方式
那么它就可以
直接使用一个字节的
这样的一种编码方式
来完成
那么我们就会经常看到
在我们这样的邮件方式
网页方式
多采用UTF
某某这样的一种转换格式
我们再来看两个网页应用
这是清华大学的一个主页
这是面向的是全球访问者
所以呢在我们的这个网页的代码当中
看到了它的这个字符集
这个原参数
它命名为UTF8
它采用的编码方式是UTF8
强调了它国际
交流的这样的一个用途
我们同样再看
另外一个清华的主页
但这是清华大学信息门户的主页
它主要面向的用户是清华校内的师生
它发布的是学校日常的
教学 科研 工作的信息
所以说在这页面上
它的字符集就定为
GBK
我们说的国标
这样的一个字符集的一个扩展字符集
它相比GB2312来说
它能够很好的解决生僻字
这样的问题
但它只考虑到面向了中文用户
所以关于文本信息的数字化
我们就介绍到这里
计算机它采用了机内码的方式
来识字
为后续的文字处理
提供了一个更大的编辑空间
当我们遇到了文本乱码的时候
我们就应该知道
解决问题的思路
受到文字编码的启发
大家可以考虑一下
对于图像声音来说
有没有除了记录方式以外的
其他的数字化方式手段呢
这个问题留给大家
好今天的主题就讲到这里
说了那么多
我们用一句话来总结
我们在数字系统中
为各种各样的信息创造了
各种映射方法
为的就是要让计算机
能够感知我们生活中的方方面面
进而进行计算
-由一个短片引出......
-梳理IT产业大脉络(上)
-梳理IT产业大脉络(下)
-你的第一门计算机入门课
--课程介绍及要求
-实践:图像处理入门
--实践小作业要求
--操作前的几点准备
-第1课习题作业
-第1课导学帖
--第1课导学帖
-现代计算机为什么是电子数字的?
-二进制与十进制有什么区别?
--了解二进制
-为什么莱布尼兹没有认识到二进制的重要性?
--与、或、非
-从ENIAC到现代通用计算机
--新材料带来新发展
-摩尔定律会失效吗?
--摩尔定律失效
-讲座:计算机世界中的巨无霸
-参观:感受世界巨无霸(太湖之光)
--神威太湖之光简介
--探秘神威太湖之光
-参观补充:走进济南国家超算中心
--走进国家超算中心
-实践:我的计算机有多快?
-第2课习题作业
-第2课导学帖
--第2课导学帖
-数码相机是如何“计算”出一张数字照片?
--如何拍摄彩色照片
-认识图像数字化过程中的采样和量化
--采样和量化
-计算机是如何感知声音波形的?
--声音量化三要素
-换一种思路来数字化文本信息
--字符集的发展历程
-实践:常用网络资源下载
--常见下载方法介绍
--常见文件类型下载
- 第3课习题作业
-第3课导学帖
--第3课导学帖
-软件解决的目标是什么?
--软件的目的是什么
-我们使用的软件是怎么来的?
--软件是怎么来的1
--软件是怎么来的2
-操作系统拥有什么样的神力?
--操作系统的演变1
--操作系统的演变2
--CPU的管理调度
--虚拟存储技术
-访谈:如何成功研发一款手机APP
-实践:如何利用注册表进行系统优化
--注册表概述
--注册表与信息安全
-第4课习题作业
-第4课导学帖
--第4课导学帖
-数字存储前言
--梳理数字存储历史
--磁、光存储介质
--半导体存储介质
-怎样在存储介质上表示1和0?
-怎样从存储介质读取1和0?
-如何找到所需的数据?
-实践:文章排版基本技能
--引言
--中文输入
--图文混排
--页面设置
--利用表格布局标题
--分栏和首字下沉
--设置页眉与页脚
--设置插图润色排版
--LaTeX入门
-第5课习题作业
-第5课导学帖
--第5课导学帖
-演示文稿制作准备
--操作前的几个概念
--实践前的环境准备
-制作演示文稿
--设置超链接按钮
--设置超链接文本
-作品赏析
-第6课习题作业
-第6课导学帖
--第6课导学帖
-联网目的和资源共享模式的变迁
--资源共享模式
--异构网互联
-物联网连入互联网
--互联网与因特网
-访谈:PC在智能穿戴生态系统中的定位
--对话联想(上)
--对话联想(下)
-参观:联想创新中心掠影
--探秘联想创新中心
-第7课习题作业
-第7课导学帖
--第7课导学帖
-从网络组织来描述计算机网络
--计算机网络的定义
--网络软件
-从功能角度来认识计算机网络
--网络体系结构
--IPv4(上)
--IPv4(下)
--IPv6
-实践:网络不通怎么办
--网络连接
-第8课习题作业
-第8课导学帖
--第8课导学帖
-认识图像传感器
--认识图像传感器
--图像传感器的应用
--图像传感器的市场
-图像传感器的应用
--在汽车中的应用1
--在汽车中的应用2
--物联网中的应用
-了解图像传感器技术
--图像传感器的技术
-图像传感器的挑战
--问题与挑战
-讲座:如何在大数据中精准生活
--走进大数据
--生活中的大数据
-实践:HTML入门实践
--HTML作业要求
--HTML基本标记
--综合样例(上)
--综合样例(下)
-第9课习题作业
-第9课导学帖
--第9课导学帖
-认识搜索引擎
--这就是搜索引擎
-信息检索背后的关键技术
--海量数据的获取
--搜索结果排名
-搜索引擎的未来
--情境感知的搜索
--社会化搜索
--智能搜索
-实践:Aminer学术搜索
--Aminer介绍
-第10课习题作业
-第10课导学帖
--第10课导学帖
-信息安全的基本要求
--早期的计算机安全
-新型的网络攻击有哪些
--信息泄露
--移动安全
-未知攻 焉知防
--未知攻焉知防
--未知攻焉知防2
--信息加密
--安全防范原则
-实践:Excel实践
--实例操作
--实例操作2
--实例操作3
--绘制图表
-第11课习题作业
-第11课导学帖
--第11课导学帖
-回顾与展望
--回顾与展望1
--回顾与展望2
--回顾与展望3
--回顾与展望4
-什么是计算
--什么是计算
-访谈:信息技术交叉应用
--对话风投专家1
--对话风投专家2
--对话风投专家3
-嘉宾分享:闲谈数字产业创新
-第12课习题作业
-第12课导学帖
--第12课导学帖