Font unicode cho phép gõ tiếng việt theo kiểu

Nội dung bài giảng Bài 6: Bảng mã Unicode và bộ gõ tiếng Việt sau đây sẽ giúp các bạn tìm hiểu về giới thiệu về Bảng mã Unicode, bộ gõ Unikey, bộ gõ Vietkey. Mời các bạn cùng tham khảo!


*

Về cơ bản, máy tính chỉ xử lí dừ liệu dạng số. Các chữ và kí tự được lưu trữ bang cách quy định một con số cho mỗi kí tự. Có rất nhiều bộ mã khác nhau được sử dụng để quy định những con số này. Chẳng hạn như bảng mã chuẩn ASCII (American Standard Code for Information Interchange - Mã chuẩn Hoa Kỳ trong trao đổi thông tin), và bảng mã ASCII mở rộng. Bảng mã ASCII sử dụng 7 bit để mã hoá, cho phép mã hoá tối đa 128 (= 27) mã kí tự và bảng mã ASCII mở rộng có thể mã hoá được 256 (= 28) mã kí tự bàng cách sử dụng 8 bit để mã hoá. Với số lượng 256 mã, bảng mã ASCII mở rộng vần chưa đủ chỗ cho các kí tự quốc tế, do lượng kí tự trong các ngôn ngữ tượng hình (Trung Quốc, Thái Lan, Nhật Bản, Ả Rập, Do Thái,...) quá nhiều. Vì vậy, người ta đã phát minh ra bảng mã chuẩn quốc tế Unicode 16 bit dùng làm bảng mã chuẩn duy nhất cho tất cả các ngôn ngữ khác nhau trên thế giới.Bộ mã Unicode được phát triển bởi Liên đoàn Unicode. Liên đoàn Unicode là một tổ chức phi lợi nhuận bao gồm rất nhiều thành viên, trong đó có cả những công ty đa quốc gia lớn như Microsoft Adobe Systems, IBM, Novell, Sun Microsystems, Symantic, Google,... Kể từ phiên bản đẩu tiên ra đời năm 1991, bộ mã Unicode dần được hoàn thiện qua nhiều phiên bản, phiên bản mới nhất hiện nay là 6.1 (năm 2012).Thiết kế ban đầu của Unicode chỉ là mở rộng không gian 8 bit của bộ mã ASCII lên thành 16 bit, do đó mã hoá được số mã tối đa là 216 (= 65536). Thực tế đòi hỏi cần có nhiều mã kí tự hơn, do đó Unicode đưa ra cấu trúc bổ trí các điểm mã theo không gian gọi là mặt phẳng. Không gian mã của Unicode gồm 17 mặt phẳng, mỗi mặt phang có thể chứa tới 65536 kí tự. Trong đó, mặt phẳng đầu tiên được gọi là mặt phang đa ngữ cơ bản, là nơi đa số các kí hiệu cơ bản được gắn mã, và chỉ có 63488 mã sẵn có. Các mặt phẳng còn lại được gọi là các mặt phẳng bổ sung. Hiện tại đã có 110000 kí tự được gán mã trong phiên bản mới nhất 6.1 của bộ mã Unicode.

Bạn đang xem: Font unicode cho phép gõ tiếng việt theo kiểu

Tuy nhiên, hầu hết các máy tính hiện nay vẫn còn sử dụng bộ mã ASCII. Chúng chỉ có khả năng nhận ra các mã nhỏ hơn 256 và phần lớn các phần mềm hiện nay chỉ hỗ trợ các dữ liệu 8 bit, nên người ta đã phải dề ra nhiều cơ chế dùng Unicode. Tuỳ thuộc vào khả năng lưu trữ, sự tương thích với các chương trình nguồn, sự tương tác với các hệ thống khác, và sự hỗ trợ của hệ thống máy tính mà mỗi người có thể chọn một cơ chế sử dụng bộ mã Unicode phù hợp. Cơ chế ở đây là định dạng chuyển đổi Unicode (UTF-Unicode Transformation Format), và các cơ chế chuyển đổi phổ biến là: UTF-8, UTF-18, UTF-32.

UTF-8: Mỗi kí tự sẽ được mã hoá thành 1, 2, 3 hay 4 chuỗi 8 bit để tương thích với bộ mã ASCII.UTF-16: Mỗi kí tự được biểu diễn bởi 1 hay 2 chuỗi 16 bit.UTF-32: Mồi kí tự được biểu dien bởi một chuỗi bit cổ định có chiều dài 32 bit.

Để soạn thảo các kí tự trong máy tính, bên cạnh việc chọn bộ mã, người sử dựng cũng cần phải lựa chọn loại font chữ thích hợp để hiển thị kí tự theo dịnh dạng mong muốn. Font chữ là một tập hợp hoàn chỉnh các chữ cái, các dấu câu, các con số, các kí tự đặc biệt,... theo một kiểu định dạng, hình dạng, kích cỡ phù hợp và có thể phân biệt nhau.

Font Unicode: cung cấp các cấu hình cùa các kí tự trong bảng mã Unicode, số lượng font Unicode khá nhiều; một số font Unicode được cài đặt sẵn vào các hệ điều hành. Người sử dụng cũng có thể’tải về các font Unicode (đa số là miễn phí) trên các website và cài đặt thêm vào máy tính.

Đe soạn thảo văn bản tiếng Việt, có thể sừ dụng rất nhiều bàng mã khác nhau, trong đó có ba bảng mã phổ biến nhất là: Unicode, TCVN3 và VNI. TCVN3 là bảng mã theo tiêu chuẩn cũ của Việt Nam, các font chữ trong bảng mã này có tên bắt đầu bàng chữ .Vn. Ví dụ .VnTime. VNI là bảng mã do công ty VNI (Việt Nam International) sở hữu bản quyền, các , font chữ trong bảng mã VNI có tên bắt đầu bằng VNI, ví dụ, VNI-Times.

Xem thêm: Những Chú Cừu Thông Minh Tập 12 Trang Trại Có Ma, Những Chú Cừu Thông Minh

Các font chừ TCVN3 và VNI có bộ kí tự hạn chế, chỉ phù hợp cho sử dụng để soạn thảo văn bản tiếng Việt. Hạn chế của việc soạn thảo bằng font TCVN3 hoặc VNI là khi gửi văn bản sang một máy tính không cài các font này thì không thể đọc được văn bản dó. Các văn bản hiện nay thường được soạn thào băng cách sử dụng font Unicode đê khăc phục hạn chế này, do đó nhiều font chữ Unicode đã được cài đặt sẵn trong các hệ điều hành ở các máy tính.

Để soạn thảo văn bản tiếng Việt, cần phải sử dụng bộ gõ tiếng Việt. Bộ gõ tiếng Việt là một loại phần mềm hỗ trợ soạn thảo văn bản tiếng Việt trên máy tính, thường cần có các font chữ cho phép soạn thảo tiếng Việt cài đặt sẵn trong máy tính. Một số bộ gõ tiếng Việt phổ biến như Vietkey, Unikey, WINVNKEY, MVIET, VietUNI,....

Có nhiều cách gõ dấu thanh trên máy tính khác nhau, có 3 kiểu phổ biến nhất là VIQR, VNI và TELEX.

Bảng 1.2. Phân biệt các kiểu gõ dấu tiếng Việt trong các bộ gõ tiếng Việt

KiểuDấu sắcDấu huyềnDấu hỏiDấu ngãDấu nặngDấu mũChữ ưChữ ơDấu ăChứ đ
VIQR"`?~.^++(đ
VNI123456778d9
TELEXsfrxjaa, ee, oouw, w, <ow, >awdd

Trong các kiểu gõ trên thì TELEX là kiểu gõ phổ biến với người Việt Nam, thậm chí người ta mặc định kiểu gõtiếng Việt trên máy tính là TELEX.

Trong các bộ gõ tiếng Việt, ta cũng thường bắt gặp hai khái niệm Unicode tô hợp và Unicode dựng sẵn. Đây là hai dạng khác nhau của một chuẩn chung do tổ chức Unicode quv định. Hai dạng này hoàn toàn tương thích với nhau, có thể dùng lẫn lộn. Thông thường, người Việt Nam hay dùng Unicode dựng sẵn hơn là Unicode tổ hợp. Trong Unikey, Unicode dựng sẵn được viết gọn là Unicode, Unicode tổ hợp được viết là Composed Unicode.