در این مقاله ابتدا مجموعه کاراکترهای Unicode رو بررسی میکنیم و سپس به سراغ توضیح یک استاندارد اصلی Unicode ها بنام ASCII میریم.

مجموعه کاراکترهای UNICODE

وقتی شما، کاراکتری را در یک برنامه ویرایش متن یا اپلیکیشن وب قرار می‌دهید، این کاراکتر با استفاده از مجموعه‌ ای از اعداد، کد گذاری می‌شود که به اصطلاح به آن یونیکد (UNICODE) گفته می شود.

زمانی که مرورگر، محتوای اپلیکیشن وب را دریافت می‌کند، این اعداد رمزگشایی شده، بر روی نمایشگر نشان داده می‌شوند.

محوریت اصلی این مقاله هم دقیقا همین اعداد و نشانه ها و بررسی پرسش یونیکد چیست و چگونگی رمزگشایی آن است و در نهایت به مبحث utf-8 پرداخته خواهد شد و به این پرسش که UTF-8 چیست پاسخ خواهیم داد.
Encoding Process

یونیکد یا Unicode چیست؟

در پاسخ به پرسش unicode چیست ؟ بایستی گفت حروف، اعداد و علائمی‌‌ که در اپلیکیشن‌ های وب استفاده می‌شوند، به همان شکلی که شما آنها را می‌بینید، در کامپیوتر مدیریت نمی‌شوند. کامپیوترها فقط با اعداد سر و‌ کار دارند. پس این حروف و کاراکتر ها، باید به مجموعه‌ ای از اعداد ۰ و ۱ تبدیل ‌شوند تا مدیریت آنها آسان باشد. لذا استاندارد واحدی باید وجود داشته باشد.

بر همین اساس، مشخص می‌شود که هر کدام از این اعداد چه کاراکتر هایی را نمایش دهند و چگونه بر روی دیسک ذخیره شوند. به این استاندارد اصطلاحا UNICODE گفته می شود.

در واقع Unicode، مجموعه‌ ای از charset یا کاراکتر ست با اعداد منحصر به فرد است، که به آن در اصطلاح پوینت کد (Point Code) گفته می‌شود. هر پوینت کد، کاراکتر واحدی را نمایش می‌دهد. بر این اساس، استاندارد یونی کد سه نوع روش کد گذاری را تعیین می‌کند.

بر این اساس، استاندارد یونی کد سه نوع روش کد گذاری را تعیین می‌کند، و به یک کاراکتر اجازه می‌دهد در داخل یک یا چند بایت کد گذاری شود. یعنی:

  • در 8 بیت
  • در 16 بیت
  • در 32 بیت
  • Unicode Types | UTF8 UTF16 UTF32 Unicode Types | UTF8 UTF16 UTF32
باید بدانید که کاراکتر در علوم کامپیوتر برابر با حروف و اعداد در سیستم نوشتاری است.

سخن پایانی

با توضیحات ارایه شده در مورد Unicode چیست و همینطور utf8 چیست، می‌توان دریافت چرا UTF-8 پرکابرد ترین روش کد گذاری در فضای وب است و محبوبیت آن نیز روز به‌ روز در حال افزایش است.

این مورد حتی در هاست ایمیل نیز مهم است بطوری که عدم انتخاب استاندارد مناسب، می تواند باعث ناخوانا بودن ایمیل‌ های شما شود.

در نظر داشته باشید با وجود وب‌ سایت‌ های چند زبانه، سازگاری وب سایت با استانداردهای موجود، مهم‌ ترین عاملی است که در انتخاب نوع روش کد گذاری خود باید آن را در نظر بگیرید.