آموزش XML-یونیکد
اسناد XML میتوانند شامل حروف بینالمللی باشند.مثل حروف نروژی æøå یا فرانسوی êèé.
برای جلوگیری از خطا، باید نوع رمزگذاری استفاده شده را تعیین کنید، یا فایل XML خود را از نوع UTF-8 ذخیره کنید.
رمزگذاری کاراکتر
رمزگذاری کاراکتر، برای هر کاراکتر مختلفی که در سند XML استفاده شده یک کد باینری منحصر به فرد تولید میکند.
رمزگزاری کاراکترها(Character encoding) در دورههای کامپیوتری قرار دادن حروف(character set)، نگاشت حروف(character map)، قرار دادن کد(code set) و صفحه کد(code page) نیز نامیده میشود.
کنسرسیوم یونیکد
کنسرسیوم یونیکد، استانداردی را برای یونیکد توسعه داده است. هدف آنها جایگزین کردن مجموعه کاراکترهای خارجی با کاراکترهای UTF است.
UTF: سرنام واژگان Unicode Transformation Format است که استاندارد تعیین شده برای یونیکد از طرف کنسرسیوم یونیکد میباشد.
استاندارد یونیکد تایید شد و در HTML، XML، Java، JavaScript، E-mail، ASP، PHP و غیره اجرا شد.
همچنین این استاندارد در بسیاری از سیستمهای عملیاتی و تمام مرورگرهای جدید پشتیبانی میشود.
کنسرسیوم یونیکد با سازمانهای تعیین کننده استاندارد برجستهای مثل ISO، W3C و ECMA همکاری میکند.
مجموعه کاراکترهای یونیکد
یونیکد میتواند با مجموعه کاراکترهای مختلفی اجرا شود. پر استفادهترین کدگذاریها UTF-8 و UTF-16 هستند.
UTF-8 برای نشان دادن کاراکتر اصلی لاتین از 1بایت(8 بیت) استفاده میکند و دو ، سه یا چهار بایت باقی میماند.
UTF-16 برای نمایش کاراکترهای بیشتر از 2بایت(16بیت) استفاده میکند و 4 بایت باقی میماند.
UTF-8 = استاندارد برای وب
UTF-8 رمزگذاری استاندارد برای صفحات وب است.
UTF-8 رمزگذاری پیشفرض برای HTML5، CSS، JavaScript، PHP، SQL و XML است.
رمزگذاری XML
اولین خط اسناد XML به اصطلاح prolog خوانده میشود:
prolog و به طور معمول شامل شماره ورژن XML است.
همچنین میتواند شامل اطلاعاتی درباره کدگذاری استفاده شده در سند نیز باشد. این prolog مشخص میکند در این سند از کدگذاری UTF-8 استفاده شده است.
استاندارد XML باید به گونهای باشد که هردو روش کدگذاری UTF-8 و UTF-16 برای تمام نرمافزارهای XML قابل فهم باشد.
UTF-8 روش کدگذاری پیشفرض است، برای اسنادی که جدا از اطلاعات هستند .
به علاوه، بیشتر نرمافزارهای XML رمزگذاریهایی مثل ISO-8859-1 و Windows-1252 و ASCII را میفهمند.
خطاهای XML
در اکثر موارد اسناد XML در کامپیوتر اول ساخته میشوند، بر روی سرور، روی کامپیوتر دوم فرستاده میشوند و در آخر بر روی کامپیوتر سوم به وسیله مرورگر نمایش داده میشوند.
اگر رمزگذاری در هر کدام از سه کامپیوتر به درستی تفسیر نشود، مرورگر ممکن است متنی بیمعنی را نشان دهد، یا ممکن است یک پیام خطا دریافت کنید.
برای اسناد XML با کیفیت، استفاده از رمزگذاری UTF-8 بهترین گزینه است. UTF-8 کاراکترهای بینالمللی را پوشش میدهد و همچنین اگر هیچ رمزگذاری اعلان نشود، رمزگذاری UTF-8 به صورت پیشفرض انتخاب میشود.
نتیجه گیری
زمانی که یک سند XML را مینویسید:
- از ویرایشگری برای XML استفاده کنید که از رمزگذاری پشتیبانی کند.
- مطمئن شوید که ویرایشگر از کدام روش رمزگذاری استفاده میکند
- روش کدگذاری را در صفتی به نام encoding مشخص کنید
- UTF-8 امنترین روش کدگذاری برای استفاده است
- UTF-8 برای صفحات وب استاندارد است
- نوشته شده توسط میلاد نظری
- بازدید: 9597