سبد (0)

آموزش XML-یونیکد

اسناد XML می‌توانند شامل حروف بین‌المللی باشند.مثل حروف نروژی æøå یا فرانسوی êèé.

برای جلوگیری از خطا، باید نوع رمزگذاری استفاده شده را تعیین کنید، یا فایل XML خود را از نوع UTF-8 ذخیره کنید.


رمزگذاری کاراکتر‌

رمزگذاری کاراکتر‌، برای هر کاراکتر مختلفی که در سند XML استفاده شده یک کد باینری منحصر به فرد تولید می‌کند.

رمزگزاری کاراکتر‌ها(Character encoding) در دوره‌های کامپیوتری قرار دادن حروف(character set)، نگاشت حروف(character map)، قرار دادن کد(code set) و صفحه کد(code page) نیز نامیده می‌شود.


کنسرسیوم یونیکد

کنسرسیوم یونیکد، استانداردی را برای یونیکد توسعه داده است. هدف آنها جای‌گزین کردن مجموعه کاراکتر‌های خارجی با کاراکتر‌های UTF است.

UTF: سرنام واژگان Unicode Transformation Format است که استاندارد تعیین شده برای یونیکد از طرف کنسرسیوم یونیکد می‌باشد.

استاندارد یونیکد تایید شد و در HTML، XML، Java، JavaScript، E-mail، ASP، PHP و غیره اجرا شد.

همچنین این استاندارد در بسیاری از سیستم‌های عملیاتی و تمام مرورگرهای جدید پشتیبانی می‌شود.

کنسرسیوم یونیکد با سازمان‌های تعیین کننده استاندارد برجسته‌ای مثل ISO، W3C و ECMA همکاری می‌کند.


مجموعه کاراکترهای یونیکد

یونیکد می‌تواند با مجموعه کاراکترهای مختلفی اجرا شود. پر استفاده‌ترین کدگذاری‌ها UTF-8 و UTF-16 هستند.

UTF-8 برای نشان دادن کاراکتر اصلی لاتین از 1بایت(8 بیت) استفاده می‌کند و دو ، سه یا چهار بایت باقی می‌ماند.

UTF-16 برای نمایش کاراکترهای بیشتر از 2بایت(16بیت) استفاده می‌کند و 4 بایت باقی می‌ماند.


UTF-8 = استاندارد برای وب

UTF-8 رمزگذاری استاندارد برای صفحات وب است.

UTF-8 رمزگذاری پیش‌فرض برای HTML5، CSS، JavaScript، PHP، SQL و XML است.


رمزگذاری XML

اولین خط اسناد XML به اصطلاح prolog خوانده می‌شود:

<?xml version="1.0"?>

prolog و به طور معمول شامل شماره ورژن XML است.

همچنین می‌تواند شامل اطلاعاتی درباره کدگذاری استفاده شده در سند نیز باشد. این prolog مشخص می‌کند در این سند از کدگذاری UTF-8 استفاده شده است.

<?xml version="1.0" encoding="UTF-8"?>

استاندارد XML باید به گونه‌ای باشد که هردو روش کدگذاری UTF-8 و UTF-16 برای تمام نرم‌افزارهای XML قابل فهم باشد.

UTF-8 روش کدگذاری پیش‌فرض است، برای اسنادی که جدا از اطلاعات هستند .

به علاوه، بیشتر نرم‌افزار‌های XML رمزگذاری‌هایی مثل ISO-8859-1 و Windows-1252 و ASCII را می‌فهمند.


خطاهای XML

در اکثر موارد اسناد XML در کامپیوتر اول ساخته می‌شوند، بر روی سرور، روی کامپیوتر دوم فرستاده می‌شوند و در آخر بر روی کامپیوتر سوم به وسیله مرورگر نمایش داده می‌شوند.

اگر رمزگذاری در هر کدام از سه کامپیوتر به درستی تفسیر نشود، مرورگر ممکن است متنی بی‌معنی را نشان دهد، یا ممکن است یک پیام خطا دریافت کنید.

برای اسناد XML با کیفیت، استفاده از رمزگذاری UTF-8 بهترین گزینه است. UTF-8 کاراکتر‌های بین‌المللی را پوشش می‌دهد و همچنین اگر هیچ رمزگذاری اعلان نشود، رمزگذاری UTF-8 به صورت پیشفرض انتخاب می‌شود.


نتیجه گیری

زمانی که یک سند XML را می‌نویسید:

  • از ویرایشگری برای XML استفاده کنید که از رمزگذاری پشتیبانی کند.
  • مطمئن شوید که ویرایشگر از کدام روش رمزگذاری استفاده می‌کند
  • روش کدگذاری را در صفتی به نام encoding مشخص کنید
  • UTF-8 امن‌ترین روش کدگذاری برای استفاده است
  • UTF-8 برای صفحات وب استاندارد است
تمامی محصولات و خدمات این وبسایت، حسب مورد دارای مجوزهای لازم از مراجع مربوطه می‌باشند و فعالیت‌های این سایت تابع قوانین و مقررات جمهوری اسلامی ایران است.
logo-samandehi مجوز نشر دیجیتال از وزرات فرهنگ و ارشاد اسلامی پرداخت آنلاین -  بانک ملت معرفی بیاموز در شبکه سه