КомпьютерПрограмчлалын

UTF-8 - тэмдэгт кодчилол

Юникод бараг бүх одоогийн тэмдэгтийн олонлогуудын дэмждэг. Юникод тэмдэгтийн кодчилдог хамгийн сайн хэлбэр нь UTF-8 кодчилол байдаг. Энэ нь өгөгдөл, үр ашиг, боловсруулалтын хялбар гажуудуулахад ASCII нийцтэй, эсэргүүцэл дэмждэг. Харин Эхний зүйл.

бичих хэлбэр

байт, 32-бит үг - Компьютер нь зөвхөн мэт тоо хийсвэр математик объект, түүнчлэн хадгалах нэгжийн хослол, ачих, буулгах тогтмол хэмжээний өгөгдлийг үйл ажиллагаа явуулдаг. хэрхэн танилцуулах тодорхойлох үед Кодчилол стандарт харгалзан энэ ёстой тэмдэгтийн тоо.

компьютерийн системд бүхэл тоо 8 битийн (1 байт), 16 болон 32 битийн санах ойн эс дотор хуримтлагддаг. хэлбэр бүр нь Unicode кодчилолыг, санах ой эсийн дэс дараалал нь тухайн тэмдэг харгалзах нь бүхэл тоо байна тодорхойлдог. стандартад Юникод тэмдэгтүүдийг 8, 16, 32-битийн блок бичих нь гурван өөр хэлбэр байдаг. Иймээс тэд utf-8, UTF-16 болон UTF-32 гэж нэрлэдэг. Нэр UTF Unicode Хувиргах Format гэсэн үгийн товчлол. кодчилох хэрэгслийг гурван хэлбэр тус бүр тэнцүү төлөөлөл Юникод тэмдэгтийн төрөл бүрийн хэрэглээнд давуу талтай юм.

Мэдээллийн шифрлэлт Юникод стандартын бүх тэмдэгтүүд нь төлөөлөх ашиглаж болно. Тиймээс тэд янз бүрийн шалтгаанаар төлөө шийдлийг бүрэн нийцтэй байдаг, кодлох өөр өөр хэлбэрийг ашиглаж байна. кодлох бүр хоёрдмол утгагүйгээр өгөгдлийн алдагдлын ч бусад хоёр нь ч хувирч болно.

nenalozheniya зарчим

хэлбэр Юникод кодчилол бүр төрийн бус хэсэгчилсэн давхардлын үүднээс боловсруулсан. Жишээлбэл, Windows-932 кодын нэг буюу хоёр байт нь тэмдэгтүүдийг болдог. дараалал урт нь эхний байт хамаардаг, тиймээс хоёр байт ба нэг байтын нэршлийн цуврал тэргүүлэх байт утга. Гэсэн хэдий ч, нэг байт үнэ цэнэ болон ийнх байт дараалал давхцаж болно. Энэ тэмдэгт хайлт D (код 44) (код 84 44) энэ нь андуурч хоёр байт тэмдэгт "D" гэсэн дарааллын хоёр дахь хэсэгт орж олж чадна гэдгийг жишээ нь гэсэн үг юм. ямар дараалал зөв олохын тулд хөтөлбөр нь өмнөх байт анхааралдаа авах ёстой.

нөхцөл байдал бол тэргүүлэх болон ийнх байт тэмцээн, төвөгтэй юм. Энэ нь тодорхой бус арилгахын тулд текст, эсвэл өвөрмөц код дарааллын эхлэл хүрэхээс өмнө нь урвуу орж шалгаж болно гэсэн үг юм. Энэ нь зөвхөн үр ашиггүй, харин бүрэн эхийг нь зөвхөн нэг л буруу байт уншигдах болсон тул аль болох алдаа хамгаалж байна.

тэргүүлэх, ийнх утга, хадгалах нь нэг нэгж нэг мэдээлэл биш юм, учир нь Формат хувиргах Unicode энэ асуудлыг зайлсхийдэг. Энэ нь хайх, харьцуулах нь хэзээ ч болж тэмдэгт код янз бүрийн хэсгийн тохиолдлоор нь буруу үр дүн өгсөн бүх Юникодоор баталгаажуулдаг. кодлох эдгээр хэлбэрүүд зарчим nenalozheniya ажиглаж байгаа нь бусад Зүүн Азийн олон байтын кодчилолын тэднийг ялгаж салгах хэрэгтэй.

nonintersection Өөр нэг асуудал бол Юникод кодчилолд тэмдэгт тус бүр нь тодорхой хил байдаг юм. Энэ нь өмнөх тэмдэг нь тодорхой бус хэд хэдэн скан хэрэгтэй арилгадаг. Энэ боломж нь заримдаа өөрийгөө clocking кодчилол гэж нэрлэдэг. код нэгжийн хэв гажилт зөвхөн нэг зан чанар нь гажуудал бий болж, эргэн тойрны тэмдэгт одоо ч бүрэн бүтэн байна. 8-бит формат хөрвүүлэлтийн, байт, (хоёртын код) 10xxxxxx нь эхлэн заагч оноо олохын тулд хэрэв тэмдэг эхлэх нэгээс гурван урвуу шилжилтийн шаардлагатай.

уялдаа

Unicode Консорциум бүрэн кодчилолын бүх 3 хэлбэрийг дэмждэг. Юникод тэмдэгтийн кодчилол стандартын биелэл нь адил хүчин төгөлдөр хэлбэрийг - Энэ нь UTF-8 болон Юникодоор бүх хувиргах формат гэж эсэргүүцдэг байх нь чухал юм.

Байтын чиг баримжаа

UTF-32 тэмдэгт төлөөлөх тулд 32 битийн код нэгж, Unicode кодтой давхцаж хэрэгтэй болно. UTF-16 - хоёр нь 16-битийн нэгжийн нэг. A UTF-8 4 байт хүртэл ашигладаг.

UTF-8 кодчилол байт чиглэсэн ASCII-д суурилсан систем нийцтэй байх зорилготой юм. удаан хугацаагаар байгаа програм хангамж, мэдээллийн технологийн практикт ихэнх байт нь дарааллаар тэмдэгтийн төлөөлөл дээр тулгуурладаг байсан. Олон протокол нь тогтмол хамаардаг ASCII кодчилол болон ашигладаг аль нэг хяналтын тусгай тэмдэгт зайлсхийдэг. Хялбар арга Юникод тэмдэгтүүдийг шууд, ямар ч түүнтэй адилтгах ASCII тэмдэгт буюу хяналтын тэмдэгт төлөөлж 8-бит кодлох ашиглан нөхцөл Юникод болно дасан зохицох. Үүний тулд, мөн энэ нь UTF-8 кодчилол байдаг.

хувьсах урттай

UTF-8 - хувьсах урттай бичих 8 битийн хадгалах нэгжийн бүрдсэн, дээд бит нь тусдаа байт бүрийн дарааллын аль нь хэсэг хамаарах харуулж байна. код нь дарааллын эхний элемент нь хуваарилсан үнэт зүйлсийн нэг хүрээ, өөр нэг - Дараагийн байна. Энэ disjointness кодчилол байдаг.

ASCII

UTF-8 кодчилол нь бүрэн дэмжиж байгаа ASCII код (0x00-0x7F). Энэ нь Unicode тэмдэгт U + 0000-U + 007F нэг байт 0x00-0x7F UTF-8 болон хувирах бөгөөд ингэснээр ASCII-аас ялгагдахгүй болсон гэсэн үг юм. Түүнээс гадна, тодорхой бус байдал зайлсхийхийн тулд, үнэ цэнэ нь ямар ч илүү Юникод тэмдэгтийн нэг байт төлөөлөл хэрэглэж байгаа 0x00-0x7F. тэмдэг нь хоёр байт нь дарааллыг ашиглан, ASCII бусад neideograficheskih кодчилдог. Тэмдэглэгээ хэлбэлзэж U + 0800-U + FFFF гурван байт төлөөлж байгаа бөгөөд U + FFFF илүү нэмэлт код дөрвөн байт шаарддаг.

Хэрэглэх хүрээ

UTF-8 кодчилол нь ихэвчлэн HTML протоколд давуу эрх өгч, зэрэг юм.

XML UTF-8 кодчилолын бүрэн дэмжлэгтэйгээр анхны стандарт болсон байна. Стандарт байгууллагууд бас зөвлөж байна. ASCII-тэмдэгт өөр URL хаяг дахь дэмжлэг үзүүлэх асуудал, консорциум W3C болон IETF-ийн инженерийн бүлгийн бүх кодлох тухай хэлэлцээрт ирээд шийдвэрлэсэн URL хаяг нь зөвхөн utf-8-д.

ASCII нь Compatibility шинэ програм хангамжид шилжихэд дэмжлэг үзүүлдэг. UTF-8 JEdit, Emacs, BBEdit, Eclipse, болон "Notepad" Windows үйлдлийн систем зэрэг ихэнх текст засварлагчийг, ажил нь. кодчилол Unicode өөр ямар ч хэлбэр хэрэгсэл ийм дэмжлэг өөрөөрөө сайрхахгүй чадахгүй.

давуу талыг бичих нь байт нь дарааллын бүрддэг юм. UTF-8 мөр нь С болон бусад програмчлалын хэл дээр ажиллах хялбар байдаг. Энэ кодчилол нь зөвхөн хэлбэр юм, шошго шаардлага байхгүй зэрэг Монголбанк болон XML-д кодчлол мэдэгдэл байт.

өөрийгөө синхрончлол

бусад олон байт тэмдэгтийн олонлогуудын харьцуулахад боловсруулах 8-бит тэмдэг ашигладаг орчинд, UTF-8 нь дараах давуу талтай:

  • Эхний байт код дараалал нь түүний урт нь тухай мэдээллийг агуулдаг. Энэ нь шууд хайлтын үр ашгийг нэмэгдүүлдэг.
  • эхлэх байт утгын тогтмол хүрээнд хязгаарлагдмал байдаг шиг билэг тэмдэг эхлэлийг олж хялбаржуулсан.
  • Ямар ч огтлолцлын байт утга.

үр ашгийг харьцуулах

UTF-8 кодчилол авсаархан юм. Харин Зүүн Азийн тэмдэгт кодчилох ашигласан тохиолдолд (Хятад, Япон, Солонгос, тэмдэг ашиглан Хятадын бичих) 3-байт дараалал ашигладаг. Мөн UTF-8 кодчилол боловсруулах хурдыг бичих бусад хэлбэрээр чанарын хувьд муу байдаг. Хоёртын ялгах шугам Юникодоор ялгах хоёртын адил үр дүнг гаргадаг.

тэмдэгт кодчилол схем

тэмдэгт кодчилол схем кодчилол тэмдэг хэлбэр, нэг байт байршил код нэгжийн аргыг бүрдэнэ. Юникод стандарт эхний байт зэрэг тэмдэг (Монголбанк, Байтын дараалал тэмдэг) хэрэглээг хангах нь кодлолын схемийг тодорхойлох.

UTF-8 онцлог нь тагийн онд Монголбанк бичих хэлбэр ашиглах нь зөвхөн лавлагаа хязгаарлаж байгаа үед. endian UTF-8 тодорхойлох асуудлууд, байх нь кодчилол нэгжийн хэмжээ нэг байт юм. кодлох энэ хэлбэрийн хувьд Монголбанк ашиглах шаардлагатай ч санал болгож ч байна. Монголбанк UTF-8 кодчилолын хувьд байт зэрэг тэмдэг, эсвэл гарын үсэг ашиглан бусад codings шилжүүлэх хэрэгтэй текст гарч болох юм. EF BB 16 16 BF 16 3 байт дараалал юм.

UTF-8 кодчилол хэрхэн тохируулах талаар

бичих HTML UTF-8 Дараах код нь суулгасан байна:

дарга

Мета HTTP-equiv = "Content-Type" агуулга = "текст / HTML, тэмдэгтийн бүрдэл = UTF-8" ˃

PHP нь UTF-8 кодчилол гаралт түвшин утга алдаа тохируулсны дараа файлын эхэнд толгой () функцийг ашиглан тохируулах явдал юм:

˂? Флп

error_reporting (-1);

толгой ( "Content-Type: текст / HTML, тэмдэгтийн бүрдэл = UTF-8 ');

нь MySQL мэдээллийн бааз UTF-8 кодчилол тохируулах явдал юм холбохын тулд:

˂? Флп

mysql_set_charset ( 'UTF8');

CSS-файл кодчилол UTF-8 тэмдэгт дараах байдлаар тодорхойлсон байна:

@charset "UTF-8";

Та бүх төрлийн файлууд, Монголбанкнаас ямар UTF-8 кодчиллыг сонгох аварч үед өөрөөр сайт ажиллахгүй байж болно. Utf-8 кодчилол өөрчлөх DreamWeave энэ хийхийн тулд цэсийн "нэр / Кодлох - - Page Properties нэмэлт өөрчлөлт" гэж сонгох хэрэгтэй. Хуудсыг дахин ачаалсны дараа "Connect Unicode гарын үсэг (Монголбанк)»-аас шалгах тэмдгийг арилгах, өөрчлөлт хэрэглэнэ. нэг хуудсан дээр эсвэл мэдээллийн санд дурын текст кодлох өөр хэлбэрийг нэвтрүүлсэн бол, энэ нь дахин орж, эсвэл дахин кодчилох шаардлагатай байна. Хэрэв та тогтмол илэрхийлэл ажиллах үед засах у ашиглах хэрэгтэй.

Та бас Windows нь "Notepad" -д UTF-8 кодчилолд файлыг хадгалж болно. цэс сонгож дараа - кодчилол шаардлагатай хэлбэрийг суулгах, utf-8-д файлыг хадгалах "файл болгон хадгална ...".

Текст засварлагч Notepad ++, цэс зүйлийн дамжуулан, utf-8 бусад тохируулагдсан бол онд "Монголбанкны ямар UTF-8 рүү хөрвүүлэх» зан чанарыг өөрчлөх, utf-8-д хадгалж болно.

өөр хувилбар байхгүй байна

даяаршил, улс төр, хэл шинжлэлийн хил хязгаар устгаж байгаа нөхцөлд, орон нутгийн шинж чанартай тэмдэгтийн олонлогууд нь бага хэрэглэх юм. Юникод бүх localizations дэмждэг нэг тэмдэгтийн олонлог юм. A UTF-8 - Unicode зөв хэрэгжүүлэх нь жишээ:

  • Энэ багаж хэрэгсэл, ASCII кодчилол нийцтэй байх зэрэг өргөн хүрээний дэмждэг;
  • Энэ бол гажуудал мэдээлэл тэсвэртэй байх;
  • энгийн, эмчилгээнд үр дүнтэй,
  • тавцан бие даасан байна.

UTF-8 мэтгэлцээн кодчилол болон тэмдэгтийн олонлогийн ямар хэлбэр нь талаар илүү сайн юм бий болсноор энэ нь утгагүй болдог.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 mn.birmiss.com. Theme powered by WordPress.