Маркер последовательности байтов

Поделись знанием:
Перейти к: навигация, поиск

Маркер последовательности байтов или метка порядка байтов (англ. Byte Order Mark (BOM)) — Юникод-символ, используемый для индикации порядка байтов текстового файла. Его кодовый символ U+FEFF. По спецификации, его использование не является обязательным, однако, если маркер последовательности байтов используется, то он должен быть установлен в начале текстового файла. Помимо своего конкретного использования в качестве указателя порядка байтов, символ может также указать, какой кодировкой Unicode закодирован текст.

Кодировка Unicode может использовать 16-разрядные или 32-разрядные числа и приложение должно знать, как дальше с ними поступать. Поэтому потребность в маркере последовательности байтов возникает при обмене документами.



Использование

Согласно спецификации Unicode, символ U+FEFF в середине потока данных должен интерпретироваться как «нулевой ширины неразрывный пробел» (по существу, нулевой символ). Однако Unicode 3.2 настоятельно рекомендует использовать в этом качестве символ U+2060 «Word Joiner»[1], а U+FEFF использовать только как маркер последовательности байтов.

Представление кодировки маркера последовательности байтов

Кодировка Представление Если открыть в другой кодировке
hex dec ISO-8859-1 KOI8-R CP1251 CP866 комментарий
UTF-8[t 1] EF BB BF 239 187 191  О╩© п»ї я╗┐
UTF-16 (BE) FE FF 254 255 þÿ ЧЪ юя ■  пробел — неразрывный
UTF-16 (LE) FF FE 255 254 ÿþ ЪЧ яю  ■
UTF-32 (BE) 00 00 FE FF 0 0 254 255 ␀␀þÿ ␀␀ЧЪ ␀␀юя ␀␀■  ␀ — NUL, пробел — неразрывный
UTF-32 (LE) FF FE 00 00 255 254 0 0 ÿþ␀␀ ЪЧ␀␀ яю␀␀  ■␀␀
UTF-7[t 1] 2B 2F 76 38
2B 2F 76 39
2B 2F 76 2B
2B 2F 76 2F
[t 2]
43 47 118 56
43 47 118 57
43 47 118 43
43 47 118 47
+/v8
+/v9
+/v+
+/v/
UTF-1[t 1] F7 64 4C 247 100 76 ÷dL
UTF-EBCDIC[t 1] DD 73 66 73 221 115 102 115 Ýsfs
SCSU[t 1] 0E FE FF[t 3] 14 254 255 ␎þÿ ␎■  ␎ — упр. символ Shift Out (англ.), пробел — неразрывный
BOCU-1[t 1] FB EE 28 251 238 40 ûî √ю(
GB-18030[t 1] 84 31 95 33 132 49 149 51 �1�3 Д1Х3 � — коды без значений
  1. 1 2 3 4 5 6 7 В этих кодировках последовательность не определяет именно порядок байтов, так как кодировка однобайтная, но эта последовательность может использоваться для определения способа кодировки.[2][3]
  2. В UTF-7 в связи с использованием base-64, четвёртый байт BOM является 001111xx в двоичном представлении, где xx зависит от следующего символа (первого после BOM). Поэтому четвёртый байт не является только частью BOM, но также содержит информацию о следующем (не BOM) символе. Для xx=00, 01, 10, 11, четвёртый байт будет, соответственно, 38, 39, 2B, или 2F при кодировке в base64. Если же следующий символ не кодируется base64, то используется 38 в качестве четвёртого байта, а следующий байт 2D.
  3. SCSU предусматривает и другие кодировки для U+FEFF, указанная последовательность является рекомендованной в UTR #6.[4]

Напишите отзыв о статье "Маркер последовательности байтов"

Примечания

  1. [www.unicode.org/unicode/faq/utf_bom.html#BOM Unicode FAQ: UTF-8, UTF-16, UTF-32 & BOM]
  2. [unicode.org/faq/utf_bom.html#bom5 FAQ - UTF-8, UTF-16, UTF-32 & BOM: Can a UTF-8 data stream contain the BOM character (in UTF-8 form)? If yes, then can I still assume the remaining UTF-8 bytes are in big-endian order?]. Проверено 4 января 2009. [www.webcitation.org/6ALEu9GGt Архивировано из первоисточника 1 сентября 2012].
  3. [tools.ietf.org/html/rfc3629#section-6 STD 63: UTF-8, a transformation of ISO 10646] Byte Order Mark (BOM)
  4. [www.unicode.org/reports/tr6/#Signature UTR #6: Signature Byte Sequence for SCSU]

Отрывок, характеризующий Маркер последовательности байтов

– Что ж, Соколов, они ведь не совсем уходят! У них тут гошпиталь. Может, тебе еще лучше нашего будет, – сказал Пьер.
– О господи! О смерть моя! О господи! – громче застонал солдат.
– Да я сейчас еще спрошу их, – сказал Пьер и, поднявшись, пошел к двери балагана. В то время как Пьер подходил к двери, снаружи подходил с двумя солдатами тот капрал, который вчера угощал Пьера трубкой. И капрал и солдаты были в походной форме, в ранцах и киверах с застегнутыми чешуями, изменявшими их знакомые лица.
Капрал шел к двери с тем, чтобы, по приказанию начальства, затворить ее. Перед выпуском надо было пересчитать пленных.
– Caporal, que fera t on du malade?.. [Капрал, что с больным делать?..] – начал Пьер; но в ту минуту, как он говорил это, он усумнился, тот ли это знакомый его капрал или другой, неизвестный человек: так непохож был на себя капрал в эту минуту. Кроме того, в ту минуту, как Пьер говорил это, с двух сторон вдруг послышался треск барабанов. Капрал нахмурился на слова Пьера и, проговорив бессмысленное ругательство, захлопнул дверь. В балагане стало полутемно; с двух сторон резко трещали барабаны, заглушая стоны больного.
«Вот оно!.. Опять оно!» – сказал себе Пьер, и невольный холод пробежал по его спине. В измененном лице капрала, в звуке его голоса, в возбуждающем и заглушающем треске барабанов Пьер узнал ту таинственную, безучастную силу, которая заставляла людей против своей воли умерщвлять себе подобных, ту силу, действие которой он видел во время казни. Бояться, стараться избегать этой силы, обращаться с просьбами или увещаниями к людям, которые служили орудиями ее, было бесполезно. Это знал теперь Пьер. Надо было ждать и терпеть. Пьер не подошел больше к больному и не оглянулся на него. Он, молча, нахмурившись, стоял у двери балагана.
Когда двери балагана отворились и пленные, как стадо баранов, давя друг друга, затеснились в выходе, Пьер пробился вперед их и подошел к тому самому капитану, который, по уверению капрала, готов был все сделать для Пьера. Капитан тоже был в походной форме, и из холодного лица его смотрело тоже «оно», которое Пьер узнал в словах капрала и в треске барабанов.
– Filez, filez, [Проходите, проходите.] – приговаривал капитан, строго хмурясь и глядя на толпившихся мимо него пленных. Пьер знал, что его попытка будет напрасна, но подошел к нему.
– Eh bien, qu'est ce qu'il y a? [Ну, что еще?] – холодно оглянувшись, как бы не узнав, сказал офицер. Пьер сказал про больного.
– Il pourra marcher, que diable! – сказал капитан. – Filez, filez, [Он пойдет, черт возьми! Проходите, проходите] – продолжал он приговаривать, не глядя на Пьера.
– Mais non, il est a l'agonie… [Да нет же, он умирает…] – начал было Пьер.
– Voulez vous bien?! [Пойди ты к…] – злобно нахмурившись, крикнул капитан.
Драм да да дам, дам, дам, трещали барабаны. И Пьер понял, что таинственная сила уже вполне овладела этими людьми и что теперь говорить еще что нибудь было бесполезно.
Пленных офицеров отделили от солдат и велели им идти впереди. Офицеров, в числе которых был Пьер, было человек тридцать, солдатов человек триста.
Пленные офицеры, выпущенные из других балаганов, были все чужие, были гораздо лучше одеты, чем Пьер, и смотрели на него, в его обуви, с недоверчивостью и отчужденностью. Недалеко от Пьера шел, видимо, пользующийся общим уважением своих товарищей пленных, толстый майор в казанском халате, подпоясанный полотенцем, с пухлым, желтым, сердитым лицом. Он одну руку с кисетом держал за пазухой, другою опирался на чубук. Майор, пыхтя и отдуваясь, ворчал и сердился на всех за то, что ему казалось, что его толкают и что все торопятся, когда торопиться некуда, все чему то удивляются, когда ни в чем ничего нет удивительного. Другой, маленький худой офицер, со всеми заговаривал, делая предположения о том, куда их ведут теперь и как далеко они успеют пройти нынешний день. Чиновник, в валеных сапогах и комиссариатской форме, забегал с разных сторон и высматривал сгоревшую Москву, громко сообщая свои наблюдения о том, что сгорело и какая была та или эта видневшаяся часть Москвы. Третий офицер, польского происхождения по акценту, спорил с комиссариатским чиновником, доказывая ему, что он ошибался в определении кварталов Москвы.