文字セット – 日本語

そして、メール形式のサイト:

文字セット:ボディ

あなたのメッセージにアクセント付き文字や数学記号を使用する必要がある、またはあなたが「ユーロの印」を挿入する方法があるかどうか迷っている、またはあなたは、特殊文字があるべきメッセージ、他の人のゴミは、この記事では、あなたが問題を理解するのに役立ちますことに気付いた場合-isu関与。

注意:彼らは文字列を検索すると、一部の人々は、このページに蛇行:メッセージは、Unicodeが含まれています 文字とは、バイナリ添付ファイルとして送信されてきました。 彼らは、このテキストを電子メールメッセージを受け取ることができます。 それはウイルス ; 添付ファイルを開けないでください。 (後述)本当のUnicodeのメッセージは、バイナリ添付ファイルを必要としません。

文字は、コンピュータのキャスト

コンピュータは非常に強力なツールです。 しかし、彼らは非常に重要な制限があります:すべてのは、彼らは本当に、その番号に対処することができます。 どのような – 言葉、写真、ビデオクリップの音 – コンピュータはそれに対処するための数字の列に変換する必要があります。 これは、異なるコンピュータやプログラムが数字の特定のグループによって表されているもののデータについて相互に合意したことを確認するために、データ・フォーマット規格の仕事です。 「ポイント・アンド・クリック」ソフトウェアのこの年齢では、ユーザーは、ドラッグ&ドロップ、カット、ペースト、アップロード、および任意のマルチメディアをダウンロードすることができますに慣れてきました。 彼らはめったに本当に何かがコンピュータ画面上のゴミの塊として出て誤ったデータファイルになったときを除いて、自分のコンピュータの「フードの下」で何が起こっているかを考えるために停止しません。 その時点で、符号化データがどのように修正することができなかったし、何かを見つけることが重要であるかを知ります。

この記事では、どのようにコンピュータストアと送信テキストに自身を懸念します (で議論データの他のタイプの添付ファイルページの。)テキストは、人々がコンピュータに保存したいデータの最も初期のタイプの一つであるので、開発者は、過去半世紀のための番号としてテキストを表現する手法が出ています。 コンピュータの製造元によって設計されたいくつかの独自の符号化方式の後、みんなで一貫して使用される汎用文字エンコード規格のための欲求は、1960年代初頭にASCII(情報交換用米国標準コード)を考える起こします。 しばらくの間、このようなEBCDICやボドーなどの競合コードする他の文字とスタイルの戦い、ASCIIの戦い「ベータ対VHS」が、最終的に勝ちました。 (ただし、このようなビデオフォーマットベースのベータ版はまだEBCDICを使用してIBMメインフレーム、およびボドー誰でもからのデータを転送する必要がある聴覚障害者用の通信機器は、別の事のために、そこにある、まだ彼らのニッチを持っている専門のプロのエンコーディング以外の文字を使用することで発見されましたしかし、ASCIIに変換する必要がある。)長年にわたって、いくつかの改正後は、US-ASCIIとして知られているASCII形式は、今現在使用されているほぼすべてのコンピュータシステムによって理解されている「共通分母」キャラクタ・セットです。

ASCII文字セットでは、テキストの一部の任意の文字、数字、句読点を(コンピュータによって使用されるバイナリコードでは、それは店に、7 ビット、または二進数字をとる。)、例えば0〜127までの数値で表され、大文字のAは、あなたが一貫性のある標準文字セットの重要性を見ることができます番号65で表されます。 誰でもASCIIが至る所Z作者が意図した表示されます使用して1からこのコンピュータに転送文書を読み取ろうとするので、他のコンピュータは、数65で文字Zを表す文字エンコーディングを使用している場合。 アリストテレスとアイン・ランド、「AはAである」方法については大したことをしたが、あなたは文字セットと一致しない場合、Aは、Zがあります!

ASCII文字セットで128の文字がありますが、それらのいくつかは、(めったに今日使用されていないとユニットセパレータのようなよりエキゾチックなものとデバイス制御2)タブや改行などの制御文字があります。 文字は10桁であり、上下のケースで26文字のアルファベット、及び期間およびセミコロンのような様々な一般的な句読点を含みます。 (あなただけの「ストレート」引用符とアポストロフィではなく、私は後で説明します変態の種類を、使用しなければなりませんが)通常は「プレーン」ASCIIに非常によく記述することができ、英語のテキスト。

US-ASCII文字
0 NUL 16 DLE 32 SP 48 0 64 @ 80 P 96 ` 112 P
1 SOH 17 DC1 33 49 1 65 A 81 Q 97 A 113 Q
2 STX 18 DC2 34 50 2 66 B 82 R 98 B 114 R
3 ETX 19 DC3 35 51 3 67 C 83 S 99 C 115 S
4 EOT 20 DC4 36 $ 52 4 68 D 84 T 100 D 116 トン
5 ENQ 21 NAK 37 53 5 69 E 85 U 101 E 117 U
6 ACK 22 SYN 38 54 6 70 F 86 V 102 F 118 V
7 BEL 23 ETB 39 55 7 71 G 87 W 103 グラム 119 ワット
8 BS 24 CAN 40 56 8 72 H 88 X 104 時間 120 X
9 HT 25 EM 41 57 9 73 89 Y 105 121 Y
10 LF 26 SUB 42 * 58 74 J 90 Z 106 J 122 Z
11 VT 27 ESC 43 + 59 ; 75 K 91 [ 107 K 123 {
12 FF 28 FS 44 60 < 76 L 92 \ 108 リットル 124 |
13 CR 29 GS 45 61 = 77 M 93 ] 109 メートル 125 }
14 SO 30 RS 46 62 > 78 N 94 ^ 110 n個 126
15 SI 31 米国 47 / 63 79 O 95 _ 111 O 127 DEL

幸いなことに、ASCIIはあなたがほとんど何がこのセットの文字を使用して書かれていることを確認することができることを非常に普遍的である方法で採用されている(制御文字以外の、とにかく)に関係なく、システムやプログラムを通じ送信されたもの、それが書かれたのと同じ方法で表示されません。 電子メールのユーザー(はい、私は最終的にこのサイトの背面にトピックを取得する予定です !)のために、これは、ASCII文字を使用することは非常に安全である文字であることを意味します。 あなたのメッセージはASCII文字セットの文字、数字、および句読点で完全に構成されている場合は、読みやすさ、それらの問題を持っていません。(実際には、それは下でも合法である標準の電子メール形式ではない別に。しかし、離れて改行から、キャリッジリターンとラインフィードは、単一の行を作成するために一緒に来ることができるという特殊な状況で、メッセージに制御文字が含まれるようにし、 “タブには、電子メールでの制御文字を含めることは本当にない点がない、と一貫して受信側でプログラムによってそれらで作られた全く解釈が。 改ページ文字、#12は、しかし、マークするニュースグループでは、いくつかの伝統的な用途を持っていません書籍、映画、などについての議論でスポイラー」;。いくつかのニュースの読者はボタンのために一時停止し、その時点から先に進む前に押された、またはあなたがこの機能を表示する準備が整うまで、次の文字が現在のメールやニュースリーダーではあまり一般的である何明確ではありませんでしたさしかし、。)

制御文字で1つ注意することは、ラインが表現されている方にはいくつかのプラットフォームの違いがあるということです。 伝統的な基準に、2つの文字CR(#13)とLF(#10)は、行を終了するために一緒に行きます。 Unix、Linux、および同様のシステムが唯一の文字LFを使用しながら、(Microsoftが実際に!変更のためにここに伝統的な標準に従うように)、およびMacOSのは、伝統的に文字のみCRを使用するWindowsシステムでは、このようにそれを行います。 (ただし、MacOSの最新バージョンは、Unixベースであり、LF文字を使用してに切り替えました。)テキストファイルがシステム間で転送されたときにそれは時々口論を引き起こす可能性がありますが、私は何の問題も電子メールが表示されません。 他のシステムを破壊し、彼らと透過的に動作し、すべてのメールクライアントとサーバのどちらかは、プラットフォームに関係なく、正しい標準符号化ラインブレイクに従うか、彼らはバリアントを認識するのに十分な強されています。

タブストップの間のプログラムは、彼らが作成したどのくらいのスペースが異なる可能性があるため、タブ(#9)も、問題になることがあります。

ASCII外

世界の残りの部分は、すべてではないん英語を話す、しかし、そこにどこASCIIには問題があります。 あなたは他の多くの言語で使用されている、非常によく、コンピュータに英語を表す文字の「標準」のセットを与えるが、アクセント、ウムラウト、およびその他の発音区別符号付きの文字を省略するためにいくつかの文化的な偏りがあるように見つけるために、左奇数PCである必要はありません。 また、行方不明は、ギリシャ語やキリル文字、ドル記号以外の通貨記号、および、そのような高い数学などの高度なアプリケーションに必要な特殊記号として別の文字です。 世界中で使用されるコンピュータの場合は、ASCIIを越えて行くことが必要です。

パソコン上での標準的なバイト(データ記憶部)は8ビットであり、そして唯一の7ビットASCIIを使用しているため、行うには明白なことを表現することができる文字の数を2倍に、利用されるように8番目のビットを置くことです。 これは、チェックサムやフラグモードとして8番目のビットを使用古いソフトウェアに問題がある可能性がありますが、コンピュータが文字を格納するために、すべての8ビットを使用することが最終的に一般的になるだろう。 残念ながら、それは標準のためにしばらく時間がかかった自分のキャラクターは(128から255までの数を表す)別の位置128にあるだけでについて生じました。 異なるプラットフォームは、アクセント付き文字、記号、ボックス描画文字、および他のものの異なる組み合わせを使用します。 テキストモードは、IBM PCのセットがあり、Macintoshは再び使用され、Windowsが来たときには差がなかったです。 特定の文字は、現地語のために必要とされることがサポートされるように、異なる国の市場に向けたコンピュータシステムのバージョンも異なるだろう。 これは、異なるシステム間でのデータ交換のための非常に良い状況ではありません。

幸いなことに、 国際標準化機構 、何らかの理由で、実際には、によると、ISOはIOSでない省略、( 自分のサイト 、それが本当に異なるで異なる凝縮する様々な国を怒らしないように、彼らの真実のイニシャル放置するものではありませんです言語、それはとにかく、何のために立っていないINITIALISMSと頭字語のように思えるこれらの日)マーケティングのこのタイプは、標準文字セットの束で出てきました。 世界のさまざまな言語が8ビット文字の単一のグループに収まるよりも、それらの間に複数の文字を持っているので、彼らはただ、統一された文字セットで出てくることはできません。 代わりに、彼らは、異なる言語グループのために設計された(ISO 8859シリーズとして指定された)文字の様々なセットで出てきます。 最も一般的に使用さの一つは、西ヨーロッパ言語のための有益な文字が含まれても「ラテン-1」として知られているISO-8859-1、です。 この文字のセット;のものと実質的に同一である(または、より良い、「文字エンコーディング」純粋主義者は、「設定」、または「レパートリー」、利用可能な文字のグループが、「エンコーディング」は数字が文字に一致するものを決定されてはいることを指摘します) Windowsの代わりにISO-8859-1に制御文字のために確保サイン商標(™)と「カーリー」引用符を含むいくつかの文字を置く#159による位置#128での文字のグループ、その例外での「Windows 1252」のエンコーディング、。 その他のISO規格、ISO 6429、完全な「逆ラインフィード」と「制御シーケンスイントロデューサ」としてこれらの制御文字のためのオタクの名前や略語を、与えます。 私はプログラムがこの制御文字を使用して正確にわからないが、私はそれが電子メールでそれを使用することに意味がないと思います。 (それがなかった場合でも、Windows上のプログラムは、少なくとも、文字位置ではなく、実際に自分の位置に言っ標準コントロールの文字よりも、Windowsの文字セットの文字Microsoftismの独自によって占められていることを前提とする傾向があるので、それは、安全ではありません)しかし、完全を期すために、私はISO-8859-1エンコーディングの#255を通じて、ここでグラフコード#128でそれらを含むよ(コード#0〜#127は、US-ASCIIと同じです)。

ISO-8859-1文字(ISOと6429のコントロール)
128 XXX 144 DCS 160 NBSP 176 ° 192 À 208 Ð 224 à 240 ð
129 XXX 145 PU1 161 ¡ 177 ± 193 Á 209 Ñ 225 á 241 ñ
130 BPH 146 PU2 162 ¢ 178 ² 194 Â 210 Ò 226 â 242 ò
131 NBH 147 STS 163 £ 179 ³ 195 Ã 211 Ó 227 ã 243 ó
132 IND 148 CCH 164 ¤ 180 196 Ä 212 Ô 228 ä 244 ô
133 NEL 149 MW 165 ¥ 181 μ 197 Å 213 Õ 229 å 245 õ
134 SSA 150 SPA 166 | 182 198 Æ 214 Ö 230 æ 246 ö
135 ESA 151 EPA 167 § 183 199 Ç 215 × 231 ç 247 ÷
136 HTS 152 エスオーエス 168 ¨ 184 ¸ 200 È 216 Ø 232 è 248 ø
137 HTJ 153 XXX 169 © 185 ¹ 201 É 217 Ù 233 é 249 ù
138 VTS 154 SCI 170 ª 186 º 202 Ê 218 Ú 234 ê 250 ú
139 PLD 155 CSI 171 « 187 » 203 Ë 219 Û 235 ë 251 û
140 PLU 156 ST 172 ¬ 188 ¼ 204 Ì 220 Ü 236 Ì 252 ü
141 RI 157 OSC 173 SHY 189 ½ 205 Í 221 Ý 237 í 253 Ý
142 SS2 158 PM 174 ® 190 ¾ 206 Î 222 Þ 238 Î 254 þ
143 SS3 159 APC 175 ¯ 191 ¿ 207 Ï 223 ß 239 ï 255 ÿ

「XXX」文字制御、ちなみに、ポルノ業界で使用されていません。 彼らは明確に定義された標準規格を残します。 ISO-8859-1は、いくつかの特定の言語の文字エンコーディングの一つであるため、各プロトコルが使用するエンコーディングを示すいくつかの方法を持っているテキストを送信および受信するためにさらに、それが必要です。 一つの可能​​性は、符号化規格であるフィアットによって宣言することです。 ISO-8859-1(Latin-1のは)それは特に示されていない多くの場合、今日のデファクトスタンダードです。 ほとんどのコンピュータシステムは、それらを理解することができますので、このセットの文字は、US-ASCIIに加えて、「最も安全な」は、テキストで使用します。 しかし、これは他の言語が異なる符号化によって表現されて残します。 幸い、Webや電子メールを含むほとんどのプロトコルには、文字エンコーディングの明示的な指示を提供します。 電子メールの場合は、それが中で行われたContent-Typeを追加してヘッダcharsetパラメータ。 だから、ISO-8859-1エンコーディングで通常のテキストメッセージを表示するには、それがヘッダーに表示されます。

コンテンツタイプ:テキスト/平野。 文字セット= ISO-8859-1

引用された印刷

もう一つだけ問題があります。 標準文字形式 (RFC 2822)は、7ビットのASCIIの範囲の文字の使用を禁止します。 この理由は、8ビットの文字がネットワークプログラムおよびそれらに使用されていない上、予期せぬ影響を与えることがあるということです。 これは、現時点では抽象的な学問的関心よりもかもしれないが、過去にフラグまたはチェックサムとして8番目のビットを使用し、ネットワーク上で転送されている電子メールの多くはそれほどではありません。 このような状況で問題が発生しないようにするには、ASCII文字で送信するデータが安全純粋でできるように設計されて印刷可能BASE64符号化システムを引用しました 。BASE64は、バイナリデータの伝送のために設計され、且つに説明される添付ファイル物品の。 (あいまいな技術としてのbase64での本体のテキストをエンコード一部のスパマー!) 引用符で囲まれた印刷可能ないくつかの非ASCII文字を含むことができ、プレーンテキストメッセージのために設計されました。 等号(=)からなる配列が2つの続くように(制御文字、コード#127以上のものを含む)、「特殊」文字を符号化しながら印刷することができる定期的なASCII文字からなるメッセージの一部は、変わりません進(ベース16)の数字(これはF文字を通じて9及びAの数字0からなります)。 特殊文字と同じマークの使用は、それはまた、(「としてエンコードされなければならないことを意味=3D 」)。 改行やスペースを処理するために使用されているより多くのいくつかのルール。

受信者の電子メールプログラムは(ほぼすべてやる今日)printableエンコーディングを引用し理解している場合、コーディングは、受信側でキャンセルされるので、文字は、彼らが来て同じように出てきます。 受信者がコーディング(または調理ソースコードの形でメッセージが表示される)を理解していない場合、メッセージは主に、定期的に読みやすい、テキストのように見えますが、兆候はそれに散在同じと進数値であるようないくつかの奇妙を持っていますし、また、奇数ラインブレイクを有することができる(引用された印刷可能なエンコードが取るために改行を追加長蛇の列仕様では、しかし、各行の最後の文字が、それは「ソフト改行」であることを示すために=記号があるとき、これは受信側でキャンセルされました)。

このヘッダ行は、符号化が使用中で印刷可能引用されていることを示すために追加されます。

コンテンツ転送 – エンコード:quoted-printableの

オンワードUnicodeへ

標準ISO文字セットエンコーディングは、ベンダーが特殊文字のセットに属する混乱をもたらすことができますが、一部の人々はまだ、すべての言語で必要とされている文字が含まれた文字の単一の統合セットを作成するために夢を持っています。 これは明らかに表現するために8ビット以上を取るために起こっています。 中国は、一人で、256文字のセットに収まることができるより多くの文字を持っています。 したがって、標準文字として知られるように場合Unicodeが最初の形式を取り、それは(8ビット符号化の2倍の)文字ごとに2つのバイトを取って、16ビットのエンコーディングであり、65,536の異なる文字を表すことができます。(彼らは最終的にはこれよりもさらに広い範囲に拡大し、我々は後で見るように。)この文字は、0から65535までの数(または「位置コード」)を持っていますが、より頻繁にFFFFを通じて進数0000に与えられます。 ISO-8859-1(Latin-1の)は、この古い規格に準拠した最初の256の位置のUnicodeの一部でした。 これが今度は最初の位置にある128 US-ASCIIを含むので、それはまたのUnicodeに含まれています。 残りの位置は、チェスの駒のための数学記号のために中国へギリシャ語からヘブライ語に至るまで…ともユーロの記号(€)を含むように#256と、彼らの統一通貨を象徴するために、今日、ヨーロッパのために重要であるが、それは存在しません。文字の標準セットには、以前に設計したとき。

US-ASCII文字セットのほとんどは、1文字ごとに2つのバイトが必要言語英語や西欧、中にオンラインテキストのほとんどが無駄と考えているので、それはテキストドキュメントのサイズを倍にするので。 そのため、いくつかのより効率的な符号化が設計し、最も人気のあるビーイングのUTF-8。 すべての文字が同じ数のビットを取り、可変長配列などの文字を表し概念ダウンこのエンコーディング。 特に、128 US-ASCII文字は、US-ASCIIとISO-8859-1での表現と同じで、シングルバイトとしてエンコードされているUTF-8文字だけで構成文書が適している、プレーンなASCII文書から区別することができないように、前方と後方互換性。 これを越えて、高ビットがセットされたバイトの様々な組み合わせは、Unicode以外の文字を表すために使用されます。 特に、これらのバイトがマルチバイトシーケンスの一部として使用されているので、#128から#255からLatin-1文字は、UTF-8での「生」シングルバイトとして入力することができないことに留意すべきです。 文字は、US-ASCII文字とは異なり、複数のバイトとしてエンコードする必要があります。 これは時々、問題の文書UTF-8および適切な変換を実行しませ関与ソフトウェアに挿入されているLatin-1文字を引き起こす可能性があります。ソフトウェアの作者は(重要では非ASCII文字の国へのコンピュータ市場の広がりなど)より多くのグローバル意識を得るようしかし、それはユーザーがそれについてあまり考えることなく、適切な文字のすべての種類を処理するためのソフトウェアのために、より一般的になりつつあります…何かが台無し場面を除いて!

UTF-8の後に確立された(そしてはるかに一般的な生の16ビット符号化よりも使用される)、ユニコード自体は、すべての文字を複数の文字がより高い位置に割り当てることができるように同じビット数、及び改訂基準であるという概念を滴下しました。 #65535のこの文字はUTF-8でエンコードするために6つのバイトまでかかりますが、以前のそれを作るにはあまりにも明白な文字を追加することができます。 (これまでのところ、しかし、取得しようとクリンゴンはユニコードのセットに追加は拒否されましたが、彼らは進コードU + 1F4A9「うんちの山」のような便利である文字を追加するフィットを見てきました。)Unicode文字セットもによって標準として採用されていますISO 10646に指定されているISO、。

UTF-8のコードは、ほんの数他の人とほとんどASCII文字を含む文書のための非常に効率的です。 また、これは他のほとんどのエンコーディングが一度に必要なすべての文字を表現することができなくなり、複数の言語からのテキストを含む文書をエンコードするための最良の方法です。 しかし、完全に非ASCII文字からなる単一言語、異なる符号化、言語の文字セットのための特別な、より効率的に書かれているものがあれば。 そのため、UTF-8は、他のすべてのエンコーディングを群衆ません。 しかし、Unicode標準の基礎となることは文字のセットのすべてのエンコーディングを比較し、変更することができ、「共通語」のある文字「類似」です。

文書エンコードUTF-8は、その符号化を示すために、ヘッダ行を有します。

コンテンツタイプ:テキスト/平野。 文字セット= UTF-8

電子メールメッセージに、あるべきである転写印刷引用としてバイト順序は、ASCII(16進数桁)の形で表される非ASCII文字を示すように、上述したように符号化されました。

EM-ダッシュ、およびブランド・アイデンティティ、カーリー引用

以前、私は、ISO-8859-1の一部ではない「カーリー」引用符とマーク™などのWindows文字セットの文字、のいくつかを言及しました。 それにもかかわらず、多くのプログラム(マイクロソフトの特にそれは)文書や電子メールメッセージにそれらを組み込みたいです。 「カーリー」様々な、「」「」に変換されますプログラムの数で見つかった「スマート引用符」と呼ばれる機能、通常のASCIIの引用やアポストロフィを引き起こし、「および」、。 電子メールプログラムは、これを実行しない場合でも、あなたはまだあなたがワープロやWebページのように、他の場所からのテキストを貼り付けるこれらの文字を導入することができます。タイポグラフィの純粋主義者はcomputerists昔(とその前にタイプライターに精通している人)は「ストレート」引用符のために用いているが、これは、より真実であると言います。真であるために「カーリー引用」、およびWindowsのセットで、グループ内の他の文字が、ラテン-1ではないが、電子メールメッセージで表現することができ、そして、彼らは(デフォルトでは)完全に間違っているから及ぶことをいくつかの方法があります。しかし、問題(でも自分のWebページで問題になる可能性があり、。あなたのブラウザのような疑問符または標準のコードを示して'どこサンプルは、この文字エンティティをサポートしていないことを意味カーリー二重引用符は、上記はず。)

  1. 一部のプログラムはわずか8ビットの文字として、直接のWindowsからのドキュメントやメッセージに文字をウンチ。 メッセージのヘッダーは、であることを示した場合はus-ascii 、 iso-8859-1またはutf-8これは単純に間違っています。 文字がISO-8859-1でASCII制御文字で定義され、UTF-8でのマルチバイトシーケンスの一部であるされていません。 彼らは、Windowsは、彼らがやっていると考えて何のために立ち上がるません。 メッセージヘッダは、エンコードがあることを示している場合しかし、 windows-1252独自のプラットフォーム固有のエンコーディングの使用は良いアイデア(Windows以外のシステムがそれを作るために何を知らないかもしれない)ではないが、この文字は、技術的に正しいです。 そのために、いくつかのシステム以外のWindows(特にMacOSの)時に、彼らに様々なWindowsの異なる文字を独自にエンコードされた「スマート引用符」を、ウンチ、ドキュメントやメッセージに、そうアポストロフィは最終的に上付き1として、もう一方の端を見て、
  2. 時には、これらの文字は、HTML(またはSGMLまたはXML)構文で数値の参照として表現されています。 これは、通常のテキストメッセージ(何のマークアップ言語の構文が存在しない場合に使用されるビジネスを持っている)には意味がありませんが、それは常に、とにかくそれをやってからプログラムを停止しません。 HTML形式の電子メールは、Webページのような意味がありません。 しかし、数値的な言及は時々使用されているような偽のあるコーディングのWindowsでの目的の文字位置に応じて、。 特定のUnicode#147の数値は常にUnicode文字の位置に関連してHTMLの文字参照、および制御文字はHTMLで許可されていない範囲です。 問題の文字はUnicodeで、しかし、はるかに高い位置に番号付けされ 、 左中括弧の引用に有効な数値参照です。
  3. UTF-8エンコーディングが使用されている場合は最後に、これらの文字は、エンコーディングの下で​​、マルチバイト列として入力することができます。 これは、デフォルトではtrueで、プレーンテキストとHTML形式の電子メールのために動作します。 残念ながら、すべての電子メールプログラムは、UTF-8をサポートしていません。 これは、(彼らはメールプログラムに表示される受信メッセージの実際のスクリーンショットから取られた)ように見えることがあり、それを使用しようとする試みです。

UTF-8文字はまた、彼らが引用されたときに押しつぶさ含む同じメッセージを取得することが知られて転送され、コピー&ペースト、または操作されています。 または一緒に単一の異なるメッセージのグループは、ダイジェストまたは(それがUTF-8以外のものである場合にのみ、一つの「文字セット」ヘッダーを持つことができ、通常の代わりにゴミが表示されます符号化文字を理解するであろうとしてもプログラム)アーカイブファイルとき。

問題と関係している障害のあるので、それはむしろ代わりに、いわゆる「スマート引用符」と「贅沢」になろうとするよりも、「直接引用」などの「安全な」US-ASCII文字を、残るのがベストです。 あなたが本当にユニコードの非ASCII文字レパートリが必要な場合は、メッセージの多言語のように、その後、先に行くと、右のエンコーディングを使用する(とnonsupportingリーダープログラムを持つすべてのユーザーが幸運になります)が、それは単に「frippery」だ場合カーリー引用など、それは愚か、それをシンプルに保つためのより良いです。 とにかく、波アポストロフィがUTF-8とでエンコードされているに転送エンコードされたようにプリントアウト引用さ=E2=80=99なんと9バイト…それが正しく表示されている場合でも帯域幅とディスクスペースの無駄をとり、。 HTMLリファレンスは、 ' 7つのバイトを取ります。 通常のASCIIの引用符(「)1つのバイトを取ります。

カーリー引用符を模倣しようとする人々は、私は二重引用符を使用するよりも厄介であると考えた結果で、時々「カスタマイズ」他のASCIIやLatin-1文字です。 アクセントASCIIである墓( `)、およびラテン1である急性アクセント(「)、時々、単一引用符またはアポストロフィのようなサービスに圧入。 しかし、それらは任意の引用であることを意味しません。 彼らは、引用としてよく見るにはあまりにも遠く傾くと、キーのためのいくつかの追加のソフトウェアは、型アクセント文字に使用される非スペーシング文字の組み合わせとして扱う- (?または多分後)アクセント直前に入力した文字と組み合わせます。 したがって、引用符としてそれらを使用するのが習慣に取得する人々は、彼らが時々正常に動作しないことがわかりました。 米国のキーボードは、唯一のアクセントのためのキーを持っているが、ない単一急性(他の国のキーボードは、多くの場合、両方を持っているが)。 私はまた、人々は完全に間違った方向に傾いているが、引用符(それをhow`s?)として低アクセントを使用して見てきました。 そこで、私はこの `のような単一の開口部の引用と引用それを閉じるために、通常のストレートシングルとしてアクセントを使用する(ニュースワイヤーサービスでも共通)、「Unixのオタクが引用」と呼ぶものがあります。 これは、通常のASCIIのアポストロフィ「リーン」と呼ばれるために古いコンピュータシステムの一部のフォントに実装されたASCII標準の古代のバージョンによって駆動されます。 少なくとも1980年代以来、まっすぐになるように、標準のASCIIアポストロフィを呼びかけているが、この方法で作られた引用の両側が近いマッチングに来ないように、この最も現在のフォントに従ってください。 多くの場合、2つの墓のアクセントを持つオープンスタイル二重引用符をこの引用符を使用するので、もう一方の端に単一の文字、二重引用符と一致する場合、それは “」壊れている人々。

( – )と省略記号(…)一般的に使用されると、「全角ダッシュ」を含むLatin-1の窓の外の文字を乱用している引用及び商標記号、に加えて。 ( – )と、それぞれ3つのドット(…) “プレーン-ASCII” は、2つのダッシュを置き換えます。

ROT13

ROT13は本当に文字のセットではありませんが、それは特にニュースグループでは、あなたが時々発生する可能性のある符号化形式です。 これは公式の文書化基準(私の知る限り)の一部ではなく、その存在を示すために、ヘッダ行を持っていません。 代わりに、それは通常、プレーンテキストメッセージに埋め込まれています。 それは通常の文字(制御なしコミカルな文字または16進数)で構成されていたが、突然(警告の有無にかかわらず)、あなたは、ナンセンステキストを打ちます。 それはオタクニュースグループやメーリングリストだ場合は、ROT13が発生することがあります。 しかし、とき、それはいけない偶然の見えに対する保護の小さな度を提供するために、(あなたがどのように知っていれば解読するのは簡単だったので)、それは秘密のメッセージを保持しないように設計さ些細な「暗号化」方式では、何ですか。 これは、書籍や映画の議論でスポイラープロットのようなもの、人を怒らせるかもしれない汚いジョーク、またはRantersはむしろボスGoogleのインデックスされないオフィスの政治について熱く注文暴言の人々や企業の名前のために使用されています彼らはそれを読むことができます。

ROT13エンコーディングでは、英語のアルファベットの26の文字はアルファベットが無限ループに戻ってAにZからラッピングとみなされ、標準の13位が行く流用しました。 他のすべての文字(数字、句読点、およびアクセント付き文字は、例えば)「何を」放置されています。13は26のちょうど半分であるので(これはASCIIのアルファベット以外の文字を高い割合で有し、英語以外の言語のテキストを非表示にするに十分なROT13を行ってもよい。)、全く同じ動作が、両方のメッセージを符号化し、復号化するのに役立ちます。

伝統的に、Unixベースのニュースリーダーは、エンコードされたメッセージを読んで、または独自に作成することが容易になり、組み込み関数ROT13エンコーディング/デコーディングを持っています。 プログラムウィンドウメール/ニュースは、常にこの機能はありませんが、 Webサイトがあなたのためにそれを行うことがあります。

No Comments

    Leave a reply