データをある形式から別の形式に変換するプロセスは、エンコーディングとして知られています。 これは、データを変換して、さまざまなシステムでデータをサポートおよび使用できるようにするために使用されます。エンコードは、温度を摂氏から華氏に変換するのと同様に機能します。温度は別の形式に変換されるだけですが、元の値は常に同じままです。エンコーディングは主に次の 2 つの分野で使用されます。
注: エンコードは、主な目的がデータを隠すことではなく、適切に利用できる形式に変換することであるため、暗号化とは異なります。
このトピックでは、コンピューティングで使用されるさまざまな種類のエンコード技術について説明します。
エンコード技術の種類
文字コード
文字エンコーディングは文字をバイトにエンコードします。 。これは、0 と 1 を実際の文字、数字、記号に解釈する方法をコンピューターに伝えます。コンピュータはバイナリ データのみを理解します。したがって、これらの文字を数値コードに変換する必要があります。これを実現するために、各文字はバイナリ コードに変換され、そのためにテキスト ドキュメントがエンコード タイプで保存されます。数字と文字を組み合わせることで実現できます。文字エンコーディングを適用しない場合、当ウェブサイトでは文字やテキストが適切な形式で表示されません。したがって、可読性が低下し、マシンはデータを正しく処理できなくなります。さらに、文字エンコーディングにより、各文字がコンピュータまたはバイナリ形式で適切に表現されるようになります。
文字エンコーディング手法にはさまざまな種類があります。以下に示します。
HTMLエンコーディング
HTML エンコーディングは、HTML ページを適切な形式で表示するために使用されます。エンコーディングにより、Web ブラウザはどの文字セットを使用するかを認識します。
HTML では、 などの HTML マークアップでさまざまな文字が使用されます。これらの文字をコンテンツとしてエンコードするには、エンコーディングを使用する必要があります。
URLエンコーディング
URL (Uniform Resource Locator) エンコーディングは次の目的で使用されます。 文字をインターネット経由で送信できる形式に変換する 。パーセントエンコーディングとも呼ばれます。 URL エンコーディングは、ASCII 文字セットを使用して URL をインターネットに送信するために実行されます。非 ASCII 文字は % に置き換えられ、その後に 16 進数が続きます。
UNICODEエンコーディング
Unicode は、ユニバーサル文字セットのエンコード標準です。これにより、世界中で利用可能なほとんどの言語または書記体系で表されるテキストのエンコード、表現、処理が可能になります。サポートされているすべての言語の各文字にコード ポイントまたは番号が提供されます。すべての言語で使用できるほぼすべての文字を表すことができます。ビットの特定のシーケンスは、コーディング単位として知られています。
UNICODE 標準では、8、16、または 32 ビットを使用して文字を表現できます。
Unicode 標準では、コード ポイントをエンコードするための Unicode Transformation Format (UTF) が定義されています。
UNICODE エンコーディング標準には次の UTF スキームがあります。
UTF8 は、電子通信で使用される可変幅文字エンコーディングである UNICODE 標準によって定義されています。 UTF-8 は、1 ~ 4 つの 1 バイト (8 ビット) コード単位を使用して、Unicode の 1,112,064 個の有効な文字コード ポイントすべてをエンコードできます。
UTF16 エンコーディングは、2 つの 16 ビット整数のいずれかを使用して文字のコード ポイントを表します。
UTF32 エンコーディングは、各コード ポイントを 32 ビット整数として表します。
Base64エンコーディング
Base64 エンコーディングは、バイナリ データを同等の ASCII 文字にエンコードするために使用されます。 SMTP などのメール システムは ASCII テキスト データのみを受け入れるため、バイナリ データを処理できないため、メール システムでは Base64 エンコーディングが使用されます。これは、資格情報をエンコードするために単純な HTTP 認証でも使用されます。さらに、バイナリ データを Cookie やその他のパラメータに転送して、データを読み取れないようにして改ざんを防ぐためにも使用されます。 Base64 エンコードを使用せずに画像または別のファイルを転送すると、メール システムはバイナリ データを処理できないため、ファイルが破損します。
Base64 はデータを 3 バイトのブロックに表し、各バイトには 8 ビットが含まれます。したがって、24 ビットを表します。これらの 24 ビットは、6 ビットずつ 4 つのグループに分割されます。これらのグループまたはチャンクはそれぞれ、同等の Base64 値に変換されます。
ASCIIエンコーディング
情報交換用米国標準コード (ASCII) は文字エンコーディングの一種です。これは、1963 年にリリースされた最初の文字エンコーディング標準です。
ASCII コードは英語の文字を数字として表すために使用され、各文字には次の番号が割り当てられます。 0から127まで。 最新の文字エンコーディング スキームのほとんどは ASCII に基づいていますが、多くの追加文字もサポートされています。これは、下位 7 ビットのみを使用するシングル バイト エンコードです。 ASCII ファイルでは、各アルファベット、数字、または特殊文字は 7 ビットの 2 進数で表されます。キーボードの各文字には、同等の ASCII 値があります。
画像、オーディオ、ビデオのエンコーディング
ストレージ容量を節約するために、画像、オーディオ、ビデオのエンコードが実行されます。画像、オーディオ、ビデオなどのメディア ファイルは、より効率的な圧縮形式で保存するためにエンコードされます。
これらのエンコードされたファイルには、通常は同様の品質の同じコンテンツが含まれていますが、サイズが圧縮されているため、より少ないスペースに保存したり、メールで簡単に転送したり、システムにダウンロードしたりできます。
として理解できます。 WAV 音声ファイルを .MP3 ファイルに変換し、サイズを 1/10 に縮小します。番目元のサイズに戻します。