MIME - Multipurpose Internet Mail Extension

Proč MIME vzniklo?

Formát textových zpráv přenášených v Internetu byl definován dvojicí RFC821/RFC822. Brzy se však ukázalo, že tento standard nevyhovuje požadavkům uživatelů. Lépe řečeno požadavky uživalelů překračují možnosti nabízené těmito normami. Mail se ukázal jako vhodný prostředek pro posílání nejen holých textových zpráv, ale i pro posílání obrázků, zvuků, formátovaného textu, obecně binárních souborů. Nepříjemná byla i skutečnost, že nebylo možné poslat text s diakritikou v našem případě text skutečně český a ne pouze cesky.

Z tohoto pohledu měla původní norma pro formát mailových zpráv dvě zásadní omezení:

Omezovala délku řádky na 1000 znaků
Zpráva musela obsahovat pouze ASCII znaky

Posílání binárních souborů pomocí mailu se řešilo náhradní cestou. Soubory musely být před posláním předpřipraveny (šifrovány do sedmibitového tvaru) pomocí nějakého kódovacího programu. Kódovací program převedl binární soubor do tvaru, který vyhovoval RFC822. Příkladem takového kódovacího programu na Unixu je dvojice programů uuencode/uudecode.

Rozšíření MIME

Řešením vzniklé situace je RFC1521 označované jako MIME (Multipurpose Internet Mail Extension). Zavedení MIME se snaží řešit omezení původního standardu. MIME je standardem, který doplňuje RFC822 a zajišťuje zpětnou kompatibilitu. Je navrženo tak, aby dopisy mohly být posílány stávajícím poštovním systémem.

Tento nový standard řeší dvě otázky:

Jak vytvořit ze složitého dopisu obsahujícího např. binární data zprávu vyhovující RFC822 a tedy přepravatitelnou používanými přenosovými protokoly. Tj. zavádí standard pro kódování.
Jak rozlišit jednotlivé druhy zpráv, tj. zavádí klasifikaci přenášených informací. Klasifikace přenášených infromací se ukázala velmi užitečnou i mimo e-mail. Moderní služby Internetu ji přebírají a používají ke stejnému účelu. Příkladem služby, která takto MIME využívá je WWW tj. protokol http. MIME zavádí další hlavičkové řádky do mailové zprávy, které specifikují typ posílaných dat a způsob jejich kódování.
MIME zavádí další 4 hlavičky:
- MIME-Version - přítomnost této hlavičky v mailu indikuje, že je zpráva sestavena podle RFC1521.
- Content-Type - specifikuje typ a podtyp dat posílaných v těle zprávy.
- Content-Transfer-Encoding - specifikuje použité kódování, pomocí kterého je zpráva převedena do formátu vyhovujícímu přenosovému mechanismu.
- Dodatkové hlavičky:
  Content-ID - identifikace zprávy použitelná v možném odkazu
  Content-Description - textový popis obsahu.
Hlavička Mime-Version
Důvodem zavedení této hlavičky je zajištění kompatibility. Tj. podle přítomnosti této hlavičky v mailu klient rozpozná, že jde o zprávu sestavenou podle RFC1521. Zpráva sestavená podle RFC1521 musí tuto hlavičku vždy obsahovat. Hlavička obsahuje verzi MIME rozšíření (pro RFC1521 jde o verzi 1.0). Tedy konkrétní tvar hlavičky vypadá takto:
Mime-Version: 1.0
Hlavička musí být uvedena na začátku zprávy.
Všechny hlavičky mailu mohou obsahovat komentář, tj. hlavičky:
Mime-Version: 1.0
Mime-Version: 1.0 (Generated by GBD-killer 3.7)
jsou totožné.
Charakter dat - hlavička Content-Type
Hlavička popisuje data obsažená v těle zprávy tak, aby klient, který tuto zprávu obdrží mohl zvolit vhodný způsob prezentace obsahu zprávy.
Hlavička specifikuje charakter obsahu zprávy pomocí typu a podtypu a případně pomocí doplňkových informací. Doplňkové informace jsou uvedeny jako parametry ve tvaru parametr=hodnota. Parametrů může být uvedeno i více a na jejich pořadí nezáleží.
Typ specifikuje o jaký typ dat se jedná, zda je v těle zprávy obsažen text, obrázek nebo např obecný binární soubor.
Podtyp pak specifikuje konkrétní formát obrázku, textu a pod.
Např. hlavička
Content-Type: image/xyz
informuje klienta o tom, že obsahem zprávy je obrázek, aniž by klient musel znát konkrétní formát obrázku xyz.
RFC1521 definuje 7 základních typů:
- application
- audio
- image
- message
- multipart
- text
- video
Další typy je možné definovat rozšířením standardu. Lze použít experimentální tyty, ty je však potřeba odlišit od standardních typů prefixem x- před jménem typu např. x-world/x-wrml.
Obecný tvar hlavičky:
Content-Type: typ/podtyp parametr1=hodnota;parametr2=hodnota.
Jména typů, podtypů a parametry jsou case-insenzitive, tj. nezávislé na tom, zda je píšeme velkými nebo malými písmeny.
Kódování obsahu - hlavička Content-Transfer-Encoding
Většina shora uvedených typů dat, které chceme posílat mailem jsou 8 bitová nebo binární data. Tato data není možné poslat přímo. Proto je potřeba definovat mechanismus převodu - kódování skutečných dat do 7-bitového tvaru s krátkými řádky. Použitý typ kódování je uveden v této hlavičce.
Pro různá data je nevýhodné definovat univerzální typ kódování. Proto se definuje několik typů kódování.
- 7bit
- quoted-printable
- base64
- 8bit
- binary
- x-rozšíření
7bit znamená, že jde o 7 bitovou zprávu vhodnou pro mail, žádné kódování ve skutečnosti tedy neproběhne. Jde o implicitní metodu kódování, která se předpokládá, pokud není toto pole v hlavičce uvedeno.
Hodnoty 8bit, 7bit a binary vlastně nepředstavují žádné kódování, žádné kódování dat se ve skutečnosti neprovádí. Tyto hodnoty jsou potencionálně užitečné jako indikace typu dat v objektu.
- 7bit - data ¨jsou v krátkých řádcích, obsahují pouze us-ascii znaky, tj v základním rozsahu 32 - 126.
- 8bit - řádky jsou krátké, ale mohou se vyskytnout ne-ascii znaky.
- binary - řádky jsou dlouhé a vyskytují se ne-ascii znaky.
Hlavička se vztahuje k celému tělu zprávy. Pokud se hlavička objeví v konkrétní části zprávy, pak se vztahuje pouze na tuto část.
Musíme připomenou, že e-mail je znakově orientovaný, tj. mechanismus kódování se uplatní na osmice bitů nikoli na jednotlivé bity. Proto musí být posloupnost bitů před kódováním nejprve rozdělena na osmice - byty.
Kódovací mechanismus kóduje všechna data do ASCII znaků. Výsledkem kódování je tedy ASCII řetězec.
Hlavičky:
Content-Type: text/plain; charset=ISO-8859-1
Content-Transfer-Encoding: base64
pak interpretujeme jako: tělo zprávy je řetězec ascii znaků vzniklých kódování base64. Původní data byla ve znakové sadě ISO-8859-1 a musí být do této sady opět převedena.
Experimentální kódování musí být odlišeno od standardu prefixem x-. Je ho možné použít pro experimenty nebo v případě že klien i server jsou na tomto kódování dohodnuti.
Standardní kódovací mechanismy

1. Quoted-printable
Toto kódování je určeno pro data, která z větší části obsahují tisknutelné ascii znaky. Výsledkem kódování je ascii text, který je i bez dekódování z velké části pro člověka čitelný.
Kódován může být i text , který obsahuje pouze ascii znaky a to např. z důvodu zajištění integrity dat, pokud data prochází přes gateway, která provádí náhradu znaků a/nebo zarovnání řádky.
Pravidla kódování
1. Libovolná osmice bitů (kromě znaků konce řádky) je nahrazena znakem "=" následovaných hexadimální hodnotou osmice bitů.
2. Osmice s hexadecimální hodnotou od 33 do 60 a od 62 do 126 včetně jsou nahrazeny acsii znaky ( od ! do < a od > do ~).
3. Osmice s hodnotou 9 a 32 jsou nahrazeny TAB a SPACE znaky. Nesmí být na konci řádku.
4. Konec řádky je vyjádřen CRLF.
5. Zakódovaná řádka musí mít maximálně 76 znaků. Pokud je řádka delší použije se měkký konec řádky, tj. vloží se znak = na konec řádky.
2. Base64
Je určeno pro obecná binární data, která nemusí být čitelná pro člověka. Kódovaná data jsou pouze o třetinu delší než data původní.
Kódovací algoritmus je jednoduchý. Používá 65 US-ascii znaků, u nichž 6 bitů představuje tisknutelný znak. Znak "=" (ž65) se používá ke speciálnímu účelu. Na začátku kódování se kódovaný text rozdělí na sekvence 24 bitů a ty následně na 4 šestice bitů. Každá šestice reprezentuje jeden znak v abecedě base64. Kóduje se zleva doprava. Každých 6 bitů je nahrazeno odpovídající znakem z tabulky znaků abecedy base64.
Tabulka abecedy base64:
```
   Value Encoding  Value Encoding  Value Encoding  Value Encoding
           0 A            17 R            34 i            51 z
           1 B            18 S            35 j            52 0
           2 C            19 T            36 k            53 1
           3 D            20 U            37 l            54 2
           4 E            21 V            38 m            55 3
           5 F            22 W            39 n            56 4
           6 G            23 X            40 o            57 5
           7 H            24 Y            41 p            58 6
           8 I            25 Z            42 q            59 7
           9 J            26 a            43 r            60 8
          10 K            27 b            44 s            61 9
          11 L            28 c            45 t            62 +
          12 M            29 d            46 u            63 /
          13 N            30 e            47 v
          14 O            31 f            48 w         (pad) =
          15 P            32 g            49 x
          16 Q            33 h            50 y
```
Výstupní - zakódovaný text musí být uspořádán do řádek max 76 znaků dlouhých.
Všechny znaky pro konec řádky a jiné znaky, které nejsou obsaženy v tabulce base64, musí být dekódovacím programem ignorovány, mohou indikovat chybu přenosu.
Zbyde-li na konci textu po rozdělení méně než 24 bitů, doplní se nulové bity zprava. Přidáním na konec je indikováno znakem "=".
Dodatečné hlavičky

Content-ID
V klientech vyšší úrovně může být požadováno vytvořit odkaz z jedné zprávy do druhé. Tělo zprávy je možné proto označit identifikátorem v hlavičče Content-ID. Hodnota hlavičky může být použita pro jednoznačnou identifikaci MIME těla. Hlavička je volitelná, její použití je ale povinné v implementaci, která generuje data typu message/external-body.
Content-Description
Hlavička obsahuje popisující informace k tělu, např. název obrázku, který jako tělo je posílán.
Příklad:
Content-Description: "obrazek Prazskeho hradu".
Popis musí být v us-ascii.
Předdefinované hodnoty Content-Type
RFC1521 definuje 7 základních typů a mechanismus jejich rozšiřování. 7 základních typů bylo navrženo tak, aby pokud možno nebylo nutné přidávat další. Nicméně nové typy je možno definovat rozšířením standardu, jejich vznik se však spíše neočekává. Předpokládá se vznik nových podtypů.
Text
Tento typ je určen pro posílání textových informací. Jde o implicitní hodnotu. U typu je možné použít parametr CHARSET, který indikuje použitou znakovou sadu. Primární subtyp je plain, který označuje neformátovaný text. Podtypy se používají pro obohacené texty, texty s vylepšeným vzhledem. Příkladem je např. podtyp html, kdy text obsahuje příkazy jazyka HTML. Vlastností těchto textů je, že jsou čitelné i bez použití speciálního softwaru. To je odlišuje od nečitelných dat jako je obrázek nebo např. text v nečitelné formě.
V souladu s definovanými typy a podtypy tedy zpráva podle RFC822 může být uvozena hlavičkou:
Content-Type: text/plain; charset=us-ascii
Tento tvar hlavičky je implicitní. RFC1521 definuje pouze podtyp text/plain.
Parametr CHARSET
Parametr CHARSET indikuje použitou znakovou sadu. Implicitní hodnota je US-ascii. Není case-senzitive.
RFC1521 definuje charset pro účely MIME jako jednoznačné mapování řetězce bytů na znaky, které již nepotřebuje žádné dodatečné informace.
RFC1521 uvádí seznam předdefinovaných znakových sad. Další znakové sady mohou být registrovány prostřednictvím IANA.
Pokud znaková sada obsahuje 8-bitové znaky, pak při přenosu mailem - protokolem SMTP je použita hlavička Content-Transfer-Encoding a odpovídající kódování.
Multipart
Tělo zprávy tohoto typu obsahuje několik různých částí. Každá část těla začíná úvodním oddělovačem, pak následují hlavičky této části, prázdný řádek a vlastní část. Poslední část je ukončena koncovým oddělovačem.
Jednotlivé části nejsou interpretovány podle RFC822. Mohou ale také nemusí obsahovat hlavičky. Pokud nejsou hlavičky u části uvedeny, uplatní se implicitní hlavičky.
Pro tento typ jsou použitelné pouze tři metody kódování: 7bit, 8bit, binary.
Oddělovač je speciální sekvence znaků, která se nesmí vyskytnou nikde uvnitř částí. Oddělovač se definuje v parametru hlavičky.
Parametr má tvar boundary=řetězec. Oddělovač je pak řádka, která začína dvěma pomlčkami "--", pak následuje řetězec z parametru. Maximální délka oddělovače je 70 znaků.
Příklad:
Content-Type: multipart/mixed; boundary="gc0p4J:2408t"
Tato hlavička vyjadřuje, že je tělo zprávy složeno z několika částí, každá část má strukturu podle RFC822, přičemž hlavičky jednotlivých částí nemusí být uvedeny. Každá část začíná řádkou:
--gc0p4J:2408t
Koncový oddělovač určuje, že již nenásleduje žádná část a má tvar:
--gc0p4J:2408t--
tj. je na konci doplněný ješte dvěma pomlčkami.
Příklad mailu o dvou částech:
```
      From: Nathaniel Borenstein 
      To:  Ned Freed 
      Subject: Sample message
      MIME-Version: 1.0
      Content-type: multipart/mixed; boundary="simple boundary"

      Toto je preambule, která je ignorována. Je to proto místo
      vhodné k vložení informací pro klienty, kteří 
      nepodporují MIME.
      --simple boundary

      Toto je implicitně plain ascii text.
      Text nekončí konecem řádky.
      --simple boundary
      Content-type: text/plain; charset=us-ascii

      Toto je explicitně plain ascii text.
      Text je ukončen koncem řádky.

      --simple boundary--
      Toto je závěr, je také ignorován.
```
Podtypy:
- mixed - je primárním podtypem. Je určen pro zprávy, které obsahují nezávislé části, které je potřeba svázat v daném konkrétním pořadí.
- alternative Zpráv atohoto typu obsahuje několik částí, přitom všechny části obsahují shodné informace, pouze tvar je odlišná. Nejlepší prezentace informací je uváděna jako poslední část. Příjemcův software musí rozpoznat, které formy je schopen zobrazit a vybrat z nich tu nejlepší.
  Příklad:
```
   From:  Nathaniel Borenstein 
   To: Ned Freed 
   Subject: Formatted text mail
   MIME-Version: 1.0
   Content-Type: multipart/alternative; boundary=boundary42

   --boundary42

   Content-Type: text/plain; charset=us-ascii

      ...plain text version of message goes here....
   --boundary42
   Content-Type: text/richtext

      .... RFC 1341 richtext version of same message goes here ...
   --boundary42
   Content-Type: text/x-whatever

      .... fanciest formatted version of same  message  goes  here
      ...
   --boundary42--
```
  Software vytvářející zprávu tohoto typu musí řadit části ve vzrůstající kvalitě.
- digest - Implicitní hlavička Content-Type pro jednotlivé části je změněna z text/plain na message/rfc822.
  Příklad:
```
   From: Moderator-Address
   To: Recipient-List
   MIME-Version: 1.0
   Subject:  Internet Digest, volume 42
   Content-Type: multipart/digest;
        boundary="---- next message ----"

   ------ next message ----

   From: nekoho
   Subject: muj nazor

      ...zde je telo zpravy ...

   ------ next message ----

   From: nekoho
   Subject: muj dalsi nazor

      ... zde je telo jine zpravy...

   ------ next message ------
```
- parallel U tohoto podtypu nezáleží na pořadí částí. Klientem mají být všechny části prezentovány uživateli současně. Např. zvuk na pozadí obrázku.
Message
Často je třeba poslat mailovou zprávu jako tělo jiné mailové zprávy. Pro tento účel je definován typ message. Povolené je pouze kódování 7bit, 8bit a binary.
Definované podtypy:
- rfc822 specifikuje, že tělo obsahuje vnořenou zprávu, která má syntaxi podle RFC822. Na rozdíl od RFC822 však není nutné, aby každé tělo zprávy typu message/rfc822 obsahovalo hlavičky From, Subject a To. Vnořená zpráva může být MIME zpráva.
- Partial je definován proto, aby bylo možné posílat velké objekty rozdělené na několik menších částí. Příjemce je pak schopen automaticky složit jednotlivé části do původního celku. Tento mechanismus se používá, pokud transportní protokol omezuje velikost zprávy, kterou je schopen předat.
  Pro tento typ Message/Partial je potředa uvést tři parametry:
  1. id - jednoznačný identifikátor, podle kterého je určováno, že jednotlivé části patří k sobě.
  2. number - pořadové číslo části v rámci původní zprávy.
  3. total - celkový počet částí. Tento parametr je povinný u poslední části u ostatních je volitelný.
  Příklad audio zprávy rozdělené do dvou částí:
```
1. část

      X-Weird-Header-1: Foo
      From: Bill@host.com
      To: joe@otherhost.com
      Subject: Audio mail
      Message-ID: 
      MIME-Version: 1.0
      Content-type: message/partial;
           id="ABC@host.com";
           number=1; total=2

      X-Weird-Header-1: Bar
      X-Weird-Header-2: Hello


      Message-ID: 
      MIME-Version: 1.0
      Content-type: audio/basic
      Content-transfer-encoding: base64

         ... prvni cast kodovanych audio dat...

2. část

      From: Bill@host.com
      To: joe@otherhost.com
      Subject: Audio mail
      MIME-Version: 1.0
      Message-ID: 
      Content-type: message/partial;
           id="ABC@host.com"; number=2; total=2

         ... druha cast kodovanych audio dat...
```
- External-Body určuje, že data nejsou obsažena ve zprávě, zpráva obsahuje pouze odkaz na tato data. Parametry v tomto případě popisují způsob, jak data získat. Klient musí nejprve tato data získat.
  Pokud je zpráva typu Message/External-Body, je tvořena hlavičkou, následuje 2 krát CRLF a hlavička vnořené zprávy. Povinný parametr je access-type, který specifikuje mechanismus získání dat.
  Možné mechanismy jsou:
  - FTP
  - ANON-FTP
  - TFTP
  - AFS
  - LOCAL-FILE
  - MAIL-SERVER
  Jako volitelné parametry je možné uvést:
  - Expiration - datum, po kterém již není garantována existence dat
  - Size - velikost dat
  - Permission - typy přístupu k datům
  Jedna z hlaviček vnořené zprávy musí být Content-ID, tj. jednoznační identifikátor, kterým je na data odkazováno.
  Příklad:
```
      Content-type: message/external-body; access-
      type=local-file;

           name="/u/nsb/Me.gif"

      Content-type:  image/gif
      Content-ID: 
      Content-Transfer-Encoding: binary

      TOTO NENI SKUTECNE TELO ZPRAVY!
```
  Oblast na konci mailu se označuje jako fantom tělo a je většinou ignorováno.
  aceess-type nabývá hodnot:
  - ftp a tftp - soubos se získá pomocí daných protokolů. Pomocí povinných parametrů se zadá jméno souboru a uzel. Před přenosem je třeba zadat jméno a heslo uživatele.
  - anon-ftp - totožné s ftp, nezadává se však jméno a heslo.
  - local-file - tělo je dostupné v souboru na lokálním počítači. Parametr specifikuje jméno souboru.
  - afs - tělo je dostupné pomocí globálního souborového systému afs. Parametr specifikuje jméno souboru.
  - mail-server - tělo je dostupné na mail serveru. Povinný parametr je server=email_adresa_serveru. Příkazy pro mail server se nezadávají jako parametr (mohou být i několika řádkové), ale jako tzv. fantom tělo na konci zprávy. V ostatních případech je tato oblast ignorována.
Application
Tento typ je určen pro data, která nepatří do žádné jiné kategorie. Jde o informace, které je potřeba zpracovat nějakou aplikací, aby byly čitelné pro uživatele. Jsou definovány dva podtypy: octet-stream a PostScript. Obecně podtyp bývá jménem aplikace, pro kterou jsou data určena. Uživatel musí být nějakým způsobem informován, jak dotyčná data zpracovat, např. průvodním dopisem. Pouze z hlavičky se o jejich bližším charakteru nedozví.
Podtypy:
- Octet-Stream - indikuje, že tělo obsahuje binární data. Lze uvést parametry:
  Type - druh binárních dat (pro informaci uživatele)
  Doporučená akce při obdržení takovéto zprávy je uložit data do souboru, bez dekódování a použít aplikaci.
- PostScript - indikuje, že v tělě zprávy je postscriptový dokument.
Image
Obsahem těla je obrázek. K jeho prezentaci je potřeba odpovídající prohlížeč. Subtypy jsou definovány pro nejznámější používané formáty jpeg a gif.
Audio
Tělo zprávy obsahuje zvuk, definovaný podtyp je basic.
Video
Obsahem těla zprávy je video, primární typ je mpeg.

MIME - Multipurpose Internet Mail Extension

Proč MIME vzniklo?

Rozšíření MIME

Hlavička Mime-Version

Charakter dat - hlavička Content-Type

Kódování obsahu - hlavička Content-Transfer-Encoding

Standardní kódovací mechanismy

1. Quoted-printable

2. Base64

Dodatečné hlavičky

Content-ID

Content-Description

Předdefinované hodnoty Content-Type

Text

Parametr CHARSET

Multipart

Message

Application

Image

Audio

Video