Hallo!
Ich bin gerade darauf gestoßen, dass file merkwürdige Ergebnisse liefert, wenn man Mailboxen (Format mbox -- ich habe hier keine anderen) damit prüft. Für eine bestimmte Mailbox wurde mir "HTML document, ISO-8859 text" angezeigt. Wie kommt "file" darauf, dass es sich dabei um ein HTML-Dokument handeln könnte? Es gibt dort tatsächlich (aber nicht ausschließlich) HTML-Mails, aber die erste Zeile der Datei beginnt mit "From …".
Als Referenz habe ich jetzt die mbox für diese Liste genommen:
******
$ file ~/Mail/Lists/Debian/Debian\ User
/home/pc/Mail/Lists/Debian/Debian User: Non-ISO extended-ASCII text, with very long lines
$ grep -i "^Content-Type:" ~/Mail/Lists/Debian/Debian\ User | grep -i html | sort -u
Content-Type: text/html
Content-Type: text/html;
Content-Type: text/html; charset="iso-8859-1"
Content-Type: text/html; charset=ISO-8859-1
Content-Type: text/html; charset=iso-8859-15
Content-Type: text/html; charset=iso-8859-2
Content-Type: text/html; charset="utf-8"
Content-Type: text/html; charset=utf-8
Content-Type: text/html; charset="UTF-8"
Content-Type: text/html; charset=UTF-8
Content-Type: text/html; charset="UTF-8"; name="bookmarks.html"
Content-Type: text/html; charset=windows-1252
******
Hier die Gegenprobe mit der merkwürdigen Datei:
******
$ file ~/Mail/merkwuerdig
~/Mail/merkwuerdig: HTML document, ISO-8859 text
$ grep -i "^Content-Type:" ~/Mail/merkwuerdig | grep -i html | sort -u
Content-Type: text/html;
Content-Type: text/html; charset=iso-8859-1
Content-type: text/html; charset=utf-8
Content-Type: text/html; charset="utf-8"
Content-type: text/html; charset=Windows-1252
******
In beiden mboxes gibt es also Mails mit dem Content-Type text/html -- aber file zeigt nur bei der einen "HTML document" an. Dort ist die letzte Mail "a multipart message in MIME format", und der letzte Teil ist tatsächlich HTML:
******
<snip>
------=_NextPart_000_00C1_01D3AD9B.35DC4300
Content-Type: text/html;
charset="UTF-8"
<snip>
</body></html>
------=_NextPart_000_00C1_01D3AD9B.35DC4300--
******
Im anderen Fall hat die letzte Mail den Content-Type text/plain; charset="iso-8859-1". Kann es sein, dass file wirklich nach dem Format der letzten Mail geht, um den Dateityp einer mbox zu bestimmen? Das wäre doch ziemlich willkürlich, da sich der Dateityp mit jeder neu eingegangenen Mail ändern könnte. Ist das Absicht?
Schönen Gruß
Andreas
Attachment:
pgpB6Uf_ctY2w.pgp
Description: PGP signature