代码之家  ›  专栏  ›  技术社区  ›  Fábio Antunes

Urlmon.dll中FindMimeFromData方法的替代方法,该方法具有更多MIME类型

  •  8
  • Fábio Antunes  · 技术社区  · 12 年前

    这个 FindMimeFromData 可通过Windows DLL访问的方法 Urlmon.dll 能够确定存储在存储器中的给定数据的MIME类型,考虑到存储这些数据的字节数组的前256个字节。

    然而,在阅读了它的文档后,我被引导到 MIME Type Detection in Windows Internet Explorer 在那里我可以找到这个方法能够识别的MIME类型。看见 list 如您所见,此方法仅限于26种MIME类型。

    所以我想知道是否有人可以给我指另一个具有更多MIME类型的方法,或者另一个方法/类,如果我能够包括我认为合适的MIME类型的话。

    4 回复  |  直到 6 年前
        1
  •  20
  •   Jeremy Thompson    5 年前

    更新:@GetoX已经获取了这段代码,并将其封装在一个用于.net核心的NuGet包中!看下面,欢呼!!

    所以我想知道是否有人能给我指另一种方法 更多的MIME类型,或者另一种方法/类 能够包含我认为合适的MIME类型。

    我使用Winista和URLMon的混合体来检测 这个 上传文件的真实格式。。

    Winista MIME检测

    假设有人用jpg扩展名重命名了一个exe,你仍然可以使用二进制分析来确定“真实”的文件格式。它不检测swf或flv,但几乎可以检测其他所有已知的格式+您可以获得一个十六进制编辑器,并添加更多可以检测的文件。

    文件魔术

    Winista使用XML文件“MIME-type.XML”检测真正的MIME类型,该文件包含有关文件类型和用于识别内容类型的签名的信息。例如:

    <!--
     !   Audio primary type
     ! -->
    
    <mime-type name="audio/basic"
               description="uLaw/AU Audio File">
        <ext>au</ext><ext>snd</ext>
        <magic offset="0" type="byte" value="2e736e64000000"/>
    </mime-type>
    
    <mime-type name="audio/midi"
               description="Musical Instrument Digital Interface MIDI-sequention Sound">
        <ext>mid</ext><ext>midi</ext><ext>kar</ext>
        <magic offset="0" value="MThd"/>
    </mime-type>
    
    <mime-type name="audio/mpeg"
               description="MPEG Audio Stream, Layer III">
        <ext>mp3</ext><ext>mp2</ext><ext>mpga</ext>
        <magic offset="0" value="ID3"/>
    </mime-type>
    

    当Winista无法检测到真实的文件格式时,我又回到了URLMon方法:

    public class urlmonMimeDetect
    {
        [DllImport(@"urlmon.dll", CharSet = CharSet.Auto)]
        private extern static System.UInt32 FindMimeFromData(
            System.UInt32 pBC,
            [MarshalAs(UnmanagedType.LPStr)] System.String pwzUrl,
            [MarshalAs(UnmanagedType.LPArray)] byte[] pBuffer,
            System.UInt32 cbSize,
            [MarshalAs(UnmanagedType.LPStr)] System.String pwzMimeProposed,
            System.UInt32 dwMimeFlags,
            out System.UInt32 ppwzMimeOut,
            System.UInt32 dwReserverd
        );
    
    public string GetMimeFromFile(string filename)
    {
        if (!File.Exists(filename))
            throw new FileNotFoundException(filename + " not found");
    
        byte[] buffer = new byte[256];
        using (FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read))
        {
            if (fs.Length >= 256)
                fs.Read(buffer, 0, 256);
            else
                fs.Read(buffer, 0, (int)fs.Length);
        }
        try
        {
            System.UInt32 mimetype;
            FindMimeFromData(0, null, buffer, 256, null, 0, out mimetype, 0);
            System.IntPtr mimeTypePtr = new IntPtr(mimetype);
            string mime = Marshal.PtrToStringUni(mimeTypePtr);
            Marshal.FreeCoTaskMem(mimeTypePtr);
            return mime;
        }
        catch (Exception e)
        {
            return "unknown/unknown";
        }
    }
    }
    

    从Winista方法的内部来看,我在这里回到URLMon:

       public MimeType GetMimeTypeFromFile(string filePath)
        {
            sbyte[] fileData = null;
            using (FileStream srcFile = new FileStream(filePath, FileMode.Open, FileAccess.Read))
            {
                byte[] data = new byte[srcFile.Length];
                srcFile.Read(data, 0, (Int32)srcFile.Length);
                fileData = Winista.Mime.SupportUtil.ToSByteArray(data);
            }
    
            MimeType oMimeType = GetMimeType(fileData);
            if (oMimeType != null) return oMimeType;
    
            //We haven't found the file using Magic (eg a text/plain file)
            //so instead use URLMon to try and get the files format
            Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect urlmonMimeDetect = new Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect();
            string urlmonMimeType = urlmonMimeDetect.GetMimeFromFile(filePath);
            if (!string.IsNullOrEmpty(urlmonMimeType))
            {
                foreach (MimeType mimeType in types)
                {
                    if (mimeType.Name == urlmonMimeType)
                    {
                        return mimeType;
                    }
                }
            }
    
            return oMimeType;
        }
    

    Wayback Machine link to the Winista utility from netomatix .AFAIK他们在开源Nutch爬虫系统中发现了一些“mime阅读器实用程序类”,并在2000年代初进行了C#重写。

    我已经使用Winista和URLMon主持了我的MimeDetect项目。请使用Hex编辑器提供新的文件类型: https://github.com/MeaningOfLights/MimeDetect

    您也可以使用注册表方法或 .Net 4.5 method 中提到 this post 与Paul Zahra联系在一起,但Winista是最好的IMHO。

    享受了解系统中文件的乐趣 他们声称是什么 而不是 laden with malware !


    更新:

    对于桌面应用程序,您可能会发现WindowsAPICodePack的工作效果更好:

    using Microsoft.WindowsAPICodePack.Shell;
    using Microsoft.WindowsAPICodePack.Shell.PropertySystem;
    
    private static string GetFilePropertyItemTypeTextValueFromShellFile(string filePathWithExtension)
    {
       var shellFile = ShellFile.FromFilePath(filePathWithExtension);
       var prop = shellFile.Properties.GetProperty(PItemTypeTextCanonical);
       return prop.FormatForDisplay(PropertyDescriptionFormatOptions.None);
    }
    
        2
  •  3
  •   Mateusz Przybylek    5 年前

    经过几个小时的寻找弹性解决方案。我采用了@JeremyThompson解决方案,将其调整为frameworks.net core/.net 4.5,并将其放入 nuget package .

       //init
       var mimeTypes = new MimeTypes();
    
       //usage by filepath
       var mimeType1 = mimeTypes.GetMimeTypeFromFile(filePath);
    
       //usage by bytearray
       var mimeType2 = mimeTypes.GetMimeTypeFromFile(bytes);
    
        3
  •  2
  •   Community CDub    8 年前

    有多种可能的解决方案 in this SO post 这至少会给你一些思考的食物。

    似乎唯一真正的方法是以二进制形式读取它,然后进行比较,无论MIME类型是以某种方式声明为硬编码的,还是依赖于机器自己可用的MIME类型/注册表。

        4
  •  2
  •   tgarcia    4 年前

    刚刚找到 FileSignatures 。它实际上是一个很好的替代方案,在Linux目标应用程序上也能很好地运行。

    上下文

    Urlmon.dll 不适合Linux,因此不适用于多平台应用程序。 我找到了 this article 在Microsoft文档中。它引用了 File Signature Database 这对于文件类型是一个很好的参考(在我写这篇文章时为518)。

    再挖掘一点,我发现这个项目很好: 文件签名 裸体 here 。它的可扩展性也很强,因此您可以从filesignatures.net中获取所需的所有类型,并创建自己的类型模型。

    用法

    您可以检查任何定义的类型

    var format = inspector.DetermineFileFormat(stream);
    
    if(format is Pdf) {
      // Just matches Pdf
    }
    
    if(format is OfficeOpenXml) {
      // Matches Word, Excel, Powerpoint
    }
    
    if(format is Image) {
      // Matches any image format
    }
    

    或者根据匹配的文件类型使用它带来的一些元数据

    var fileFormat = _fileFormatInspector.DetermineFileFormat(stream);
    var mime = fileFormat?.MediaType;
    

    可扩展性

    您可以定义从继承的任意数量的类型 FileFormat 并配置 FileFormatLocator 在需要时加载

    var assembly = typeof(CustomFileFormat).GetTypeInfo().Assembly;
    
    // Just the formats defined in the assembly containing CustomFileFormat
    var customFormats = FileFormatLocator.GetFormats(assembly);
    
    // Formats defined in the assembly and all the defaults
    var allFormats = FileFormatLocator.GetFormats(assembly, true);
    

    中的更多详细信息 project's Github