# MultimediaProcessor **Repository Path**: AYANAM1RE1/multimedia-processor ## Basic Information - **Project Name**: MultimediaProcessor - **Description**: 在基于MPEG-7的多媒体处理软件Caliph&Emir的基础上,沿用了业务流程,重写/优化并增添了多种描述符的实现,增加了基于描述方案的分类模型训练方法,增加了基于传统特征和神经网络的分类模型等 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 46 - **Forks**: 41 - **Created**: 2024-12-12 - **Last Updated**: 2025-03-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: Java ## README # Multimedia_Processor ## INTRODUCTION ​ 本项目旨在构建一个基于MPEG-7标准的具备可解释性的高效图像隐私分类与检索系统,解决多媒体数据异构和关联内容检索问题。通过详细研究MPEG-7描述符提取技术和SVM分类模型,优化分类参数,设计并实现完整的系统架构,提升图像分类识别的准确性和效率,以满足媒体数据隐私检测的需求。在基于MPEG-7的多媒体处理软件Caliph&Emir(*Lux, Mathias. "Caliph & Emir: MPEG-7 photo annotation and retrieval." Proceedings of the 17th ACM international conference on Multimedia. ACM, 2009.*)的基础上,沿用了业务流程,重写/优化并增添了多种描述符的实现,增加了基于描述方案的分类模型训练方法,增加了基于传统特征和神经网络的分类模型等。 ## Environment ​ 运行前先安装jdk,推荐java 21.0.6 2025-01-21 LTS ## HOW TO USE ​ 可选exe可执行文件或源码运行。 ​ 可执行文件。c.exe为描述标记部分,批量处理图片,生成/读取描述符,对原始图像做进一步标记等;e.exe为分类检索部分,根据目标图像检索图像库中的样本并按照相似度排序展示。 ​ 源码。(建议IDEA)打开工程文件夹CE_new后,在src目录的lux下有annotation和retrieval程序CE_new/caliphemir/src/at/lux/fotoannotation/AnnotationFrame.java和CE_new/caliphemir/src/at/lux/fotoretrieval/RetrievalFrame.java,分别为描述标记和分类检索部分。 描述标记部分中根据注释在对应文件中可以新增新的描述符,注意在各个位置都增加有关内容保证新增描述符的正常使用。本项目新增的常规描述符用java编写,特殊描述符由于java处理图像相比python较为复杂因此我们使用python实现非常规描述符(RSD等)。描述符的添加参考MyDescriptor文件 分类检索部分在原先文件基础上增加了分类模型,更好地辅助系统完成基于相似度的目标图像检索。我们分别使用传统方法和基于CNN的方式以及两者结合完成了模型建立和训练,目前配置了SVM和CNN相关代码,即MP7_SVM_Cifar10_xmlload.py作为模板文件,保存的模型参数为scaler.joblib和svm_xxx.joblib,CNN模型配置一个3*3的网络作为模板并附带预训练参数。 ​ 以下为详细介绍。 ​ 一种基于MPEG-7的模型训练方法、图像分类方法、检索方法和系统,涉及图像处理技术领域。具体实现方案为:获取样本图像的多种不同类别的描述符;按照各类别的描述符分别对应的预设数值范围,对获取到的各描述符的数值范围进行调整,并将调整后的各描述符进行拼接,得到样本图像的第一特征向量;将第一特征向量输入初始的SVM,得到样本图像的预测类别;基于得到的预测类别与样本图像的真实类别之间的差异,计算损失值;基于损失值,对SVM的模型参数进行调整。 ​ SVM(Support Vector Machine,支持向量机):一种监督学习模型,常用于分类和回归分析。SVM通过寻找最优超平面来最大化数据点之间的间隔,从而实现分类。 ​ MPEG-7(Multimedia Content Description Interface,多媒体内容描述接口):用于描述多媒体内容的特征。该标准定义了一套用于描述图像、音频、视频等多媒体内容的描述符,这些描述符可以描述图像的颜色、纹理、形状等特征,能够通过相应的提取算法从多媒体内容中提取具体的数值描述。 ​ S101,获取样本图像的多种不同类别的描述符;其中,多种不同类别的描述符为利用MPEG-7描述符提取算法提取得到的,且多种不同类别的描述符包括以下至少两种:表示颜色特征的第一类描述符、表示形状特征的第二类描述符和表示纹理特征的第三类描述符; 本实施例中,样本图像可以是从开源的图像数据集中获取的,或者,预先采集并存储在电子设备的本地内存中的,或者,通过电子设备的图像采集模块实时采集的,这都是合理的。示例性的,样本图像可以来源于CIFAR-10(一种包含10个类别的图像的数据集)、CIFAR-100(一种包含100个类别的图像的数据集),等等。 ​ 可以理解的是,MPEG-7提供了多种描述符,包括颜色布局描述符(CLD,Color Layout Descriptor)、可伸缩颜色描述符(SCD,Scalable Color Descriptor)、边缘直方图描述符(EHD,Edge Histogram Descriptor)、颜色结构描述符(CSD,Color Structure Descriptor)、纹理布局描述符(TBD,Texture Browsing Descriptor)、同质性纹理描述符(HTD,Homogeneous Texture Descriptor)、轮廓形状描述符(CSD,Contour Shape Descriptor)、区域形状描述符(RSD,Region Shape Descriptor),等等。并且,MPEG-7为每一种描述符提供了对应的提取算法,例如CLD的提取算法包括图像的分割、代表颜色选择、DCT(Discrete Cosine Transform,离散余弦变换)和Z字形扫描等步骤。也就是,CLD的提取算法通过将样本图像分割成多个块,计算每个块的平均像素颜色,然后对这些颜色进行DCT变换,并通过Z字形扫描对低频系数进行分组,最终形成样本图像的颜色布局描述符。需要说明的是,提取出的样本图像的每一描述符均为一个数值序列,且该数值序列包括预定位数的数值,该预定位数可以由相关技术人员进行设定。 ​ 可以预先利用MPEG-7描述符提取算法分别提取样本图像的多种不同类别的描述符,也就是,利用MPEG-7提供的各描述符的提取算法,提取样本图像的各描述符,得到多种不同类别的描述符。例如,利用MPEG-7提供的CLD的提取算法提取样本图像的颜色布局描述符,以及,利用MPEG-7提供的TBD的提取算法,提取样本图像的纹理布局描述符,那么提取到的各描述符包括表示颜色特征的第一类描述符和表示纹理特征的第三类描述符。可以理解的是,在提取得到样本图像的多种不同类别的描述符后,可以将样本图像的多种不同类别的描述符存储在XML文件中,使得在执行本方案时可以直接从XML文件中获取样本图像的多种不同类别的描述符。 ​ 区域描述符提取算法为MPEG-7提供的用于提取区域描述符的提取算法。可以理解的是,由于区域描述符用于描述图像中区域的几何和拓扑结构特征,而基于各预设对象之间的关联关系构建的关系矢量图为拓扑图的形式,因此在得到样本图像的关系矢量图之后,可以利用区域描述符提取算法对关系矢量图进行特征提取,得到样本图像的第四类描述符。该第四类描述符又可以称为关系图描述符(RGD,Relation Graph Descriptor)。 可选地[[BSS1\]](#_msocom_1) ,在一种实现方式中,关系矢量图为通过以下步骤C1-C3得到: C1,在信息上传界面中显示样本图像、文本输入框,以及样本图像的嵌入信息; C2,获取用户在文本输入框中输入的用于描述样本图像中预设对象之间的关联关系的描述文本; C3,获取用户在矢量图构建界面中,基于描述文本和嵌入信息所创建的针对样本图像的关系矢量图。 ​ 本实现方式中,用户可以在用于对图像进行标注的客户端的信息上传界面中,输入用于描述样本图像中预设对象之间的关联关系的描述文本并保存,接着,用户可以打开该客户端中的矢量图构建界面,基于该样本图像的描述文本和嵌入信息在该界面中创建该样本图像的关系矢量图。该创建的关系矢量图可以存储在预设存储地址中,使得后续能够从该预设存储地址中获取样本图像的关系矢量图。 ​ 示例性的,用于描述样本图像中预设对象之间的关联关系的描述文本可以包括:图像中包括的对象、时间、地点、事件、动作等结构化信息,或者,根据图像表达的视觉内容填写的其他图像内容信息,等等。示例性的,样本图像的嵌入信息包括样本图像的拍摄时间、拍摄人、拍摄地点、图像格式、图像尺寸等信息。可以理解的是,图像的嵌入信息为图像采集时携带在图像的属性信息中的,本实现方式中,用于对图像进行标注的客户端可以直接从样本图像携带的属性信息中,提取部分或全部属性信息,作为样本图像的的嵌入信息。 ​ 示例性的,信息上传界面如图2所示,用户打开该界面时,“文件目录”下的矩形框中以列表形式显示有多个样本图像的存储地址,用户可以从该多个存储地址中选择一样本图像的存储地址,此时,被选择的存储地址所存储的样本图像会显示在图2的左下角区域中。并且,该界面中显示有“创作,展览和技术信息”控件,用于自动化提取样本图像的嵌入信息,包括样本图像的拍摄地点、图像格式和图像尺寸,并显示在该“创作,展览和技术信息”控件对应的矩形框中。图2中还显示有各类文本输入框,包括“结构文本描述”对应的各文本输入框,以及“自由文本描述”对应的文本输入框。“结构文本描述”对应的各文本输入框包括用于输入“地点”、“时间”、“对象”和“动作”的文本输入框,用户可以根据样本图像表达的视觉内容填写各文本输入框。 ​ 示例性的,若一张样本图像表达的视觉内容为人物A在沙滩的躺椅上喝冰饮,则根据该样本图像,可以在“地点”对应的文本输入框中输入“沙滩”,在“时间”对应的文本输入框中输入“夏天”,在“对象”对应的文本输入框中输入“人物A”,以及在“动作”对应的文本输入框中输入“喝冰饮”。并且,还可以将该样本图像表达的其他视觉内容填写到“自由文本描述”对应的文本输入框中,例如将对该人物A的姿态、着装的细节描述填写到“自由文本描述”对应的文本输入框中。 ​ 如图2所示,各类文本输入框下方还显示“图像质量评级”对应的控件,该控件用于调整图像质量,图像质量包括3个等级,分别为“卓越的”、“一般的”和“不好的”,用户可以根据样本图像的逼真度和可理解度对图像质量评级进行调整。“图像质量评级”对应的控件下方还显示有“元数据描述”对应的各文本输入框,包括用于输入“元数据创建者”的文本输入框和用于输入“评论”的文本输入框,该“元数据创建者”对应的文本输入框中用于输入创建该描述文本的用户的标识,“评论”对应的文本输入框用于输入用户对样本图像的图像质量的评论。 ​ 示例性的,矢量图构建界面如图3所示,图3中右侧显示有“人物”对应的显示框、“事件”对应的显示框以及“时间,地点”对应的显示框。“人物”对应的显示框中显示用户在信息上传界面中所输入的各人物,“事件”对应的显示框中显示用户在信息上传界面中所输入的各事件,“时间,地点”对应的显示框中显示用户在信息上传界面中所输入的各时间、地点。每一显示框的下方还设置有添加按钮与删除按钮,可以通过点击任一显示框下方设置的添加按钮添加对象、事件、地点等预设对象,添加后,左侧区域中会显示该添加的预设对象对应的节点。其中,左侧区域用于构建关系矢量图。如图3所示,“交谈”为表示事件的节点,“夏天”为表示时间的节点,“演出”为表示事件的节点,通过点击各节点后移动到其他节点处会形成有向线段并提供关联关系选择,包括从属关系、人际关系和位置关系,等等。例如“交谈”节点与“夏天”节点之间选择了从属关系,“夏天”与“演出”节点之间选择了从属关系。[[BSS2\]](#_msocom_2) [[qh3\]](#_msocom_3) ​ 可以理解的是,按照上述方式构建的关系矢量图可以表达图像的语义结构,通过在节点之间建立关联关系,可以形成表达图像中各预设对象的语义关系的关系矢量图。针对每一样本图像创建的关系矢量图可以与该样本图像的描述方案共同存储在该样本图像的XML文件中。 ​ 可见,通过本方案,通过构建表示样本图像中预设对象之间的关联关系的第四类描述符,能够提取出图像中更丰富的语义特征,使得利用包含第四类描述符构建得到的第一特征向量训练得到的分类模型,能够进一步提高分类精度。 ​ 在检索模式选择界面中显示多个不同的检索模式; ​ 本实现方式中,用户可以在用于对图像进行检索的客户端的检索模式选择界面中选择所需的检索模式。其中,检索模式选择界面中显示多个不同的检索模式,每一检索模式指示用一种描述方案进行检索,每一描述方案中可以包括一个或多个描述符。示例性的,各检索模式可以包括:指示用颜色布局描述符进行检索的模式1、指示用可伸缩颜色描述符进行检索的模式2、指示用颜色布局描述符+可伸缩颜色描述符进行检索的模式3、指示用颜色布局描述符+可伸缩颜色描述符+边缘直方图描述符进行检索的模式4,等等。 ​ 示例性的,检索模式选择界面如图6所示,当打开检索模式选择界面后,可以点击该界面中的“路径”按钮,从各图像的存储地址中选择一存储地址,该存储地址中的图像即为待检测图像。选择的存储地址显示在“选择图像”下方的矩形框中,且该存储地址中的图像在“图像预览”对应的矩形框中进行显示。“选择检索模式”控件提供有多种可选择的检索模式,包括“使用颜色布局描述符”、“使用可伸缩颜色描述符”、“使用边缘直方图描述符”、“使用颜色布局描述符+可伸缩颜色描述符”、“使用颜色布局描述符+边缘直方图描述符”、“使用可伸缩颜色描述符+边缘直方图描述符”、“使用颜色布局描述符+可伸缩颜色描述符+边缘直方图描述符”。当选择“使用颜色布局描述符”,则左上方“颜色布局预览”控件在用户选定图像后会给出CLD表示的该图像。当选择完图像和检索模式后,可以点击“搜索”按钮,从待检索的数据库中检索与该选择的图像相似的图像。另外,需要说明的是,若描述方案中包括多个描述符,则各描述符可以有默认的权重分配,各描述符的权重可以由相关技术人员根据经验或实际场景需求进行修改。 ​ 相应地,在本实现方式中,待匹配描述符的提取方式,包括: ​ 当接收到模式选择指令时,根据模式选择指令所选择的检索模式所指示的特征,利用MPEG-7描述符提取算法,提取待检测图像的描述符,作为待匹配描述符。 ​ 可以理解的是,在检索模式选择界面中显示多个不同的检索模式后,用户可以选择一检索模式进行检索,此时,接收到模式选择指令。根据该模式选择指令所选择的检索模式所指示的特征,利用MPEG-7提供的各描述符对应的提取算法中,用于提取该选择的检索模型所指示的特征的提取算法,对待检测图像的描述符进行提取,得到待匹配描述符。可以理解的是,由于选择的检索模式所指示的特征可以是一个或多个,因此待匹配描述符也可以是一个或多个。 ​ 示例性的,检索模式所指示的特征可以是颜色布局描述符表达的特征、可伸缩颜色描述符表达的特征、颜色布局描述符和可伸缩颜色描述符共同表达的特征,等等。示例性的,若检索模式所指示的特征为颜色布局描述符和可伸缩颜色描述符所表达的特征,则利用CLD的提取算法,提取待检测图像的颜色布局描述符,以及利用SCD的提取算法,提取待检测图像的可伸缩颜色描述符,将待检测图像的颜色布局描述符和可伸缩颜色描述符作为待匹配描述符。 ​ 可以理解的是,从与待检测图像属于相同类别的各候选图像中提取与待匹配描述符对应的描述符,作为候选描述符,使得后续可以根据各候选描述符与待匹配描述符的相似度,直接从与待检测图像属于相同类别的各候选图像中进行检索,提高检索效率。 ​ 可以理解的是,在实际应用中,若需要在一图像库中检索与待检测图像相似的图像,则在进行检索之前,可以先对该图像库中的各图像利用上述基于MPEG-7的图像分类方法进行分类,并利用MPEG-7描述符提取算法从与待检测图像属于相同类别的各候选图像中,提取多种描述符并保存在各候选图像对应的XML文件中。从而在检索时,能够直接从各候选图像对应的XML文件中获取与待匹配描述符对应的描述符,作为该候选图像的候选描述符。 ​ 示例性的,在进行检索之前,可以利用MPEG-7描述符提取算法对每一候选图像进行特征提取,得到每一候选图像的多个描述符并保存在该候选图像对应的XML文件中。在进行检索时,若待匹配描述符包括颜色布局描述符和可伸缩颜色描述符,则可以从每一候选图像对应的XML文件中存储的各描述符中,获取该候选图像的颜色布局描述符和可伸缩颜色描述符,作为该候选图像的候选描述符。 ​ S504,分别计算待匹配描述符与每一候选图像的候选描述符的相似度; ​ 示例性的,可以通过计算待匹配描述符与每一候选图像的候选描述符之间的哈曼顿距离、欧式距离等方式,得到待匹配描述符与每一候选图像的候选描述符的相似度。若待匹配描述符包括多个描述符,则针对每一候选图像的候选描述符,计算待匹配描述符与该候选描述符的相似度时,分别计算待匹配描述符与该候选描述符中相对应的两个描述符之间的距离,然后,根据多组相对应的描述符之间的距离确定待匹配描述符与该候选描述符的相似度。 ​ 将所对应相似度最高的前预设数量个候选图像,确定为针对待检测图像的检索结果。 可以理解的是,通过计算待匹配描述符与各候选描述符之间的相似度,并将所对应相似度最高的前预设数量个候选图像,确定为针对待检测图像的检索结果,可以实现将待匹配描述符所表示的特征作为检索特征进行检索,且检索到的前预设数量个候选图像为具有与该待检测图像中的检索特征最接近的特征的图像,因此,将该前预设数量个候选图像确定为针对待检测图像的检索结果,可以从各候选图像中确定出与待检测图像具有相似检索特征的图像。 ​ 本实现方式中,预设数量可以是5、10,等等,在实际应用中,预设数量可以由相关技术人员根据需求进行设定。 ​ 如图7所示,系统包括特征提取模块710、分类识别模块720和图像检索模块730; 特征提取模块710,用于利用MPEG-7描述符提取算法,分别提取待分类图像的多种不同类别的描述符,以及,利用MPEG-7描述符提取算法,提取待检测图像的描述符; 分类识别模块720,用于从特征提取模块中获取待分类图像的多种不同类别的描述符,并执行上述任一项的基于MPEG-7的图像分类方法。 图像检索模块730,用于从特征提取模块中获取待检测图像的描述符,并执行上述任一项的基于MPEG-7的图像检索方法。 可选地,在一种实现方式中,上述系统还包括分类训练模块; 特征提取模块,还用于利用MPEG-7描述符提取算法,分别提取样本图像的多种不同类别的描述符; 分类训练模块,用于从特征提取模块中获取样本图像的多种不同类别的描述符,并执行上述任一项的模型训练方法。 需要说明的是,本系统中所包括的特征提取模块、分类识别模块、图像检索模块和分类训练模块所实现的功能在上述方法实施例中均进行了介绍,这里不再赘述。 可选地,在一种实现方式中,上述系统还包括标记模块; 标记模块,用于在信息上传界面中显示用户选择的待标记图像、文本输入框,以及待标记图像的嵌入信息;获取用户在文本输入框中输入的用于描述待标记图像中预设对象之间的关联关系的描述文本;获取用户在矢量图构建界面中,基于描述文本和嵌入信息所创建的针对待标记图像的关系矢量图。 特征提取模块,具体用于从标记模块获取待标记图像的关系矢量图,利用区域描述符提取算法对关系矢量图进行特征提取,得到待标记图像的第四类描述符。 需要说明的是,本申请实施例所包括的标记模块实现的功能可以参照上述步骤C1-C3的相关描述,这里不再赘述。 可选地,在一种实现方式中,上述系统还包括结果展示模块; 结果展示模块,用于从图像检索模块中获取检索结果并在预设展示界面中进行展示。 本实现方式中,用户可以在用于对图像进行检索的客户端中进行检索,得到的检索结果在该客户端的预设展示界面中进行展示。该预设展示界面中还可以展示用户检索时所选择的待匹配描述符,以及针对待检测图像所构建的关系矢量图,等等。 可选地,在一种实现方式中,上述系统还包括数据处理模块; 数据处理模块,用于获取当前用于训练的图像并进行预处理,得到样本图像;获取当前用于分类的图像并进行预处理,得到待分类图像;获取当前用于检索的图像并进行预处理,得到待检测图像; 特征提取模块,还用于从数据处理模块中获取样本图像、待分类图像和待检测图像。 本实现方式中,当前用于训练的图像、当前用于分类的图像以及当前用于检索的图像可以是用户输入的,也可以是预先存储在指定数据库中的。对图像进行预处理包括调整图像的清晰度、尺寸、分辨率,等等。特征提取模块可以从数据处理模块中获取预处理后得到的样本图像、待分类图像和待检测图像,并进行描述符的提取。 为了更好的理解本申请实施例提供的系统,下面结合一个具体的示例进行介绍。 如图8所示,为实现申请实施例提供的系统的一种示意图,该系统包括数据处理模块、特征提取模块、分类训练模块、标记模块、检索识别模块(对应于上文中的分类识别模块和图像检索模块)和结果展示模块。 数据处理模块用于从数据源加载图像数据并进行预处理后生成原始XML文件并存储在本地数据库中;XML文件根据图像数据的内容信息进行生成。 特征提取模块用于从本地数据库中提取各图像的图像特征,生成各图像的MPEG-7描述符并存储在本地,包括提取存储在本地数据库中的图像的颜色特征、纹理特征、形状特征,得到颜色描述符(对应于上文中的第一类描述符)、纹理描述符(对应于上文中的第三类描述符)和形状描述符(对应于上文中的第二类描述符)。基于提取到每一图像的各描述符可以生成针对该图像的描述方案,并存储在该图像对应的XML文件中。每一图像的各描述符进行数值范围调整后再进行拼接即可生成该图像的特征向量。 分类训练模块用于使用提取的特征向量训练分类模型(对应于上文中的SVM),并将分类模型的输出进行概率转换,即将输出转换为概率分布。 标记模块用于允许用户在选定图像上进行自由标记,包括对象标记和关系标记,以建立图像中预设对象之间的关联关系。 检索识别模块用于对本地图像库中各图像进行分类识别,并根据识别结果从指定文件中读取各候选图像的候选描述符,根据指定图像的描述符(对应于上述中的待匹配描述符)进行图像检索,即基于所有候选图像的候选描述符与指定图像的描述符的相似度进行检索,并输出检索结果。 结果展示模块用于展示检索结果,并进行描述符展示(即对检索所利用的描述方案进行展示)以及图像中各对象之间的关系展示。 图8中的各箭头用于标识数据流,其中:1表示传递媒体数据;2表示传递图像数据;3表示数据转换,即基于从图像数据提取的描述符构建描述方案并存储到XML文件中,实现图像数据到XML文件的转换;4表示信息提取,即自动提取图像中的嵌入信息;5表示传递XML文件;6表示传递控制信息(用于控制各模块执行);7表示传递特征向量;8表示传递描述符;9表示传递模型信息,即传递训练得到的分类模型的模型参数;10表示传递分类检测结果;11表示传递标记信息。 图8所示系统中各模块实现的一种的工作流程如图9所示,包括步骤S901-S906: S901,图像预处理,自动或手动生成标记增加额外信息; 图像预处理包括调整图像清晰度、分辨率、尺寸,等等。自动生成标记包括自动提取图像的嵌入信息,手动生成标记包括对图像中的对象和关联关系进行标记,得到额外信息。 S902,提取MPEG-7描述符并生成多样化描述方案; 针对预处理后的每一图像,可以提取多种不同类别的MPEG-7描述符,对提取到的各描述符进行不同组合可以构成多种不同的描述方案。例如将提取到的各描述符中,纹理布局描述符和轮廓形状描述符构成一种描述方案,颜色布局描述符和轮廓形状描述符构成另一种描述方案。每一图像的描述方案生成后可以存储在该图像对应的XML文件中。 S903,根据需求选择描述方案,构建训练集或验证数据集; 根据分类场景的需求选择描述方案,例如分类场景关注的对象的特征为颜色特征和纹理特征,则选择由表示颜色特征的第一类描述符和表示纹理特征的第三类描述符构成的描述方案。将各图像对应的各描述方案中,80%的描述方案构建为训练集,20%的描述方案构建为训练集。 S904,建立分类模型,训练模型; 使用SVM进行分类训练,并采用径向基函数作为核函数。模型训练过程参照上述步骤S101-105的相关描述。 S905,计算样本的类别分布,获取样本的描述方案; 也就是,通过对各样本(待检索的图像库中的图像)进行分类得到各样本的类别分布,从各样本对应的XML文件中获取各样本的描述方案。 S906,计算待检测图像与同类别样本的相似度并生成排序。 也就是,计算待检测图像的描述符与同类别样本(对应于上文中的各候选图像)的描述符的相似度并进行由高到低排序,得到排序结果。根据排序结果可以确定前预设数量个图像为检索结果。 一种基于MPEG-7的图像检索装置,如图12所示,所述装置包括: 第三获取模块1210,用于获取待检测图像的描述符,作为待匹配描述符;其中,所述待匹配描述符为利用MPEG-7描述符提取算法提取得到的; 类别确定模块1220,用于利用基于上述任一项所述的基于MPEG-7的图像分类方法,对所述待检测图像进行分类,得到所述待检测图像所属的类别; 第四获取模块1230,用于获取与所述待检测图像属于相同类别的各候选图像的候选描述符;其中,所述候选描述符为与所述待匹配描述符对应的描述符,且每一候选图像的类别为基于上述任一项所述的基于MPEG-7的图像分类方法对该图像进行分类得到; 相似度计算模块1240,用于分别计算所述待匹配描述符与每一候选图像的候选描述符的相似度; 检索结果确定模块1250,用于将所对应相似度最高的前预设数量个候选图像,确定为针对所述待检测图像的检索结果。 ![数据加载与预处理](D:\PhD\research\multi-media privacy\浙江物联网\multimediaProcessor\数据加载与预处理.jpg) ![输入图片说明](https://foruda.gitee.com/images/1741426643767694693/e0e0902f_12684157.jpeg "数据加载和预处理.jpg") ​ 数据加载与预处理 ![特征提取](D:\PhD\research\multi-media privacy\浙江物联网\multimediaProcessor\特征提取.jpg) ![输入图片说明](https://foruda.gitee.com/images/1741426685416272585/688e8be4_12684157.jpeg "描述符提取.jpg") 描述符提取 ![自动化标注和结构化标注](D:\PhD\research\multi-media privacy\浙江物联网\multimediaProcessor\自动化标注和结构化标注.jpg) ![输入图片说明](https://foruda.gitee.com/images/1741426713706758486/52fa2a4e_12684157.jpeg "自动化和结构标注.jpg") ​ 自动化标注和结构化标注 ![关联关系标注](D:\PhD\research\multi-media privacy\浙江物联网\multimediaProcessor\关联关系标注.jpg) ![输入图片说明](https://foruda.gitee.com/images/1741426730679073526/cb027f3a_12684157.jpeg "关联标记.jpg") 关联关系标注 ![描述方案更改](D:\PhD\research\multi-media privacy\浙江物联网\multimediaProcessor\描述方案更改.jpg) ![输入图片说明](https://foruda.gitee.com/images/1741426760317300290/5117b591_12684157.jpeg "在这里输入图片标题") 描述方案修改 ![检索排序](D:\PhD\research\multi-media privacy\浙江物联网\multimediaProcessor\检索排序.jpg) ![输入图片说明](https://foruda.gitee.com/images/1741426788515968544/2ea7b0cd_12684157.jpeg "检索结果展示.jpg") 检索排序