您现在的位置: 首页 > 技术转让 > Web视频页面的复杂命名实体的抽取方法及其系统
Web视频页面的复杂命名实体的抽取方法及其系统

Web视频页面的复杂命名实体的抽取方法及其系统

  • 专利类型:发明专利
  • 有效期:不限
  • 发布日期:2021-07-15
  • 技术成熟度:详情咨询
交易价格: ¥面议
  • 法律状态核实
  • 签署交易协议
  • 代办官方过户
  • 交易成功

专利推荐

  • 技术(专利)类型 发明专利
  • 申请号/专利号 CN200910091375.2 
  • 技术(专利)名称 Web视频页面的复杂命名实体的抽取方法及其系统 
  • 项目单位 中国科学院计算技术研究所
  • 发明人 郑刚;张勇东;郭俊波 
  • 行业类别 物理
  • 技术成熟度 详情咨询
  • 交易价格 ¥面议
  • 联系人 李志文
  • 发布时间 2021-07-15  
  • 01

    项目简介

    本发明涉及Web视频页面的复杂命名实体的抽取方法及系统,方法包括:步骤1,对于Web视频页面集合中的每个Web视频页面,从Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。
    展开
  • 02

    说明书


    1.一种Web视频页面的复杂命名实体的抽取方法,其特征在于, 步骤1,对于Web视频页面集合中的每个Web视频页面,从所述Web视 频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文 本组成训练集合; 步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设 置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类 别间集中分布的词为特征词; 步骤3,从训练集合中提取出同所述特征词相关的词为候选复杂命名实 体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述 候选命名实体中选择对应的复杂命名实体。
    2.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于, 所述步骤1进一步为, 步骤21,为每个站点设置信息抽取模板; 步骤22,对于Web视频页面集合中的每个Web视频页面的HTML文本内 容构建DOM树; 步骤23,由所述Web视频页面所属站点的信息抽取模板和所述Web视频 页面的DOM树,从所述Web视频页面中抽取有效文本信息; 步骤24,所述有效文本信息组成视频文本,所有视频文本组成所述训练 集合。
    3.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于, 所述有效文本信息包括视频的类别; 所述步骤2中对Web视频页面进行归类进一步为, 步骤31,设置站点的视频类别到标准类别的映射,将所述Web视频页面 的视频的类别映射为标准类别; 步骤32,根据所述Web视频页面的标准类别对所述Web视频页面进行归 类。
    4.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于, 所述步骤2中选择类别进一步为, 步骤41,从划分的类别中选择包含的Web视频页面数量大于第一预设值 的类别为选择的类别。
    5.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于, 所述有效文本信息包括视频的标签, 所述步骤2中对于每个被选的类别设置引导词进一步为, 步骤51,从训练集合中被选类别的视频文本的标签中选择满足条件的词 作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
    6.如权利要求5所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于, 所述步骤2中从训练集合中选择同所述引导词相关并且在类别内均匀分 布在类别间集中分布的词为特征词进一步为, 步骤51,对于每个标签,如果所述标签包含引导词,则所述标签包含的 其他词为候选特征词; 步骤52,依据候选特征词在类别内的分布和类别间的分布计算所述候选 特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他 类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的 得分越高; 步骤53,对于每个候选特征词,以候选特征词的最高得分作为所述候选 特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
    7.如权利要求6所述的Web视频页面的复杂命名实体的抽取方法,其特 征在于,所述步骤3进一步为, 步骤71,从训练集合中提取出在标签中同特征词共同出现过的词作为候 选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征 词组成文档; 步骤72,文档中特征词对应于类别的得分为所述特征词同类别的关联 度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词 对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值 越高; 步骤73,对于每个类别,将在所述类别的得分超过第三预设值或按得分 排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名 实体,其中,n为第四预设值。
    8.一种Web视频页面的复杂命名实体的抽取系统,其特征在于,包括: 有效信息抽取模块,用于对于Web视频页面集合中的每个Web视频页面, 从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本, 所有视频文本组成训练集合; 特征词选取模块,用于对Web视频页面进行归类,选择类别,对于每个 被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内 均匀分布在类别间集中分布的词为特征词; 复杂命名实体抽取模块,用于从训练集合中提取出同所述特征词相关的 词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为 各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
    9.如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其特 征在于, 所述有效信息抽取模块进一步用于为每个站点设置信息抽取模板;对于 Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所 述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从 所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本, 所有视频文本组成所述训练集合。
    10.如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于, 所述有效文本信息包括视频的类别; 所述特征词选取模块在对Web视频页面进行归类时进一步用于设置站点 的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标 准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
    11.如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于, 所述特征词选取模块在选择类别时进一步用于从划分的类别中选择包含 的Web视频页面数量大于第一预设值的类别为选择的类别。
    12.如权利要求8所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于, 所述有效文本信息包括视频的标签, 所述特征词选取模块在对于每个被选的类别设置引导词时进一步用于从 训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所 述条件为标签中包含该词的类别的数量小于第二预设值。
    13.如权利要求12所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于, 所述特征词选取模块在从训练集合中选择同所述引导词相关并且在类别 内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如 果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选 特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别 的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别 中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候 选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选 特征词中选择权重值高的候选特征词作为特征词。
    14.如权利要求13所述的Web视频页面的复杂命名实体的抽取系统,其 特征在于, 所述复杂命名实体抽取模块进一步用于从训练集合中提取出在标签中同 特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述 候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分 为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体 对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名 实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过 第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为 所述类别的复杂命名实体,其中,n为第四预设值。
    展开

专利技术附图

< >

服务流程

过户资料

  • 买卖双方需提供资料
  • 平台提供
  • 过户后您将获得
  • 买家
  • 卖家
  • 公司
  • 企业营业执照
  • 企业营业执照

    专利注册证原件

  • 个人
  • 身份证

    个体户营业执照

  • 身份证

    专利注册证原件

  • 专利代理委托书

    转让申请书

    转让协议

  • 手续合格通知书

    专利证书

    专利利登记簿副本

安全保障

  • 品类齐全

    海量资源库,平台整合几十万闲置资源。
  • 交易保障

    完善的资金保障体系确保买卖双方资金安全。
  • 专人跟进

    专业交易顾问全程服跟进,确保交易流畅。
  • 快速响应

    专业在线/电话客服服务,快速响应贴心服务。
  • 售后无忧

    资质过硬,国内大知识产权服务平台。

在线客服

在线咨询

010-83278899

返回顶部