Knowledge Base Construction and Payload Configuration in the Field of Deep Space Exploration
-
摘要: 瞄准国家在深空探测领域任务规划论证战略需求, 针对深空探测领域任务种类繁多、数量巨大、系统复杂, 数据难以直接利用等问题, 提出一种深空探测领域知识库构建方法. 通过对深空探测领域知识分析并结合专家知识自顶向下构建本体模型, 在此基础上提出一种基于N-gram和文本语义聚类分析的本体更新策略, 对深空探测领域文本进行语义识别处理, 自底向上动态更新本体; 整合已有结构化、半结构和非结构化数据, 构建深空探测领域知识库, 共包含实体节点2140个, 关系4608条, 属性9079条; 提出一种基于深空探测领域知识分析的有效载荷配置方法, 对知识库中的科学目标等信息进行关联分析, 将知识抽取模型与语义相似度模型相结合, 综合探测对象与历史有效载荷信息, 推荐出满足科学目标的有效载荷配置, 并利用天问一号任务对所提出的方法进行验证.Abstract: A method is proposed to address the strategic needs of national mission planning and demonstration in the field of deep space exploration, focusing on challenges such as the diversity and complexity of missions, the large scale of data, and difficulties in direct data utilization. The construction of an ontology model for the deep space exploration domain is carried out using a hybrid approach that combines top-down and bottom-up methodologies. In the top-down process, domain knowledge is analyzed and expert input is incorporated to build the ontology model. On this basis, a bottom-up ontology updating strategy is introduced, leveraging N-gram analysis and text semantic clustering to dynamically update the ontology through semantic recognition and processing of textual data related to deep space exploration. Structured, semi-structured, and unstructured data are integrated to build a comprehensive knowledge base for the domain, comprising 2140 entity nodes, 4608 relationships, and 9079 attributes. Based on this knowledge base, a payload configuration method is proposed to recommend payloads that meet specific scientific goals. This is achieved through correlation analysis of scientific target data within the knowledge base, combining a knowledge extraction model with a semantic similarity model to synthesize exploration object information and historical payload data. The effectiveness of this approach is validated using the Tianwen-1 mission, demonstrating its capability in supporting payload planning, scientific target analysis, and mission configuration in the field of deep space exploration.
-
Key words:
- Deep space exploration /
- Ontology /
- Knowledge base /
- Knowledge extraction /
- Payload
-
表 1 基于N-gram和深空探测领域知识聚类分析的本体更新算法
Table 1. Ontology updating algorithm based on N-gram and deep space exploration domain knowledge clustering analysis
算法步骤 功能描述 Input: 某类实体或者实体属性数据源 Output: 可选择更新本体中的实体、关系或者属性 1. Dtest←Doriginal, Dunigram, Dbigram, Dtrigram // 选择需要更新的数据源 2. Xembedding←Dtest // 数据源向量化 3. Intialize the number of cluster k // 初始化聚类k值 4. For i = 2 to k: score = max(score, wcss + silhouette score) // 综合两类得分确定聚类更新k值 i = i + 1 6. SVD(XEmbedding, k) // SVD降维分析 7. Calculae hot words and identify themes // 计算热词和确定主题 8. Updating the ontology // 更新本体 表 2 有效载荷的功能描述文本数据源
Table 2. Functional description of the payload text data source
original unigram bigram trigram 探测宇宙辐射强度及其在地球、太空中随着与太阳的距离增加以及火星周围的变化 探测#宇宙#辐射强度#地球#太空#太阳#距离#增加#火星#周围#变化 探测宇宙#宇宙辐射强度#辐射强度地球#地球太空#太空中#中太阳#太阳距离#距离增加#增加火星#火星周围#周围变化 探测宇宙辐射强度#宇宙辐射强度地球#辐射强度地球太空#地球太空中#太空中太阳#中太阳距离#太阳距离增加#距离增加火星#增加火星周围#火星周围变化 获取火星表面图像 获取#火星#表面#图像 获取火星#火星表面#表面图像 获取火星表面#火星表面图像 分析火星岩石和土壤中含铁矿物质的构成 分析#火星#岩石#土壤#中#含铁#矿物质#构成 分析火星#火星岩石#岩石土壤#土壤中#中含铁#含铁矿物质#矿物质构成 分析火星岩石#火星岩石土壤#岩石土壤中#土壤中含铁#中含铁矿物质#含铁矿物质构成 拍摄冥王星及其卫星和柯伊伯带其他天体的图像 拍摄#冥王星#卫星#柯伊伯#带#天体#图像 拍摄冥王星#冥王星卫星#卫星柯伊伯#柯伊伯带#带天体#天体图像 拍摄冥王星卫星#冥王星卫星柯伊伯#卫星柯伊伯带#柯伊伯带天体#带天体图像 表 3 深空探测领域概念名称、含义及属性说明
Table 3. Description of concept names, meanings and attributes in the field of Deep Space Exploration
序号 概念名称 描述说明 属性 1 国家 表示各个国家, 用来标识特定国家相关信息 中文名称、英文名称 2 天体 代表宇宙中的天体, 如行星、卫星 中文名称、英文名称、结构、自转轨道、生命潜力、磁层、形状、尺寸、公转轨道、天体类型、基本情况介绍、大气和气候、质量、与太阳的距离 3 科学主题 描述科学研究中的不同主题 中文名称 4 科学问题 涉及科学研究中的具体问题或未解之谜 中文名称 5 科学目标 表明科学研究的具体目标或愿望 中文名称 6 科学要素 科学人员对科学目标关键词的凝练 中文名称 7 工程目标 表示工程项目的具体目标或任务 中文名称 8 探测任务 描述针对宇宙的各种科学探测任务 中文名词、英文名称、任务别名、发射场、当前状态、任务负责人、研制单位、发射质量、发射时间、着陆日期、结束日期、任务来源、寿命、失败类型和具体故障情况、任务简述、首席科学家、任务结果、成本控制措施、分析手段、任务经费、轨道设计、标识符、研发机构 9 探测计划 代表一系列相关的探测任务, 可能隶属于一个国家或机构 中文名称、英文名称 10 探测器 表示空间中的探测器、巡视器等 中文名称、英文名称、主要参数、负责人、研制单位、寿命、发射时间、探测器类型、探测方式、当前状态、性能指标、分析手段、功能指标 11 有效载荷 描述探测器上携带的科学仪器或设备, 用于执行特定的科学任务 中文名称、英文名称、载荷类型、载荷当前状态、对应学科、分析手段、主要参数、研制机构、功能描述 12 运载火箭 搭载探测器的运载火箭 中文名称、英文名称、研发机构、运力、服役情况 13 探测方式 科学探测的不同方法或技术 中文名称、探测类别 14 探测对象 表示探测任务的目标对象, 如火星大气等 中文名称、英文名称 15 区域 特指火星、月球上不同地区, 包括撞击坑、山脉等、经纬度等 中文名称、英文名称、描述 16 关键技术 描述在科学探测任务或工程项目中需使用的关键技术或创新技术 中文名称、技术来源、技术描述、技术挑战、技术指标 17 科学成果 科学研究或探测任务取得的具体成果, 如专利、研究论文和奖项 名称、申请人、文献来源、类型、DOI、公开号、来源库、作者、发表时间、单位 表 4 深空探测领域概念与概念关系
Table 4. Description of concepts and conceptual relationships in the field of Deep Space Exploration
序号 关系名称 主体类型 客体类型 1 属于 探测任务 国家 探测任务 探测计划 有效载荷 国家 有效载荷 探测器 探测器 探测任务 2 探测 探测任务 天体 有效载荷 探测对象 探测器 天体 3 研究 科学主题 科学问题 科学问题 科学要素 4 科学要素 探测任务 科学要素 5 科学目标 探测任务 科学目标 6 工程目标 探测任务 工程目标 7 运载火箭 探测任务 运载火箭 8 包括 探测任务 探测技术 9 探测方式 探测任务 探测方式 10 着陆区域 探测器 区域 表 5 知识抽取结果
Table 5. Knowledge extraction results
类别 Marco-P Marco-R Marco-F1 实体 0.891 0.800 0.841 关系 0.867 0.843 0.854 表 6 天问一号火星探测任务有效载荷实际选取与模型配置情况
Table 6. Actual selection and modelling of payloads for the Tianwen-1 Mars exploration
科学目标 科学任务 实际载荷 实际载荷类型 识别的科学要素 推荐载荷类型 研究火星表面土壤特征与水冰分布, 获取火星生命生存的条件和环境信息 火星表面和地下水冰的探测 环绕器次表层探测雷达 雷达 火星表面和地下水冰 雷达、*温度计 火星土壤类型分布和结构探测 环绕器次表层探测雷达、火星矿物光谱分析仪 雷达、光谱仪 火星土壤类型分布和结构 雷达、光谱仪、*结构探测仪 火星巡视区土壤结构(剖面)探测和水冰探查 火星车次表层探测雷达 雷达 水冰 *温度计、雷达、*望远镜 研究火星大气电离层及表面气候与环境特征, 研究火星物理场与内部结构, 获取太阳活动与火星相互作用的规律 火星大气电离层分析及行星际环境探测 火星磁强计、火星离子与中性粒子分析仪、火星能量粒子分析仪、甚低频射电接收设备(次表层探测雷达一体化设计) 磁强计、离子分析仪、粒子分析仪、雷达 行星际环境 磁强计、*雷达 火星巡视区大气物理特征与表面环境探测 火星表面磁场探测仪、火星气象测量仪 气象仪、磁强计 火星巡视区大气物理特征与表面环境 气象仪、*重力仪、*雷达 研究火星形貌与地质构造特征及其变化, 获取火星演化历史的基础信息 火星地形地貌特征及其变化探测 中分辨率相机、高分辨率相机、环绕器次表层探测雷达 相机、雷达 火星地形地貌特征及其变化 相机、雷达 火星巡视区形貌和地质构造探测 地形相机 相机 火星巡视区形貌和地质构造 相机、*雷达 研究火星表面物质组成, 获取火星化学演化的基础信息 火星表面物质成分的调查和分析 火矿物光谱分析仪 光谱仪 火星表面物质成分 光谱仪、*成分探测仪 火星巡视区表面元素、矿物和岩石类型探测 火星表面成分探测仪、多光谱相机 相机、成分探测仪 火星巡视区表面元素、矿物和岩石类型 相机、成分探测仪、*雷达 注 *表示与实际情况的差异. -
[1] 吴伟仁, 于登云. 深空探测发展与未来关键技术[J]. 深空探测学报, 2014, 1(1): 5-17WU Weiren, YU Dengyun. Development of deep space exploration and its future key technologies[J]. Journal of Deep Space Exploration, 2014, 1(1): 5-17 [2] 吴伟仁, 王赤, 刘洋, 等. 深空探测之前沿科学问题探析[J]. 科学通报, 2023, 68(6): 606-627 doi: 10.1360/TB-2022-0667WU Weiren, WANG Chi, LIU Yang, et al. Frontier scientific questions in deep space exploration[J]. Chinese Science Bulletin, 2023, 68(6): 606-627 doi: 10.1360/TB-2022-0667 [3] 于登云, 马继楠. 中国深空探测进展与展望[J]. 前瞻科技, 2022, 1(1): 17-27 doi: 10.3981/j.issn.2097-0781.2022.01.002YU Dengyun, MA Ji’nan. Progress and prospect of deep space exploration in China[J]. Science and Technology Foresight, 2022, 1(1): 17-27 doi: 10.3981/j.issn.2097-0781.2022.01.002 [4] NECHES R, FIKES R E, FININ T, et al. Enabling technology for knowledge sharing[J]. AI Magazine, 1991, 12(3): 36-56 [5] 刘继忠, 胡朝斌, 庞涪川, 等. 深空探测发展战略研究[J]. 中国科学: 技术科学, 2020, 50(9): 1126-1139 doi: 10.1360/SST-2020-0207LIU Jizhong, HU Chaobin, PANG Fuchuan, et al. Strategy of deep space exploration[J]. SCIENTIA SINICA Technologica, 2020, 50(9): 1126-1139 doi: 10.1360/SST-2020-0207 [6] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[C]//Proceedings of the 16th International Conference on World Wide Web. Banff Alberta: ACM, 2007: 697-706 [7] 王裴岩, 张桂平, 蔡东风. 航空术语语义知识库ATHowNet的构建[J]. 中国科技术语, 2021, 23(3): 26-32 doi: 10.12339/j.issn.1673-8578.2021.03.004WANG Peiyan, ZHANG Guiping, CAI Dongfeng. Constructing of ATHowNet: a semantic knowledge base for aviation terms[J]. China Terminology, 2021, 23(3): 26-32 doi: 10.12339/j.issn.1673-8578.2021.03.004 [8] 赵其昌, 郭玲玲, 杨春燕, 等. 定量遥感有效载荷配置方法与发展[J]. 上海航天, 2022, 39(6): 125-134ZHAO Qichang, GUO Lingling, YANG Chunyan, et al. Payload allocation method of quantitative remote sensing and its development[J]. Aerospace Shanghai, 2022, 39(6): 125-134 [9] SINT R, STROKA S, SCHAFFERT S, et al. Combining unstructured, fully structured and semi-structured information in semantic wikis[C]//Proceedings of the 4th Semantic Wiki Workshop (SemWiki) at the 6th European Semantic Web Conference. Hersonissos, Greece: Heraklion, 2009: 73-87 [10] WACHE H, VÖGELE T, VISSER U, et al. Ontology-based integration of information-a survey of existing approaches[C]//Proceedings of the IJCAI-01 Workshop on Ontologies and Information Sharing. Seattle: CEUR-WS. org, 2001 [11] WANG Y M, WANG X L, FENG Y Q, et al. Strategic response for ease of doing business using case-based reasoning[J]. Expert Systems with Applications, 2022, 210: 118514 doi: 10.1016/j.eswa.2022.118514 [12] 李爱华, 徐以则, 迟钰雪. 本体构建及应用综述[J]. 情报理论与实践, 2023, 46(11): 189-195LI Aihua, XU Yize, CHI Yuxue. Review of ontology construction and applications[J]. Information Studies: Theory & Application, 2023, 46(11): 189-195 [13] 葛胤池, 张辉, 宋文燕, 等. 基于领域本体的科技资源聚类方法研究[J]. 数据与计算发展前沿, 2020, 2(5): 13-22GE Yinchi, ZHANG Hui, SONG Wenyan, et al. Scientific and technology resource clustering based on domain ontology[J]. Frontiers of Data :Times New Roman;">& Computing, 2020, 2(5): 13-22 [14] CAVNAR W B, TRENKLE J M. N-gram-based text categorization[C]//Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, 1994: 161-175 [15] XIAO S T, LIU Z, ZHANG P T, et al. C-pack: Packaged resources to advance general Chinese embedding[OL]. arXiv preprint arXiv: 2309.07597, 2023 [16] ARTHUR D, VASSILVITSKII S. k-means++: The advantages of careful seeding[C]//Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms. New Orleans: Society for Industrial and Applied Mathematics, 2007: 1027-1035 [17] CUI M Y. Introduction to the k-means clustering algorithm based on the elbow method[J]. Accounting, Auditing and Finance, 2020, 1(1): 5-8 [18] SHAHAPURE K R, NICHOLAS C. Cluster quality analysis using silhouette score[C]//2020 IEEE 7th International Conference on Data Science and Advanced Analytics (DSAA). Sydney: IEEE, 2020: 747-748 [19] KALMAN D. A singularly valuable decomposition: the SVD of a matrix[J]. The College Mathematics Journal, 1996, 27(1): 2-23 doi: 10.1080/07468342.1996.11973744 [20] ZAMAN G, MAHDIN H, HUSSAIN K, et al. Information extraction from semi and unstructured data sources: A systematic literature review[J]. ICIC Express Letters, 2020, 14(6): 593-603 [21] LU Y J, LIU Q, DAI D, et al. Unified structure generation for universal information extraction[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin: ACL, 2022 [22] GOWDA T, YOU W Q, LIGNOS C, et al. Macro-average: rare types are important too[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. ACL, 2021 [23] FENG F X Y, YANG Y F, CER D, et al. Language-agnostic BERT sentence embedding[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin: ACL, 2022 [24] 朱岩, 白云飞, 王连国, 等. 中国首次火星探测工程有效载荷总体设计[J]. 深空探测学报, 2017, 4(6): 510-514,534ZHU Yan, BAI Yunfei, WANG Lianguo, et al. Integral technical scheme of payloads system for Chinese mars-1 exploration[J]. Journal of Deep Space Exploration, 2017, 4(6): 510-514,534 [25] 李春来, 刘建军, 耿言, 等. 中国首次火星探测任务科学目标与有效载荷配置[J]. 深空探测学报, 2018, 5(5): 406-413LI Chunlai, LIU Jianjun, GENG Yan, et al. Scientific objectives and payload configuration of China's first mars exploration mission[J]. Journal of Deep Space Exploration, 2018, 5(5): 406-413 -
-