摘要
大口径小口径望远镜被广泛应用于光学瞬态观测,对观测图像中的天文目标进行检测和分类是最重要也是最基础的步骤。本文提出了一种基于深度神经网络的天文目标检测与分类框架。该框架采用了Faster R-CNN的概念,以改进的Resnet-50为主干网络,以特征金字塔网络从不同天文目标的图像中提取特征。为了提高框架的泛化能力,我们使用模拟和真实的观测图像来训练神经网络。经过训练,神经网络可以自动检测和分类天文目标。我们使用模拟数据测试了该框架的性能,发现对于明亮和孤立光源,该框架的检测能力与传统方法几乎相同,对于暗淡目标,该框架的检测能力提高了两倍,而传统方法检测到的所有天体都可以正确分类。我们还使用我们的框架来处理实际观测数据,发现当我们的框架的阈值为 0.6 时,我们的框架可以比传统方法提高 25% 的检测能力。快速发现瞬态目标非常重要,我们进一步建议将我们的框架安装在 Nvidia Jetson Xavier 等嵌入式设备中,以实现实时天文目标检测和分类能力。
统一天文学词库概念:分类 (1907);卷积神经网络 (1938);瞬态检测 (1957);天文统计技术 (1886)
1. 简介
近年来,观测星等或位置可变的天文目标已成为一个活跃的研究领域。这些目标通常被称为瞬变目标,需要具有足够空间和时间分辨率的观测。为了满足这些要求,通常使用宽视场小孔径望远镜 (WFSAT) (Burd 等人,2005 年;Ping & Zhang,2017 年;Ratzloff & Law,2019 年;Xu 等人,2020 年)。由于 WFSAT 的孔径小、视场宽,我们可以使用其中的几个以经济有效的方式构建观测网。在观测网中,WFSAT 通常放置在不同的地点或指向不同方向的同一地点。观测网可以以适中的成本提供可接受的天空和时间覆盖。由于所有这些 WFSAT 都以恒星跟踪模式观测天空,曝光时间相对较短,因此每晚需要处理大量数据。处理这些数据是一项耗时的任务,因为一些瞬变需要通过光谱或其他波段的成像或更大的望远镜进行立即的后续观测。
对于瞬变观测任务,WFSAT 中的数据处理通常包括三个步骤:使用源提取方法提取候选天文目标的图像(检测),将这些候选者分为不同的类别(分类),以及将这些目标与目录进行交叉匹配,例如 Tycho 2 天体目录(Høg 等人,2000 年)。前两个步骤的效率和有效性通常限制了 WFSAT 的观测能力,因为如果我们不能正确地检测或分类瞬变候选者,我们就无法报告有关瞬变候选者的有效信息。最先进的检测方法是使用源提取算法扫描整帧观测图像。根据我们的经验,最强大的检测算法是 Bertin & Arnouts (1996) 提出的 SExtractor。检测后,可以提取大量候选天文图像,需要分类算法对这些候选图像进行分类。近年来,已经开发了不同的基于机器学习的天文图像分类算法,并且它们取得了越来越高的分类准确率和召回率 (Romano et al. 2006; Gonzalez et al. 2018; Tachibana & Miller 2018; Burke et al. 2019; Duev et al. 2019a, 2019b; Mahabal et al. 2019; Turpin
et al. 2020)。对于 WFSAT,我们还提出了一种基于集成学习和神经网络的瞬态分类方法(Jia 等人,2019 年)。我们的方法可以对不同类型的天文目标实现可接受的分类性能。随着越来越多新的图像分类算法的提出,我们可以期待未来有更好的分类算法。
然而,所有天文目标都必须先被检测到才能进行分类,单纯提高分类算法的性能不足以增加WFSAT的科学产出。假设即使分类算法能够获得理想的分类准确率和召回率,检测算法无法检测到的目标也永远不会被处理,这将限制WFSAT的观测能力。例如,Jia等(2019)提出的分类方法可以对经典的基于SExtractor的算法检测到的不同种类的天体实现人类水平的分类能力。然而,有些天文目标,如具有条纹状图像的运动目标,或信噪比(S/N)较低的点状天文图像,无法被检测到,它们永远不会被处理为天体。如果这些天体中存在瞬变,它们将永远不会被观测到。同时,虽然这些目标无法被检测到,但我们的分类神经网络对这些目标的分类准确率和召回率几乎可以达到其他天文目标的水平。
这个问题可能是由于通用性和特异性之间的权衡造成的。对于通用源检测算法,我们设置通用参数。然后这些算法对不同类型的天文目标具有强大的检测能力,但代价是对于特殊类型的天文目标的低检测率。例如,SExtractor 中的检测算法使用了一个非常优雅的规则:一组连通像素的值超过预定义值将被识别为检测。它可以为不同类型的源提供有希望的结果,但对于具有低 S/N 或多个混合目标的扩展目标,检测性能会下降。然而,基于神经网络的天文图像分类算法根据图像的整体结构对其进行分类。它们可以对具有低 S/N 或多个彼此接近的候选者实现相对较高的分类准确率和召回率。因此,如果我们将分类算法与检测算法相结合,我们可以设计一个框架来提高 WFSAT 在瞬态检测任务中的性能。
目前已经有几种最先进的检测和分类框架,例如 Faster R-CNN(Ren 等人,2017 年)、You Only Look Once(YOLO;Redmon 等人,2016 年)和 Single Shot MultiBox Detector(SSD;Liu 等人,2016 年)。对于天文目标,Gonzalez 等人(2018 年)提出了 DARKNET,它使用 YOLO 进行实时星系检测和识别。Duev 等人(2019a 年)建议使用机器学习算法对恒星星系进行分类并分离真实/虚假的瞬态。Burke 等人(2019) 使用名为 Mask R-CNN 的语义分割模型 (He et al. 2017) 进行实时天文目标检测和分类。
上述方法主要用于通用巡天望远镜,需要大量由人类专家标注的天文图像作为训练数据。对于通用巡天望远镜来说,获取训练数据很困难,因为它需要大量的人工标注。对于 WFSAT 来说,这会更难,因为 WFSAT 有很多,尽管标注了这些图像,但科学家只会检查它们获得的图像数量有限。此外,WFSAT 获得的图像具有低 S/N 和低空间采样率。需要一个新的检测和分类框架。
在本文中,我们提出采用 Faster R-CNN 的概念来为 WFSAT 构建天文目标检测和分类框架。我们的框架使用特征金字塔网络架构从图像中提取特征,并使用改进的 Resnet-50 作为分类和回归的主干网络。我们使用模拟数据来测试我们框架的性能,发现我们的框架在检测扩展目标或低 S/N 的天文目标方面表现更好。对于实际应用,我们建议使用模拟图像和真实观测图像来训练我们的框架。经过训练,我们发现我们的框架比经典框架具有更好的性能。为了进一步提高 WFSAT 的瞬态检测能力,我们进一步建议将我们的框架安装在嵌入式设备中以实现实时观察能力。本文组织如下。在第 2 节中,我们介绍了 WFSAT 中的瞬态观察任务和经典的检测和分类框架。在第 3 节中,我们介绍了我们的方法,并在第 4 节中比较了我们的框架和经典框架的性能。在第 5 节中,我们展示了如何将我们的框架应用于通过迁移学习由 WFSAT 获得的真实观测数据,这意味着我们使用新的观测数据来训练已经用模拟图像训练过的神经网络(Zhuang et al. 2019)。我们在第 5 节中得出结论并提出了未来的工作。
2. 天文目标检测与分类任务以及 WFSAT 中的经典方法
在 WFSAT 中,瞬态观测任务包括发现和观测具有时间变化特性的天文目标,例如具有星等或位置变化的天文目标。由于 WFSAT 成本低廉,我们可以使用其中几个来构建观测网,以实现高天空和时间覆盖。为了降低总成本并最大限度地提高检测能力,我们的 WFSAT 以白光模式工作(无滤光片),并且其中没有安装视场消旋器。由于这种设计理念,我们的 WFSAT 获得的图像受到色差和视场旋转的影响(Jia 等人,2020a),这使得传统的基于图像差异的数据处理方法难以应用(Zackay 等人,2016)。因此在实际应用中,我们直接按照以下步骤处理原始观测图像。
- 我们在向量机算法(Li-wen et al. 2019)的支持下,选择没有受到云层或相机故障严重影响的有效图像。
- 我们使用源检测方法扫描所选图像的整帧以定位候选天文目标。SExtractor 中的源检测算法是常用的,我们将阈值(1.1σ)和连通面积(3 像素)设置为非常低的值,以确保可以检测到所有目标。
- 所有候选天文目标的图像都被发送到天文图像分类算法,我们将这些目标分为不同的类别。经过这一步,我们可以获得所有候选天文目标的位置和类型。
- 我们将不同的候选天文目标与不同的目录进行交叉匹配。由于我们的望远镜直径小,曝光时间短,我们只会将候选天文目标与明亮的源目录进行交叉匹配。完成此步骤后,所有未匹配的图像将被识别为临时候选图像,并将它们报告给数据中心以进行下一步观察。
有了上述数据处理框架,WFSAT 能够观测明亮的凌日现象,例如附近的超新星、潮汐破坏耀斑、彗星、流星、小行星或空间碎片。虽然 WFSAT 的光学设计可以保证良好的图像质量,但通常大气湍流成为主要的像差贡献(Jia et al. 2020b);很难找到同时具有低噪声、高速度和大量像素的科学相机,这会导致 WFSAT 图像平面的空间采样率较低。具有低空间采样率的天文目标图像很容易被误认为是背景变化或宇宙射线。
为了减少上述问题带来的影响,我们开发了一个框架,其中包括 SExtractor 中的检测算法和基于神经网络的天文目标分类算法(Jia et al. 2019)。它可以对不同类型的天文目标实现 94% 以上的分类准确率,但我们发现该框架存在一个问题,是由分类算法和检测算法不匹配引起的。对于扩展目标和低 S/N 的目标,检测方法的召回率较低。这意味着许多可以正确分类的天文目标在检测步骤中被排除在外。这个问题对 WFSAT 至关重要,因为它会降低整个观测网的检测能力。考虑到基于机器学习的分类算法已经证明了其在不同目标之间进行分类的良好性能,我们建议基于分类算法开发新的框架,该框架可以同时检测和分类不同天文目标的图像。在下一节中,我们将介绍我们的框架。
图 1. 本文使用的 Faster R-CNN 架构。输入图像包含三个通道,每个通道中的图像都是相同的天文图像。输入图像进入第一个卷积层,该层具有三个卷积层,步长为 1,卷积核为 3×3,用于处理输入图像的每个通道。然后,第一个卷积层的输出将被放入特征金字塔网络中进行特征提取。在特征金字塔网络中,来自 P2 层的特征图用作每个候选图像的特征。这些特征图将用于通过比较不同类别的特征进行分类,它们还将用于通过边界框回归进行位置回归。整流线性单元 (ReLU) 函数使用整流激活函数 n max 0, ( ) 来评估前几层的输出,用作所有五个隐藏层的激活函数。在此图中,W 和 H 代表原始图像的大小,w 和 h 代表候选图像的大小。蓝色框代表不同的卷积阶段并且这些层的形状显示在这些框旁边。
3. 基于深度神经网络的天文目标检测与分类框架
由于 WFSAT 中的空间采样率较低(每像素几角秒)且曝光时间较短(大约几秒),因此 WFSAT 获得的图像与通用巡天望远镜获得的图像有很大不同。对于具有中等 S/N 的普通恒星,图像通常约为 5 × 5 像素。对于明亮的恒星或快速移动的目标,图像将扩展到数十个像素。与为通用巡天提出的框架相比,这将导致不同的分类和检测框架。
3.1. WFSAT 天文目标检测和分类框架的架构
本文提出的框架采用了 Faster R-CNN 神经网络(Ren et al. 2017)的概念。它使用几个预定义大小的窗口来扫描图像的整个框架,这些窗口获得的小图像将被发送到神经网络中进行分类和回归。分类结果将指示不同类型的天文目标,回归结果将提供这些天文目标的位置。我们的框架的整体架构如图 1 所示,它可以分为四个部分,如图 3 所示。
- 特征提取。在此部分中,神经网络用于提取图像的特征,以便随后的区域提议网络层(RPN)提出包含天体的候选区域以进行分类和位置回归,以及全连接层(FC)。卷积神经网络通常用于从图像中提取特征。本文选择了特征金字塔网络(FPN)结构,由卷积层、ReLU激活层和池化层组成,如图1左侧所示。由于WFSAT获得的天文图像尺寸较小,如果使用多层CNN进行特征提取,特征和空间位置会很快分散。此外,由于候选天文目标的图像与感知场的大小不同,分类准确率会下降(Zhang et al. 2019a)。为了解决这些问题,我们使用定制的Resnet-50作为神经网络的主干。我们还使用大小为3×3的卷积核替换Resnet-50中原来大小为7×7的卷积核,如图2所示。
- 区域提议。区域提议代表为后续网络提出的包含天体的小区域提议。在这一部分中,我们将首先将原始图像划分为具有预定义值的不同大小和形状的小图像。这些小图像称为锚点。然后,FPN 提取锚点的特征图,正如我们在第 1 部分中讨论的那样。soft-max 分类器是一种将输入向量归一化为概率分布的函数,其概率与输入的指数成比例(Bishop & Nasrabadi 2007),它将这些锚点分类为背景或目标。然后,RPN 将通过边界框回归不断改变标记为目标的锚点的位置和大小,并输出移位和重新缩放的锚点,这些锚点最有可能作为提议成为天文目标。通常,在此步骤中可以获得这些候选目标坐标的粗略估计。
- ROI 池化/对齐。利用区域提案及其对应的特征图,感兴趣区域 (ROI) 池化/对齐部分将不同大小的提案映射到相同大小。然后,重新缩放的提案的特征图将被发送到 FC 进行分类。ROI 池化将一些预定义部分内的最大值传输到下一级,广泛应用于通用检测框架 (Girshick et al. 2013),例如 Fast R-CNN、Faster R-CNN 或 RFCN。ROI 池化将根据预定义的选择框将相应区域池化为固定大小的特征图。由于池化后的特征图大小必须是常数,因此 ROI 池化有两种量化程序。
(1). 当图像传递到主干网络时,候选框的边界将被量化为与特征图相同的大小。此过程中,边界部分的信息将会丢失。
(2). 在池化过程中,输入图像将被划分为大小为 k × k 像素的单元,每个单元的边界信息将会丢失。
这两个量化过程会导致候选区域的回归精度损失,尤其是对于小目标。例如,如果我们将图像量化为主干网络中原始图像的 1/16,则主干网络中偏移 0.1 像素的图像将在原始图像中引入 1.6 像素的偏移。考虑到 WFSAT 获得的天文目标图像通常只有 5 × 5 像素,信息丢失将成为一个严重的问题。ROI 对齐是为了解决这个问题而提出的(He et al. 2017),其中包括以下修改。
(1). 我们将迭代每个区域提案以保持浮点边界的准确性。
(2). 区域提案分为 k × k 个单元,我们不量化每个单元的边界。
(3). 在每个单元格中计算四个固定的坐标位置,并通过双线性插值法计算这四个位置的值,该方法根据已知坐标位置与其值之间的距离来评估值(Seiler & Seiler 1989)。然后我们将进行最大池化操作。
第一和第二次修改使回归结果足够准确,而第三次修改使骨干网络的池化结果保持准确。在我们的框架中,我们使用ROI对齐而不是ROI池化。
4. 分类和回归。在此步骤中,提案的特征图被发送到分类神经网络中进行分类。同时,提案将通过边界框回归重新缩放和再次移动,以实现更高的回归和分类精度。最后,我们将输出这些提案的最终位置和类型。经过这一步,我们的框架获得了所有候选天文图像的位置和类型。
图 2. 本文使用的 Resnet-50 的结构。它包括五个卷积阶段,以方框表示,每个阶段都有多个卷积层。这些卷积层中的卷积核大小显示为 n × n。每个阶段的大小显示在每个方框下方,宽度 × 长度 × 通道。
图3. 用于天文目标检测和分类框架的神经网络流程图。该框架使用FPN从原始图像中提取特征。然后通过RPN和ROI对齐,将候选图像的特征图传输到分类和回归神经网络。通过框回归和分类,神经网络将对这些目标进行分类并获得其位置。在该图中,框代表操作,箭头代表数据流。
3.2. 使用模拟数据实现我们的天文目标检测和分类框架
3.2.1. 数据准备
为了测试我们的框架在天文目标检测和分类方面的性能,我们通过蒙特卡罗模拟生成了 WFSAT 的模拟观测数据。
由于我们的 WFSAT 工作在恒星跟踪模式下,因此观测数据中有两种不同的天文目标:点状源和条纹状源。点状源通常是恒星、超新星或潮汐破坏耀斑。条纹状源是移动物体,例如彗星、流星、小行星或空间碎片。条纹状源的长度由其移动速度和曝光时间定义,我们假设条纹状源的移动速度在本文中约为 15″–50″ s−1。
我们使用 SkyMaker(Bertin 2009)生成模拟观测数据。首先,我们假设天文物体在很短的时间内(大约 5 毫秒)处于静止状态,并在每个瞬时时刻生成这些目标的位置和大小。然后我们使用 SkyMaker 在这些时刻生成图像,并根据曝光时间将这些图像堆叠以生成模拟观测数据。在我们的模拟中,望远镜的视场为 10 弧分,像素比例为每像素 1 英寸。天空背景的星等为 25,视盘的 FWHM 为 1 0。每帧的曝光时间为 1 秒,读出噪声为 1 e−,暗电流为 1 e− s−1。
3.2.2. 数据标记
训练我们的框架需要标记图像,其中包括原始图像和表示目标位置和类型的标签。在本文中,目标的位置在原始图像中用一个小的矩形框标记,称为地面实况框。对于天文目标i,其地面实况框包含存储在四维向量中的信息:Xih,Xil,Yih和Yil。Xih和Xil代表目标图像沿X方向的坐标的最大值和最小值,而Yih和Yil代表目标图像沿Y方向的坐标的最大值和最小值。通常,训练数据是手动标记的。但是,由于我们在本文中使用SkyMaker生成模拟观测数据,因此我们已经在每个模拟图像中获得了这些天文目标的位置,大小和类型。根据这些目标的信息,我们使用公式(1)创建每个对象的地面实况框。由于不同星等的天文目标大小不同,σ按照表1定义。图4显示了天文目标的图像及其地面真实框。
3.3. 我们框架的训练
我们使用以下策略来训练我们的框架。
- 数据增强:对于实际观察,数据标记非常昂贵。在将图像发送到我们的框架之前,我们随机旋转它们以生成几个新图像,以增加训练图像的数量和我们框架的泛化能力。此外,我们用公式 (2) 对每帧图像进行归一化:
其中 P(xi, yi) 是图像中的灰度值,P x y横杠是图像的平均灰度值,Px y , max ( )和 Px y , min ( ) 分别是图像的最大和最小灰度值,Img(i, j )是用于神经网络训练的图像。 - 我们将所有原始图像上采样为原始大小的两倍,以提高我们框架的检测能力。
- 我们使用实例规范化,即减去平均值并将每个图像的方差除以图像中每个像素,以提高训练期间的收敛速度(Ulyanov 等人,2016 年)。
- 为了防止过度拟合,我们使用 L1 和 L2 损失作为正则化损失函数,并将 L2 损失的权重设置为 0.00001,如公式 (3) 所示,
- 我们选择公式 (4) 中所示的 CrossEntropy 函数作为分类的损失函数,并采用公式 (5) 中定义的平滑 L1 损失函数作为边界框回归的损失函数,
- 使用锚框获取小的候选图像,以便进一步进行分类。锚框的大小需要手动定义,并与候选图像的大小相匹配。由于检测的目标类型不同,锚框的大小和长宽比也应该不同。本文使用的锚框大小为[2, 4, 6],长宽比为[0.5, 1, 2]。FPN将提取图像的特征,FPN不同层中锚框的大小定义为[1, 2, 4, 8, 16]。
整个框架使用 Pytorch (Ketkar2017) 在具有两个 Nvidia GTX1080Ti 图形处理器单元 (GPU) 的计算机中实现。在模拟数据中,2000 帧用作训练集,500 帧模拟数据用作测试集。我们用随机权重初始化我们的神经网络,并使用 Adam 算法 (Kingma & Ba 2015) 作为优化算法对我们的神经网络进行 20-30 个时期的训练。我们用热身方法设置学习率,初始学习率设置为 0.00003 (Zhang et al. 2019b)。
4. 我们框架的性能
4.1. 性能评估方法
在这一部分中,我们将比较我们的框架与基于 SExtractor 的经典检测和分类框架的性能。由于 SExtractor 是一种源检测算法,我们假设 SExtractor 检测到的所有目标都可以正确分类,这是一个乐观的估计。此外,当检测结果正确且检测到的目标的位置在地面真实位置的 1.5 个像素以内时,我们将检测和分类结果设置为真阳性。否则,我们将检测设置为假阳性或假阴性。有了这个定义,我们可以直接比较不同检测和分类框架的性能。我们使用平均精度 (mAP) 来评估我们的框架和经典方法的性能。由于真实观测图像,不可能标记所有天文目标,而且只有有限的目标可以由人类专家标记,使用精度来评估我们框架的性能会更实际。 mAP 在公式 (7) 中定义为所有类别的平均准确率,
其中 AP11points 表示当召回值大于预定义阈值时,11 个不同召回值(例如:r = 0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0)的最大精确度 Pinterp® 之和。Q 是不同天文目标的类别数。mAP 是所有类别对应的所有 AP 值的平均值。因为我们知道所有天文目标的位置和类型,所以我们也可以用召回率和精确率来评估检测和分类结果。召回率和精确率在公式(8)中定义为
其中 TP 为真阳性(正确分类的阳性数量),TN 为真阴性(正确分类的阴性数量),FP 为假阳性(错误分类的阳性数量),FN 为假阴性(错误分类的阴性数量)。
我们首先展示我们框架的性能。图 5 显示了测试集中的 mAP 值与 epoch 数的曲线,我们发现经过 30 个 epoch 后,mAP 稳定。我们使用 30 个 epoch 在实际应用中训练我们的框架。训练后的准确率与召回率曲线如图 6 所示。我们发现两个不同目标的准确率几乎相同,而召回率略有不同。我们的框架在检测和分类条纹状目标方面表现更好。
图5. 在warming-up学习率和500张图片测试集条件下的平均精度曲线,我们绘制了30个epoch下每个epoch的测试精度。可以看出,在第30个epoch之后,mAP的值开始稳定在0.8左右。
4.2. 与模拟数据的性能比较
在这一部分中,我们将比较我们的框架与经典框架的性能。我们使用 200 张模拟图像作为验证集来测试这两个框架。由于我们试图比较不同检测和分类框架对不同 S/N 目标的性能,因此本文对准确率和召回率的定义略有不同,如公式 (9) 所示,
其中objectmatch为正确检测到的目标数量,objecttotal为总目标数量,objectinterval为一定量级范围内的目标数量,objectDetect为所有检测到的目标数量。这个定义减少了数据集不平衡带来的问题。我们进一步使用precisionrate和recallrate来定义f1_score和f2_score来比较这两种方法的性能,如公式(10)所示。f1_score是precision和recall的调和平均值,而f2_score是precision和recall的加权平均值。f1_score通常用于评估分类算法的整体性能。f2_score是一个比较保守的指标,因为它假设分类准确率比召回率更重要。在本文中,我们同时使用这两个指标来评估这两种方法的性能,
验证集中的一帧天文图像和检测结果如图7所示。我们发现这两种方法都可以检测天文图像,但这两种方法的性能明显不同。对于明亮目标附近的天文目标,我们的框架仍然可以检测到它们,而经典方法更有可能将所有这些目标识别为一个目标。同时,仍有几幅天文图像无法被我们的框架检测到。这个问题需要一些新的方法来进一步提高其检测能力,我们将在下一篇论文中讨论这个问题。
图8显示了经典框架和我们的框架性能的定量比较。我们发现这两个框架对明亮光源的召回率几乎相同。然而,对于信噪比低的光源,我们的框架的召回率要高得多。对于准确率,经典框架对于明亮光源的表现略优于我们的框架,前提是假设 SExtractor 检测到的所有光源都可以正确分类,但这几乎是不可能的。当 S/N 较低时,经典框架的分类准确率较低。总体而言,我们的框架表现优于经典框架,如图 9 所示。
图 6. 各瞬态类别的准确率-召回率曲线。红线表示点状源的准确率-召回率曲线,黑线表示条纹状源的准确率-召回率曲线。从该图中,我们发现 Faster R-CNN 对不同天文源的表现不同。Faster R-CNN 对条纹状源的检测和分类效果更好。
4.3. 与实际观测数据的性能比较
在这一部分中,我们使用来自我们的一个 WFSAT 的真实观测数据来测试这两个框架。此 WFSAT 是一台折射望远镜(Sun 等人,2019 年),其参数如表 2 所示。为了收集足够的数据进行训练和性能评估,我们建立了一个基于 HTML 和 Java 的数据注释平台。六个班的本科生正在共同注释这些图像,我们收集了超过 600 帧带标签的图像。在这些图像中,所有天体都已标记并与目录进行交叉检查。然后,我们按照以下步骤训练我们的框架。
- 选择 600 张包含条纹状和点状物体的真实图像。
- 选择其中 75% 的图像作为训练图像,其余图像作为测试图像。
- 估计观察条件并生成 500 帧模拟图像,其中也包含条纹状和点状物体。
- 将模拟图像和训练图像作为训练集,将测试图像作为测试集。
- 使用模拟图像训练我们的框架 30 个时期作为预训练框架。
- 使用真实观测图像训练预训练框架 10 个时期。
经过训练,我们的框架可以自动检测和分类天文目标。我们使用测试集来测试我们的框架和经典框架。图 10 显示了一帧测试图像。我们发现我们的框架可以稳健地检测和分类几乎所有的天文目标。
宇宙射线、热像素和线性干扰对检测和分类结果没有任何影响。我们进一步比较了我们的框架和经典框架与 128 帧验证图像(由同一望远镜在不同日期获得的图像)的性能。虽然这些图像中的天文目标经过了人工检查并通过目录进行了交叉匹配,但仍有可能存在未标记的目标,因此我们在表 3 中仅展示了这两个框架在不同阈值下的改进率。对于较低的阈值,我们的框架可以给出具有更高准确率的结果,而对于较高的阈值,我们的框架可以给出具有更高召回率的结果。我们发现,即使阈值低至 0.4,我们的框架也可以实现 1.032 左右的改进率。如果阈值为 0.6,我们的框架可以比经典框架多检测到 25% 的目标。
4.4. 在嵌入式设备中应用我们的框架
为了进一步测试我们框架的性能,我们使用相同的星表来生成具有不同随机数的模拟图像。由于这些图像是使用星表和相同级别的 S/N 生成的,因此我们可以预期相同的检测和分类结果。然而,我们发现检测和分类结果会发生变化,即使所有这些图像都包含几乎相同的天文信息。如果我们将所有这些图像用于物体检测和分类,我们可以获得更高的准确率和召回率。此属性表明,进一步提高 WFSAT 观测能力的最佳方法是在检测到瞬态候选者后立即对其进行多次观察。由于观测网中有多个 WFSAT,如果我们能够实现实时检测和分类能力,则可以进一步提高整个观测网的观测能力。
基于此要求,我们建议将我们的框架安装在每个 WFSAT 的嵌入式设备中,以实现实时检测和分类能力。由于我们的框架使用深度神经网络,因此需要张量核来提高检测和分类速度。我们将我们的框架安装在 Nvidia 提供的 Jetson AGX Xavier 嵌入式设备中,作为 WFSAT 的“大脑”。Jetson AGX Xavier 拥有 512 核 Volta GPU,可以实现 5 TFLOP 和 16 浮点精度。WFSAT 获取的图像通过其 USB 3.1 端口传输到 Xavier 中,处理一张 600 × 600 像素大小的图像大约需要 0.3 秒。对于尺寸较大的图像,我们可以将它们分成具有重叠区域的小图像,然后逐部分处理。在检测和分类步骤之后,我们将 Jetson Xavier 中的所有天文目标与不同的目录进行交叉匹配。我们将在整个观测网络中广播候选瞬变的坐标和类型。每个 WFSAT 既可以将这些信息用作另一个神经网络的分类和检测结果,并通过集成学习进一步提高检测和分类能力,也可以将这些信息作为观察特定天空区域的指导。
图 7. 第一幅图为原始图像,包含点状源和条纹状源。为了便于可视化,我们将图中的灰度值转换为对数值。第二幅图是我们框架得到的结果。红色框表示条纹状天文图像,绿色框表示点状天文图像。第三幅图是经典框架检测的结果。由于经典框架无法将目标分为不同类型,我们假设经典框架检测到的所有天文目标都可以正确分类。从第三幅图中可以看出,经典框架对于混合源的表现不佳,此外,条纹状目标会被经典框架多次检测到。因此,在比较我们的框架和经典框架的检测性能时,多次检测到的目标只计算一次。
图 8. 该图显示了不同 S/N 的天文图像的召回率和准确率的变化情况。每个星等的天文源数量约为 2000-3000。从该图中我们发现,对于 S/N 较高的天文源,经典框架(用 SExtractor 标记)的性能略好,而对于 S/N 较低的天文源,我们的框架(用探测器标记)的性能更好。
图 9. 该图显示了这两个框架对具有不同 S/N 的天文目标的性能,使用 f1_score 和 f2_score 进行了评估。我们发现,对于具有低 S/N 的天文目标,我们的框架(用 detector 标记)的性能优于经典框架(用 SExtractor 标记),而对于明亮的光源,它们的性能几乎相同。
表 2 望远镜详细信息
图 10. 真实观测图像的检测和分类结果示例。我们发现我们的框架可以正确检测天体和移动目标。此外,左上角明亮恒星附近的热像素和线性干扰对最终检测结果没有影响。
表 3 我们的框架与经典框架之间的改进率
5. 结论和未来工作
快速准确地检测和分类天文目标对于瞬态观测非常重要。在本文中,针对 WFSAT 获取的图像,我们提出了一种基于深度神经网络的物体检测和分类框架。我们比较了我们的框架和基于 SExtractor 的经典框架在模拟和真实观测数据上的性能。我们的框架是稳健的,并且具有更好的性能。我们进一步建议将我们的框架安装在嵌入式设备中,以实现实时检测和分类能力,这将进一步提高整个瞬态观测网络的观测能力。
然而,通过模拟数据,我们发现我们的框架无法检测到所有目标,这表明我们的框架仍需要改进。在未来的工作中,我们将优化框架的结构,进一步提高框架的性能。
作者要感谢匿名审稿人提出的意见和建议,提高了本文的质量。 P.J. 感谢国家天文台的李楠博士、杜伦大学的 Alastair Basden 博士、云南天文台的季开帆教授、紫金山天文台的孙荣宇博士和朱婷蕾博士以及暨南大学的张庆峰教授,他们为本文提供了非常有用的建议。本文中使用的所有真实观测图像均由太原理工大学物理与光电子学院光电工程专业 1701、1702、1703、1704 班和光源与照明专业 1701 和 1702 班的本科生标注。本研究得到国家自然科学基金委员会与中国科学院天文学联合研究基金(U1631133)、国家自然科学基金(11503018)、山西省青年科学基金(201901D211081)、山西省留学基金委科研项目、山西省高校科技创新项目(2019L0225)的支持。完整代码可从 https://doi.org/10.12149/101016 下载。