在大数据时代下,随着互联网、云存储等技术的高速发展,实际分析处理中遇到的数据规模越来越大。尽管大规模函数型数据可以给我们带来海量信息,但是其对计算资源有着更高的需求,所需的计算时间更长,这也极大地提升了计算成本,影响数据分析的时效性、可操作性。因此如何解决大规模函数型数据分析时,遇到的存储空间和计算效率等方面的难题是大数据时代下函数型数据分析的一个重要问题。
近日,针对上述问题,西安交通大学经济与金融学院青年教师刘华博士、上海财经大学统计与管理学院教授尤进红博士和加拿大西蒙弗雷泽大学(Simon Fraser University)教授Jiguo Cao博士进行了深入的研究。他们首次把子抽样思想应用到函数型数据分析,开发出适应于函数型广义回归模型的最优抽样方法Functional L-Optimality Subsampling(FLoS),以此来实现减少计算时间、克服内存不足等问题的目标。除此之外,作者还通过理论和一系列的数值模拟来说明了该抽样方法的准确性和有效性。
科研人员把提出的最优抽样方法FLoS用于分析器官移植数据案例米乐m6官方网站,该数据收集了几十万名肾脏器官移植接受者在接受器官移植手术时的信息,并记录了这些移植手术接受者在术后每次随访的信息,因此其是一个数据量非常庞大的且包含函数型数据的数据集。米乐m6官方网站他们想要用接受者术后的肾小球过滤率曲线来判断移植手术能否成功并且预估他们在术后的大致寿命。通过分析与对比,他们发现基于FLoS方法抽取到的最优子样本得到的抽样估计和全样本下的估计几乎完全一致,进一步验证了该最优抽样方法的准确性和有效性。
下一条:【科技自立自强】西安交大电气学院科研团队在可修复高介电聚合物复合材料研究领域取得重要进展