“你真的要听吗?”池远收起玩乐的心思,认真道,“这其实跟我们手头上的工作没啥关系。”
这部分是属于数据分析,组里不太可能让他们涉及这部分任务。
“听!只是现在没关系而已。”英子回答很自信。
不仅是对她自己的学习能力自信,更是对池远非人般的学习能力自信。
“好吧。”池远笑了笑,在英子无语的眼神下,从裤兜里掏出随身携带的笔。
只见他将纸张翻转了一面,在上面写道:
【1.高纬度和多模态数据:测试数据可能来自多个传感器,涉及多种参数,因此数据是高维度和多模态的。例如,包括温度、压力、速度等多种测量。】
【2.时序性:测试数据通常是时序数据,因为航天器的状态和性能参数会随着时间的推移而变化。】
【3.复杂的非线性关系……】
【4.缺失数据和异常值……】
【5.实时性要求……】
【6.数据标签的稀疏性……】
“这是你对测试数据特性的分析?”
池远点了点头:
“基于这些特征分析,我放弃了限制小规模数据量的梯度提升算法(xgboost、lightgbm)和要求维度较低的ls-svm算法,决定用深度学习算法,准确来说是模型,不止一个算法。”
“它的要求并不苛刻,复杂的数据结构,也可以通过多层神经网络学习输入数据的表示后进行处理。特别是它能自动学习高级抽象特征,发现隐藏在数据背后的模式和规律,达到识别异常甚至预测的目的。”
说完,他又将自己的模型构思一一写下来:
【1.时间序列分析:使用专门针对时间序列数据的深度学习模型,如长短时记忆网络(lstm)或门控循环单元(gru)等。】
【2.数据预处理:……】
【3.学习模型预训练:……】
【……】
【7.增强学习:在某些情况下,可以考虑使用增强学习来实时监测中遇到的决策问题。】
一整页都写满了。
没有在意小小稿纸承受的不该有字数,池远期待地等待着英子的回答:
“这模型怎么样?”
池远写得很简化,英子对深度学习有所了解也能看懂。
也正是因为能够看懂,她微微皱起了眉头,有些犹豫道:
“模型很完善……但是不是太复杂了?需要的计算资源是不是太多了?”
“是需要很大的计算资源,但这不是为了追求‘最优’,面面都要考虑到嘛。”但这的确是个困扰池远的问题,“你有没有什么建议?”
英子知道的不多,一时间也想不到好办法。
话题冷了下来,两个人一边吃饭一边发呆。
熟悉的眼神涣散,英子却突然想起了下午看得眼神涣散的测试数据。
“我想到了!那些数据!非线性关系!”
她突然出声,把池远吓了个一激灵,回过神忍不住提醒道,“是‘复杂的’非线性关系……”
“别强调‘复杂’了,要简化!既然是非线性的,将略微相关的数据进行分类处理,得到类属性,那时不时可以忽略类属性变量之间的依赖关系可以相对忽略?”
要是抛开对‘复杂’的执着,池远也懂了英子的意思,“你的意思是用朴素贝叶斯分类器?”
“还有tan分类器。”英子眯眼道。
“这想法不错。”池远笑着敲了敲桌子,“还有吗?”
“我认为还能引入‘注意力机制’,让模型更加关注重要的特征,从而提高对关键信息的捕捉能力。”英子越说越自信。
果然,不同的思考方式注意到的重点都是不一样的。
英子两条意见都是冲着‘偷懒’……咳,是‘简化’的目的。
“但可靠性呢?”
深度学习算法有识别异常的工程,更重要的是它还能预测。
预测,就对可靠性有着更严苛的要求。
池远的问题很致命。
“再设计一个可靠性模型?”英子试探性地问?
这又何尝不是一种办法?
池远琢磨着除了将测试相关数据收入进去外,还可以将试车时长、试车次数、技术状态、试车各环境参数等多种因素塞进可靠性模型中,最好综合得到一个考核分值。
建模方法可以选生存分析(survival analysis)、可靠性块图(reliability block diagram)、贝叶斯网络,最好比较得到效果最好那个。
但,这会不会太复杂了?
池远有些头疼,没办法,这是拥有‘抽象思维’也无法改变的思考习惯,‘做减法’对于他而言太难,删掉一个因素他都要纠结是不是就不可靠了。
他是做不到了……
“英子,”池远眨巴起了大眼睛,“要不……模型算法部分就交给你了。你比较