2023年1月12日,在腾讯科技向善创新周2023上,腾讯公益慈善基金会公益高级项目总监马尧发表了演讲,题为《雪豹保护的背后》。
以下为马尧的演讲全文:
在中国,2005年我们才第一次在野外拍摄到雪豹,只拍到了雪豹的半个身子,这张照片就是中国的第一张雪豹的红外相机影像。它是我的父亲拍摄的。
20年前我的父亲他们去野外调查雪豹的时候,要骑着马、带好干粮,去到天山托木尔峰的深山里头,在那里扎营,住在野外非常寒冷,还要光着腿过这样的冰河。
我是不仅亲眼见过野生的雪豹,还抱过雪豹,因为它太难见到了,所以很多做雪豹研究的人都没有近距离接触雪豹的机会,所以在那时候,我对于雪豹就有了相对清晰的认知。
这种物种非常漂亮、非常神秘,也离我们人类非常遥远,做它的研究需要耗费大量的资源,不管是人力的,还是物力的。
当我来到腾讯基金会以后,在讨论生物多样性保护这个议题的时候,我们就在思考,中国到底还有什么物种值得我们去研究、值得我们去资助、值得我们去推动它的保护。
这种选择其实有很多,但是在我当时的建议下,我们选择了雪豹。
我们为什么要保护雪豹?
雪豹这个物种跟中国息息相关,但是它的知名度又和它的重要程度极其不匹配。我们需要做更多的事情让更多的人们了解到,有这样一种美丽的猫科动物,生活在我们的身边,生活在我们的国家。
从雪豹的知识图谱
到雪豹保护的产品需求
我们很感兴趣,在应邀来到祁连山保护区管理局之后,我们了解到,今天人们研究雪豹、观察雪豹,红外照相机仍然是最重要的工具,没有之一。
红外照相机已经比我父亲那个年代要先进了许多,它们现在集成了更多的功能,从胶片相机变成了数码相机,可以拍摄大量图片,而且灵敏度、耐久度都会高很多。
然而,这一系列工具的提升帮助他们更好地观察、研究雪豹的同时,也给他们带来了巨大的负担。
红外相机布设在野外以后并不是实时传回数据的,那些地方没有网络、没有电力,所以红外相机需要靠电池在野外独立地支撑3-6个月,然后由巡护人员去取回存储卡,才能看到这3-6个月里拍到的影像。
每一张存储卡里都会有两三千张图片,而保护区往往不会只架设一台红外相机,如果有一百台相机,那就是几十万张照片。
而这些照片他们是如何处理的呢?
他们聚集了所有的巡护人员、保护人员一起,关到会议室里没日没夜地去人工识别这些图片,去看这些图片里面拍到了多少雪豹、多少野生动物,拍到了哪些废片,然后再把这些照片进行分类存储。
这样的数据处理量对于这些出惯野外的人来说,是一个非常痛苦的工作。
我们到保护区管理局以后认识了一位藏族巡护员,他的名字叫阿城,当地人都形容阿城拥有鹰的眼睛,因为他是保护区少有的几个能在非常远的距离,甚至是3-4公里之外,就用肉眼观测到远处有雪豹的人。
阿城亲口跟我们吐槽说,他们做一次数据做得都快吐了,看得眼睛都快瞎了,但还是做不完。
他们十几个人处理一次数据就需要2-3周的时间,这还只是初筛,所以保护区管理局找到我们的时候,只有一个简单的诉求,就是希望通过一些措施,自动地识别这些照片。
这个需求我们非常感兴趣,我们凑齐了公司的6个业务团队,包括有AI识别的、云端处理的、产品交互的等等,去探索到底该怎么解决。
整个团队到达祁连山以后做的第一件事情,就是跟着阿城一块去看他们到底是如何工作的——如何放置红外相机、如何去做野外巡护。
我们跟着阿城他们来到了祁连山的祁青保护站,这个地方海拔有3000多米,是个人迹罕至的祁连山深处的小山谷。
阿城带着我们一路深入进去,一边走,我们就可以一边看到各种各样的兽径,就是各种野兽通过的路径,就像我们走的路一样。
在这些兽径旁边,往往就会有雪豹的刨痕、尿痕,甚至是它吃剩下的动物尸体,而这些地方,就是架设红外相机最好的区域。
阿城完整地向我们演示了如何架设红外相机,红外相机应该拍摄什么样的角度,架设完相机以后要记录什么样的一些数据,在架设相机的过程中,我们遇到这些兽径、兽迹,要如何做记录,这一系列就是一个完整的雪豹样线调查所形成的各种各样的数据。
有时候你架设相机的时候,相机前面还没有草,但是等你去取的时候,草已经长得一人多高了。
风在吹动它,甚至天上的云在变化的时候,都有可能触发红外相机,所以大量的明暗不清晰又找不到动物的图片,成为像阿城他们这样的巡护员在处理数据的时候最头疼的事。
他们需要把这超过80%的空拍图片剔除出去,剩下的不到20%的图片才是拍摄到野生动物的图片。
我们可以看到很多非常有意思的图片,比如说像这一只白唇鹿,它头上缠满了铁丝,这些铁丝可能有十几二十公斤重,它是误闯进了牧场,把牧场边的铁丝卷到了头上,这可能是它生命前几小时留下的这样一张照片。
还会有狐狸,会有狼,会有各种各样的鸟类,还有雪豹最主要的食物岩羊。
最核心的其实是雪豹。
我们可以看到它们经常会在岩石上去蹭背、去喷射尿液,非常有意思,但是如果每3-6个月就有二三十万张这样的照片放到你的面前,需要你去处理的时候,我想再怎么可爱的影像、再怎么有趣的图像故事,都会让一个人感觉痛苦不堪。
在了解到这一需求以后,我们和祁连山保护区管理局进行了更深入的沟通,我们才知道其实在今天,相较于我父亲2004年、2005年开展雪豹研究,已经过去了将近20个年头,但是我们对于雪豹的认知仍然非常有限。
有超过60%的雪豹分布在中国,但是只有2%的栖息地我们对它进行了相关的样线调查,了解了里面的雪豹是如何生存的,绝大多数雪豹今天是如何分布的,栖息地健康状态怎么样,食物链是否相对完整,仍然一无所知。
这一系列仍然需要仰赖红外相机拍摄回来的数据,以及它背后人工做的野外样线调查的数据,做综合结合最后才能够得出结论。
而没有这样的结论的话,保护区管理局或者是野保组织,都无法制定真正科学有效的保护措施。
如果我们能够帮助到保护组织和相关的管理机构去处理这样海量的数据,能够更好地、更高效率地去做雪豹的样线调查,去了解、认知雪豹,并推广到更多的区域,就有更大的可能能够对中国的雪豹、甚至世界的雪豹,有一个全面的认知。
我们可以和大熊猫做一个参照,虽然大熊猫栖息地的范围跟雪豹相比要小很多,但是从1980年代到现在,中国已经进行了四次大熊猫栖息地的完整样线调查,所以在野外有多少大熊猫,它们是怎么样生存的,它们栖息地的健康状态,我们是非常清晰的,这也能够帮助我们更好地去保护大熊猫。
雪豹也是一样的,但是我们现在对于雪豹栖息地的认知还差得很远。
雪豹AI识别系统的诞生
如何能够把大量的人工识别分析红外影像数据的负担解除掉?
我们首选的是人工智能。
大家现在也都很熟悉了,人工智能其实在人脸识别、物种物体识别上面,其实已经有了长足的进步,我们相信它在野生动物识别方面一样可以做出很了不起的事情。
所谓打框标注,就是在红外图片中,用有颜色的框线把动物框出来,同时标注这是什么动物,用这样的一些标签,帮助机器去学习。
我们资助了一个机构,对于残障人士进行简单的培训后,这些障碍人士就可以通过在电脑前标注数据,进而获得一份收入。
也就是说,我们通过一个公益项目,既可以帮助到残障人群,也可以帮助到野生动物。
我们发现功能能用,但是并不是特别好用,这里边其实存在很多问题,最大的问题是因为我们并不是一个完整的产品团队,我们把功能做出来以后,在用户的适配、用户行为的矫正方面,还有很多的路需要走。
他们介入以后,我们很快拿出了一个可以用而且蛮好用的产品。
我们当时评估了一个人工成本的减轻,它有效减轻了超过60%的人力成本。
在过去需要十几个人工作2-3周处理的数据,现在只需要1-2个人把这个数据上传到系统上面,系统自动地识别,然后他去进行二次的验证,就完成了相关的工作。
有一些红外相机它拍到的雪豹并不是完整的,有时候拍到的只是半个身子,半个脑袋,甚至只有一条尾巴,像这样的数据,就不一定能被准确地识别出来。
所以我们在这个里面设置了一个置信度,就是在机器不能百分之百确定它是什么物种的时候,会给出其它几种可能性,比如说一个置信度,它有 10%的可能性是狼,还有10%的可能是狐狸,或者还有10%的可能是牦牛,甚至还有10%的可能是一个人。
那么在这种情况下,它就需要人工的介入,去确保这个数据的二次核验准确。
雪豹个体识别流程的优化
进入2022年以后,我们又领到了祁连山保护区管理局和世界自然基金会的一个新需求。
我们现在已经解决了红外相机数据的物种识别、空拍的筛查,但是我们把这些数据拿回来以后,我们还需要去做进一步的加工,进一步的加工是什么呢?是个体的识别,雪豹的个体。也就是说我们需要清楚地知道在这一片保护区里头到底生活着多少只的雪豹,这每一只雪豹它到底被拍摄到多少次,通过这个其实可以研究每一个雪豹它不同的生活习惯、它的运动轨迹、它可能的交配路线,综合地形成一个雪豹的更完整的样线。
我们说AI可以认出来雪豹、认出来狐狸、认出来狼已经很了不起了,那它还要认出来雪豹A雪豹B雪豹C,这到底能不能做到?我们内部做完整体评估以后,认为现阶段这个还做不到,但是这个需求又很现实,我们该怎么去解决它呢?这时候刚才提到的腾讯用户研究与体验设计部的同事又发挥了巨大的作用。
在调研他们是如何去做雪豹的个体识别之后,我们发现,他们是在电脑的桌面上同时打开两个看图软件,在一个看图软件里面调进去一张图,然后再去另外一个文件夹里面调出另外一张图,导入到第二个看图软件里面,通过人工比对它们的花纹、不同角度的形状,来判断这两只雪豹是不是一样。每识别一个雪豹,要打开无数次的文件夹,导入无数次的照片,才能够去完成一次的辨认。
既然AI做不到,那么交互有没有可能优化这个流程呢?我们有没有可能在同一个页面里面自动地去匹配一些照片,然后再由人工来进行识别呢?这个是可以做到的,而且AI也可以在里面发挥作用。
AI虽然识别不了雪豹A 雪豹B不同的花纹,但是可以识别它的姿势。我们可以自动匹配在一个区域里红外相机拍到的两只雪豹同一侧的照片,然后直接在一个界面上去进行人工识别,仅此一项,就节省了工作人员大量的时间,所以在第二个诉求上我们实际并没有采用多么高的科技,但是通过优化产品体验,同样很大程度地减轻了工作人员的负担。
雪豹的数据分析系统
所有的数据都有了以后,归根结底是要去做分析的,所以在雪豹的系统里面,我们也增加了一个数据分析的模块。
在过去,保护区管理局会把他们每一次样线调查带回来的数据存在一个excel表格里面,这个excel表格它会记录一个野外巡护人员在一次样线调查中,在什么经纬度看到了一个雪豹的粪便,在什么经纬度看到了雪豹的一个刨痕等等,这一系列数据最终需要通过人工的匹配,和在这个区域里红外相机拍摄的雪豹匹配到一块,才有可能去计算雪豹在这个区域里大概有多少密度,多少数量。
实际上,这一系列都可以通过很自然的图表软件去达成,无非就是在录入数据的时候,按照一个规范,每次统一地去录入数据。
在这个周期里面录入数据,它自然而然就会和这个周期里我们导入的红外数据去做相关的匹配,我们在这个系统上就可以看到雪豹的活动时间、活动范围,甚至是它大概在什么季节可能会有更多的运动量,包括跟它相关的一系列,在伞物种下面的一些其他物种,也都可以得到一个有效的认知。
但其实作为一个互联网公司,我们做这些事情是完全不专业的,这也不是我们应该去做的事情。
我们能做的是帮助专业人员更好地开展他们的工作,帮助更多像阿城这样拥有鹰眼的野外巡查人员,这种在地保护人员,更好地去开展他们的工作,而不是耗费大量的时间去做一些非常低级的数据识别、数据分类这样的工作。
在中国,绝大多数的雪豹栖息地从来没有进行过样线调查,我们还有很多的工作要做。
在2022年
,雪豹这套系统成功地在青海的三江源以及西藏的那曲地区开始进行测试,在将来也会扩展到更多的地方。
这一系列其实都是公益捐赠的模式,我们把这样一种技术免费捐赠到当地,来帮助他们开展雪豹的样线调查。
我们希望,也许用5-10年,也许更短的时间,真的能够把中国的雪豹去摸查一遍,通过了解不同的栖息地情况下雪豹不同的生存环境,通过这些数据的汇总,能够帮助我们更好地去认知、了解这种神秘而又美丽的物种,同时通过保护它,去保护它们所在的这些高原,这些与我们每一个普通中国人,甚至整个亚洲国家的人的生存都息息相关的场地。
这个系统它同时还具有可扩展性,因为我们知道研究物种保护,研究生物多样性的很多工作其实是类似的,不管是雪豹也好,或者是东北虎也好,其实都需要借助红外相机数据的采集,去观察、了解物种。
我们现在也在进行系统的普适性的开发,希望后续通过简单的训练后就可以使用,帮助到更多物种。
通过对于红外相机的分析,通过个体的识别,通过整体的数据样线、数据综合的报告性的输出,相信腾讯的技术公益从雪豹走出这条路径,能够在生物多样性保护的领域探索出新的成果,开出新的花朵,我们希望如此,谢谢。