top of page

只怕你不来!——被演算法主导的生活

  • 刘家明
  • 22小时前
  • 讀畢需時 5 分鐘

只怕你不来!——被演算法主导的生活

文 刘家明

怡和新知


几年前首次上网购书,选好了书在结账之前,电脑突然弹出:你可能也喜欢的其他书籍。好奇之下点击去看,结果真的多买了两本。当时还觉得新奇有趣。时间才过了几年,现在打开手机或电脑,各类应用(APP)都似乎已“精心”为你规划好了起居生活。如最佳唤醒你的时间,哪条是最优上班路线,根据你的嗜好和口味推介餐食和餐厅。还有你爱听的音乐,视频,甚至新闻和社交媒体,都依序弹出。就好像你雇佣了一个超级隐形管家和私人助理,默默地观察和收集你的生活习惯,再为你安排打点一切。这个隐形管家就是时代的宠儿:智能演算法。


什么是演算法(Algorithm)?


图1 演算法和流程图
图1 演算法和流程图

演算法的定义不难理解,它是解决特定问题的一系列步骤或规则。学编电脑程序时要先学流程图(flowchart),流程图可以算是完成演算法的各个步骤的详细工作程序。所以算法就如一道菜的食谱,而流程图是如何完成各步骤的操作。举个较简单的例子,假设我们要从一堆数字里选出最大值,图1可显示演算法和流程图的不同。


演算法包罗万象,任何要每次都以相同方式完成的逐步过程都可以算是演算法。例如上班要选穿什么衣服和鞋子,午餐要点什么餐馆的什么餐,往返两地的最优途径,搜寻资料和资料分类,推介音乐和视频等等。几乎只要能想象到的问题,都至少有一个对应的演算法,差别是哪个演算法能最快最有效解决问题。


支撑演算法的理论


演算法建立在一系列不同的的学科之上,其中有复杂的数学理论、社会科学、心理学和计算模型。它还要有大数据的支撑来学习,才能利用机器学习演算法( machine learning algorithm)分析海量数据,从中寻找出规律和模式,再供应客户所需要的答案。例如预测气候、天灾,商场和聚会的意外、火灾、罪案,产品的保养和维修。协同过滤算法是根据收集到的用户群体的行为数据,预测个体偏好。社会网络分析演算法则通过分析人与人之间的互通和关系,揭示信息传播和影响力扩散的规律。所以一个演算法也可以包括其他不同的演算法,环环相扣,一起运算出问题的答案。演算法都会加入不断学习和优化的步骤,以便更准确地预测和引导客户的行为。与我们消费群众的生活较有直接关系的,当推寻路导航演算法以及推荐系统演算法。


寻路导航演算法


图2 戴杰克斯塔(Dijkstra)演算法例子示意
图2 戴杰克斯塔(Dijkstra)演算法例子示意

这个最经典的演算法,就是寻找地图上的出发点和目的地,两个地方之间的最佳路径。这个演算法需要用到离散数学(discrete mathematic)里的图论(Graph Theory)来解答。在两地之间的每个路口,都可以设想成一个节点。从一个节点到另一个节点,电脑必须从其距离、交通信号灯数量、通行费、学校区域或特别区域的速度限制、实时信息如道路施工、交通流量等得出一个评分。日后利用如戴杰克斯塔(Dijkstra)演算法(图2),再算出最便宜、或最快、或最短的路程。这样的大量计算,联合实时讯息和遥控感应器收集的资料,需要通过云端连接高性能电脑才能完成。


推荐产品和服务的演算法


每当你打开Youtube、Netflix、Spotify、Facebook、TikTok等应用时,看到推介给你的,多是与你看过的相似风格或内容的作品。这就是为客户推荐的演算法在运作了。服务商首先会分析视频的性质、特点、演员或视频的主角,内容甚至政治倾向,再加以分类。然后从客户浏览的习惯,建立和设置一个客户的数码角色/替身,最后才展开疲劳轰炸式的推荐了。从顾客浏览的时间、日或夜、浏览时间长短、有没有重看或跳过、或收藏保留、点赞、注册账号、留言、回访、浏览其他类似作品等等,通过统计和社会心理学分析,电脑了解你比你自己还清楚!


这只是非常保守,非侵入性的收集,有的应用还会植入一些“文本存根”软件(cookies),它能在背后收集更多客户的资料,以增强为你设置的数码替身,更精准地为你推介更适当的选项。同样的演算法也用在商场的广告板或者闭路电视和监控器,只要装置了摄像机就可分析顾客观看广告或产品的时间,选择的商品等行为。我们无时不在电眼的监控中。


图3 预测推荐演算法示意(由AI生成图片制图)
图3 预测推荐演算法示意(由AI生成图片制图)

统计学与概率


统计学和概率在预测和推荐演算法里非常重要,因为系统不能预先知道客户的喜好,所以只能靠对整个大顾客群里做统计,用机器学习演算法,找出其中规律后,预测出客户喜好的或然率,才推荐相关产品。这不只是要用到普通或然率概念,还要用复杂的演算法,如定理演算法(Bayes’theory)计算复合机率。例如已从统计中得知某A事件的发生或然率是P(A), B事件的是P(B),那么在已知B已发生后,A发生的(复合)机率P(A|B)就要用贝叶斯 公式计算了。如果某事件的发生(如选看某视频)会牵连到很多其他因素(时间、地点、演员、剧情),那么复杂的东西就非要上云端去计算不可了。


贝叶斯定理也可以用在寻找垃圾邮件和诈骗邮件的应用,例如从统计中找出了某些惯用字,如免费、幸运、利润、快赢等出现的或然率,文法和语法的应用,以及文章惯用的结构反式等,可以有效断定和筛选出垃圾和诈骗电邮。不过魔高一丈,近来生成式人工智能的普及,这演算法也就不那么有效了。


图4 贝叶斯定理(Bayes’ theory)演算法
图4 贝叶斯定理(Bayes’ theory)演算法

虽然演算法提供了方便和增强了所谓的浏览经验,也让客户面对隐私泄露的风险。理论上我们要了解不同应用和服务的隐私政策,看他们要收集什么客户资料和信息,才谨慎授权,可惜没有多少人有耐性去细看那些又长又故意令人难懂的用词,就随便按下同意键了。我们可以用虚拟专用网络(VPN)、广告拦截器(软件)等减少数据追踪,又或者每次上网后都清空上网历史,cookies,搜索记录,但这样一来就会大大降低我们上网的方便了。关键就是要多了解一些算法,在保护隐私和浏览效率之间取得平衡,但知易行难矣。


回到问题的原点,现在的各类推荐,已不是像过去那样:我猜你也会喜欢那么简单。你的身边潜伏了一个智能助理,就看你要他如何为你服务了。虽然也不能担保实体真人的助理不会向别人透露你的私人讯息,区别是如果隐私是被隐形助理泄露的,你不会知道谁是罪魁祸首,也不知道谁掌控了你的什么资料和将如何应用它。所谓水过留痕,现在只要你上网,就一定会被某方截取了某些私人讯息。浩瀚的云端和超级智能的电脑在等你,就如广东俗语所云:唔怕你精,唔怕你呆,只怕你唔来!


作者为特约撰稿人

 
 
 

留言


⏏回到顶部
bottom of page