您的位置:   网站首页    行业动态    活动回顾 | “法律与人工智能”读书会第二期

活动回顾 | “法律与人工智能”读书会第二期

阅读量:3774641 2019-10-25



活动回顾 | “法律与人工智能”读书会”第二期
 2019年10月18日晚7:00,第二期“法律与人工智能”读书会于北京大学陈明楼202室如期举办。此次领读人为北京大学法学院博士研究生徐慧丽和钱子瑜,点评人为北京大学法学院博士研究生石丹和王旭。读书会由法学院硕士李梦欢主持,三十余位同学及法律界人士参与了此次活动,其中还包括来自清华大学的老师,以及清华大学“iLAW未来智能法律兴趣团队”的同学们。
        李梦欢向到场人员表示欢迎后读书会正式开始,领读人钱子瑜和徐慧丽共同介绍了五篇法律与人工智能方面的经典文章。钱子瑜同学领读了前三篇文章,徐慧丽同学领读了后两篇。
一、    为什么计算机算法会存在偏差
        第一篇文章《大数据中隐藏的歧视问题》揭示出歧视这一现象,对其中的问题做简要介绍:大量的数据和预测可以反映客观事实这一观点如今已受到抨击,大数据中的歧视问题逐渐显现,这提醒我们要注意公平准入和数据传播问题,在研究方法统计中与法律定性方法相结合,大数据和小数据研究相结合消除潜在的歧视现象。
《计算机算法中的歧视现象》
第二篇文章《计算机算法中的歧视现象》
        第一部分简要介绍了偏差产生的原因:歧视的产生是由于人们的检索能力有限,无法穷尽所有信息,这一歧视体现在对于结果的筛选和排序方面,并且很难识别和纠正。这篇文章中以术语偏差代指不公平不平等的歧视,偏差包括出于趋利避害本能的偏差,也包括出于不道德目的的偏差,本文的主要研究对象是出于不道德目的的不正当偏差。
        文章第二部分着眼于偏差的框架分析。作者将偏差分为预先存在的偏差、技术性偏差和突发性偏差。
(1)预先存在的偏差:这是根植于社会制度的偏差,取决于人们对于社会现象的态度,在计算机建立以前就已经存在。其中又分为个人偏差,如体现在计算机系统中的设计师本人的偏见,还有社会偏差,如社会整体的种族歧视。
(2)技术性偏差:这种偏差产生的原因包括客观条件的局限性和主观变化,前者是由于系统设计的不足,在设计过程中不可能穷尽所有可能性,后者则包括对数据的重新解释使得含义发生变化而导致变差。
(3)突发性偏差:这是指系统设立完毕之后,社会知识、人口、价值观念变化使得系统偏离原意,包括天灾人祸、临时出现法律导致的偏差。
        第三部分则阐述了计算机框架的使用。这一部分讲述了如何在设计中最小化偏差。作者认为,偏差与其说是算法的特性,不如说是具体使用中的现象。因此,这就要求设计者充分了解社会实际情况和环境,设置应急规制动态管理模式应对突发现象。还应当认识到,完美的系统是不存在的,我们只能尽可能避免偏差的出现。
二、 算法的可解释性,可规制性,透明性
     第三篇文章《大数据和算法的设计》着眼于算法的透明性,首先提出了算法追责困难的五个方面:
(1)责任分配分散,逐个追责较为困难:计算机算法从设计到操作的过程中有很多人参与,一旦产生责任问题,很难对其一一追究。
(2)系统自身存在缺陷,为错误找到借口。
(3)追责时会责怪系统本身而不是参与人。
(4)决策重要性增长使得算法扮演越来越重要的地位,对其追责会影响决策进行。
(5)算法本身因其专业性而不透明。
    面对追责难题,我们要建立完备的问责机制,这篇文章中提到,要打破不透明的屏障,阳光是最好的防腐剂。并且问责制意味着所有阶段都透明,开放,包括公开排名的算法、指定决策最终使用结果的方式。
    但在此过程中可能存在的问题有:
隐私泄露的风险;
监管违背算法本意,算法公开最终变成反向博弈;
竞争中商业秘密、知识产权的保护问题;
算法本身的不透明性仍然无法解决。
这篇文章最终得出了以下几点结论:
1.出于隐私考虑,把数据库免费提供给大众是不明智的。
2.数据模型透明化会导致相关方与算法系统的博弈从而破坏算法效率。
3.涉及到产权问题,算法系统应当只对权威性监管部门开放。
    第四篇文章《欧盟关于算法决策的规定与算法解释权》,其作者Bryce Goodman在2016年发表此文章时首次提出了算法解释权的概念。
    徐慧丽同学解读了GDPR《通用数据保护条例》,相比于1995年的《数据保护指令》(DPD),在条例、最高罚款和适用范围上存在差异。
    机器算法中的自动化决策对欧盟扎根很深的非歧视要求提出了三重挑战:
第一重挑战:以算法画像进行资源分配,内在地含有歧视性
    画像是指根据变量进行分类,根据分类作出    决策的方式,在这个过程中,需要从社会中收集数据,但这些数据本身可能就包含社会中已有的歧视,因此学者说:“大数据声称是中立的,然而却不是。”
第二重挑战:敏感数据造成歧视性影响
    GDPR第9条禁止处理敏感数据,敏感数据包括民族背景、政治观念、宗教信仰等数据,防止利用敏感数据进行画像而造成歧视问题。
第三重歧视:不确定性偏见
    不确定性偏见的形成有两个条件:样本收集时对某一个群体的遗漏以及算法本身规避风险的倾向,这会导致预测算法会支持更被充分代表的群体,因为该群体预测相关的不确定性较小。
    文章最终得出的结论是:GDPR对算法设计的要求,除了非歧视,可解释之外,还有更多研究者们在尝试渲染算法、解决偏见的技术工具,在此领域还有非常多待挖掘的空间。
    第五篇文章《可问责的算法》选段主要提出了对于三类主体的建议:
对于计算机科学家来说,首先应当促进法律和政策的跨学科合作,让法律政策为他们提供有意义的、普遍的、自治的公平理论;其次应当加强事后监督设计,科学家们在设计决策算法时,必须考虑精确度不足以及法院或其他审查者对事后监督的需求。
    计算机科学家的思维定势可能会冲突于法律和公共政策中的模糊性,其模糊性可能来源于立法的政治现实,法律或政策应用中的情形不确定、如何最优解决问题的共有不确定性,为应对这种模糊性,法院可建立事后和追溯监督机制,计算机科学家应创建可审查的算法。
而立法者和政策制定者应当认识并适应算法决策带来的变化。算法决策是机遇与挑战并存的,面对挑战,应当尽力减少模糊性的功能性利益,增加对公众的责任,较之于过去决策过程中部分保密的情况,允许更多方面的问责。
点评环节
    在两位领读人的精彩介绍之后,石丹博士和王旭博士进行了深入点评,带动读书会上同学的思考。
石丹同学对文章做了简要的归纳:前两篇解释了为什么会有偏见,原因包括数据收集上的偏差和算法上的偏见。
    后三篇是分别从可解释、可归责、透明性的角度阐述怎么解决偏见。
(1)可透明性问题上提到了透明的程度,出于平衡社会利益及保护隐私的考量,对不同群体不同算法有不同透明程度,算法的公开实质是有限的公开。
(2)非歧视性和可解释性问题。解释本身可能就要用敏感数据,这会涉及引用敏感数据的程度问题。而在不同的场景下,能够得到一个合理解释即可。可解释性其实是欧洲学者从访问权、被告知权中的引申出的权利。在解释过程中还存在的问题是,用户可能不了解算法,因此解释还是会面临困难,在可解释性问题上,文章中只给出了研究方案,但尚未提供解决方法。
(3)算法责任问题:算法技术是不可能要求监管者事前说出是谁负责,什么情况由谁负责的,因此产生的结果就是事后进行监管。
    随后王旭同学指出算法歧视是对人类现有歧视的加深和扩大学,她带领大家头脑风暴,提出了值得思考的问题: 
    首先是对歧视本身定义的精确和说明,自动化决策范围有多大?当算法可以把相关性揭示出来的时候,是不是可以反向修正歧视。比如之前我们可能不知道因为什么而拒绝某人,但是将来可能会通过算法反向推知是因为特定的歧视。
    其次为什么会产生歧视行为?个人的行为是否导致了算法的歧视选择。
    最后是对外部专家的制度的思考,此处可类比检察院的做法,数据表明,引入量刑辅助系统后被告人选择上诉的可能性更低,这是否说明,我们可以引入外部专家来解决现有的问题,比如利用数字信托将权力外包。
交流环节
        清华的一位老师注意到了文章中用词的谨慎,在文章中使用表示偏差、偏见的“bias”而不是程度更为严重的“discrimination”。算法表现出了差异性,但这些差异并非故意为之,有些算法是特意聚类,这不是算法本身的问题,而是设计者有歧视性的标准。机器学习会使得设计者制定的一些看似无关的标准最终产生了偏向性的结果,我们要认识到,对于算法不可解释性不要过于神化,计算机系统是可解释的,只是我们尚不能理解其精确的路径,还需要进一步探索解释的模型和方法。
        来自清华计算法学专业的同学们则补充了很重要的一点:算法设计者想的并不像我们想象中那么复杂,尽管结果呈现出偏差,但在设计算法的时候是完全不会想到这些问题的,调参是自动化的过程。在法律上被认为是歧视的现象,在算法上可能正是出于公平和效率的考量。也就是说,偏差和歧视可能是算法运行之后产生的非人为可控的结果。从这一点上来说,歧视不可能预防,只能去解决。
        最后,李梦欢同学对领读人和点评人再次表示感谢,结束了这次干货满满的读书会。
供稿:方乐云
封面图片由Gerd Altmann在Pixabay上发布
扫码关注我们
北京大学法学院“法智未来”学生团队

在线QQ咨询,点这里

QQ咨询

微信服务号