读普林斯顿计算机公开课12数据

发布时间:2026/7/4 4:39:30

读普林斯顿计算机公开课12数据 1. 数据1.1. 用电脑、手机或信用卡做的几乎每一件事都会产生有关你的数据1.1.1. 数据被仔细收集、分析、永久保存并经常被出售给那些你对其一无所知的机构1.1.2. 大多数数据不是为我们所用的而是关于我们自己的1.1.3. 数据越多陌生人对我们的了解就越多我们的隐私和安全也就越少1.2. 单位1.2.1. 艾字节(exabytes10^18)1.2.2. 泽字节(zettabytes10^21)1.2.3. yottabytes(10^24)1.2.3.1. yotta是国际单位制(SI)中最大的前缀1.3. 数据挖掘是从所有大数据中寻找潜在有价值的信息和洞见的过程1.3.1. 数据的大部分价值体现在与其他数据结合以提供新的洞见1.4. 数据科学是一个跨学科的领域它应用统计学、机器学习和其他技术来理解数据试图从中提取意义并基于数据进行预测1.4.1. 数据科学家就是从事这些工作的人他们有望在这样一个时髦而重要的工作领域得到丰厚的报酬1.5. 机器学习的广泛使用引发了人们对数据推论的严重担忧这些推论可能支持种族主义、歧视和其他伦理问题1.5.1. 人们很容易认为机器学习是一种客观的指导但在许多情况下它的结论只是用一种权威的外衣掩盖了隐性的偏见1.6. 完全隐形或完全安全是不可能的但你可以更好地保护自己的个人隐私和并显著提高安全性1.6.1. 经常带着随时都知道我们在哪的手机四处走动1.6.2. 我们的汽车知道我们在哪里并将信息传递给其他人1.6.3. 无处不在的摄像头也知道我们的车在哪里1.6.4. 像联网恒温器、安全系统和智能电器这样的家庭系统会监视我们的一举一动知道我们是否在家以及我们在家时都做了些什么1.7. 垃圾邮件、欺诈、间谍软件、病毒、追踪、监视、冒名顶替以及泄漏你的隐私信息甚至遗失财产种种不幸都会接踵而来1.7.1. 小心谨慎才是明智之举2. 邮件2.1. ProtonMail2.1.1. 承诺保护隐私它选择把总部设在瑞士当然是为了忽略来自其他国家的获取信息的请求2.1.2. 任何公司都可能发现自己受到政府机构和商业金融压力的挤压无论它在哪里3. 搜索3.1. 网页搜索开始于1995年3.1.1. 搜索是个大产业它从无到有短短不到20年就成为一个主要的产业3.2. 谷歌公司的谢尔盖·布林和拉里·佩奇于1998年初发表了论文“大规模超文本网络搜索引擎剖析(The anatomy of a large-scale hypertextual web search engine)”​3.2.1. 谷歌它成立于1998年上市于2004年到2020年秋季市值已经达到1万亿美元3.3. 互联网实在太大了每个用户在查询时不可能开启一个对整个Web的新搜索3.4. 搜索引擎的主要任务就是为满足查询需求事先把所有页面信息有组织地保存在服务器上3.5. 关键问题是规模太大3.5.1. 谷歌以前总会公布它为构建索引抓取了多少多少页面但在这个数字超过100亿之后就不再公布了3.5.2. 如果一个网页平均100KB大小那么存储1000亿页面就要占用10拍字节的磁盘空间3.6. 最初的搜索引擎只会显示一个包含搜索关键词的页面列表而随着页面数量的增长搜索结果中就会混入大量无关页面3.7. 搜索引擎的广告模式说到底就是搜索引擎公司对搜索词进行实时拍卖广告客户出价购买的是在特定关键词的搜索结果旁边显示广告的权利并且当浏览者点击广告时提供广告的搜索引擎公司就会赚钱3.8. 一种可能的偏见形式是名义上中立的广告结果根据可能的种族、宗教或民族特征对特定群体产生微妙的偏见4. 跟踪4.1. 广告的定位越准确就越有可能引起观众的积极回应4.2. 个人信息被收集是不可避免的做任何事都很难不留下痕迹4.3. 网络bug(web bugs)或网络信标(web beacons)4.3.1. 图片是1像素宽1像素高并且是透明的所以它是完全不可见的4.3.2. 它们唯一的目的就是跟踪4.4. 浏览器允许你完全关闭cookie或者禁用第三方cookie4.5. 隐私浏览或隐身模式是一种客户端机制它告诉浏览器在会话终止时清除历史记录、cookie和其他浏览数据4.5.1. 这会阻止你电脑的其他用户知道你曾做过什么但它不会影响你去过的地方的足迹这些地方很有可能再次认出你4.5.2. 一些网站如果发现你在使用隐身模式就会拒绝提供内容4.6. 防御机制在不同的浏览器之间甚至在同一浏览器的不同版本之间都不是标准化的通常默认设置为不进行防御4.7. 浏览器指纹识别(browser fingerprinting)使用浏览器的个人特征来识别你通常是唯一的不需要cookie4.7.1. 使用HTML5中的新功能一种称为画布指纹的技术可以看到单个浏览器如何渲染特定的字符序列4.7.2. 不管用户的cookie设置如何只需少量的这些识别信号就足以区分和识别个人用户4.7.3. 广告商和其他组织希望对个人进行精确识别无论他们是否禁用cookie4.8. 并不是只有浏览器可以跟踪用户邮件阅读器以及其他系统也可以4.9. 深度包检测4.9.1. 可以用于有效的目的比如清除恶意软件4.9.2. 也可以用来更好地进行定向广告或者监控或干预进出一个国家的通信4.9.3. 防御深度包检测的唯一措施是使用HTTPS的端到端加密它能保护内容在传播过程中不受检查和修改但它不隐藏来自源端以及目的端那样的元数据5. 社交网络5.1. 追踪我们访问的网站并不是收集我们信息的唯一方法5.1.1. 可以从社交网络用户免费提供的信息中做出推断5.2. 社交网络的用户可以说是自愿放弃了大量的个人隐私以换取娱乐以及与他人保持联系5.3. 搜索引擎和社交网络提供了有用的服务而且是免费的5.4. 地理定位服务会在手机上显示用户的位置能够为和朋友见面或者玩基于位置的游戏提供方便5.5. 位置隐私(location privacy)即让自己位置信息保密的权利在很多系统中并没有得到保障比如信用卡支付系统、高速公路和公共交通刷卡收费系统当然还有手机5.6. 手机应用程序是最恶劣的侵犯者通常会要求获取关于你的基本所有信息包括通话数据、物理位置等5.6.1. 一个手电筒应用程序真的需要我的位置、联系人和通话记录吗6. 数据挖掘6.1. 有些信息明显就是公开的还有些信息收集起来就是为了供人搜索和索引的6.2. 一旦上了网信息很可能永远在网上6.3. 查询日志包含了对经营业务和改进服务有价值的信息但很明显其中可能包含敏感的个人信息6.4. 人们很容易相信没有人能解开某些秘密因为他们知道的不够多6.5. 公众对数据收集程度的认识尽管还远远不够正在提高7. 云计算7.1. cloud computing7.2. 纵观技术发展史一个明显不如前一代产品完善的新产品从更完善的老产品那抢夺用户逐渐将其挤出市场这样的事例俯拾皆是7.3. 把因特网比喻成了不会固定在某个地理位置的“云”​而信息都保存在“云端”7.4. 数据不是保存在本地而是保存在云上7.4.1. 就是保存在服务提供商的服务器上7.5. 原先必须依靠独立的软件才能处理好的大部分用户交互功能现在通过浏览器就可以搞定而且可以把大量数据保存在服务器上并进行任何繁重的计算7.6. 云计算可以在执行计算的位置与处理期间信息驻留的位置之间进行权衡

相关新闻