余超颖又一个WordPress站点

浏览: 519

【视频】Facebook” 机器学习算法重构威尼斯千年历史,成为“谷歌和-算法与数学之美 选自:新智元计算机科学家、瑞士联邦理工学院数字人文科学实验室主任Frédéric Kaplan正进行“威尼斯时间机器”项目。它将能扫描地图、专著、手稿和乐谱等大量文件,还能将威尼斯历史以动态数字化形式传承以再现辉煌的共和国时代风貌。“威尼斯时间机器”有望为世界各地学者揭露威尼斯隐藏的历史,并为研究人员搜索和交叉引用参考文献。今天我们要介绍的科研项目——威尼斯时间机器,将让历史学家拥有从现今(上图右)穿越


【视频】Facebook” 机器学习算法重构威尼斯千年历史,成为“谷歌和-算法与数学之美


选自:新智元
计算机科学家、瑞士联邦理工学院数字人文科学实验室主任Frédéric Kaplan正进行“威尼斯时间机器”项目。它将能扫描地图、专著、手稿和乐谱等大量文件,还能将威尼斯历史以动态数字化形式传承以再现辉煌的共和国时代风貌。“威尼斯时间机器”有望为世界各地学者揭露威尼斯隐藏的历史,并为研究人员搜索和交叉引用参考文献。

今天我们要介绍的科研项目——威尼斯时间机器,将让历史学家拥有从现今(上图右)穿越到 18 世纪(上图左)威尼斯的能力。
计算机科学家、瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 想要将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),它将能扫描地图、专著、手稿和乐谱等大量文件。Kaplan 希望“威尼斯时间机器”不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。
如果这个项目成功贺兰敏月,将为整个欧洲历史文化和商业研究做出巨大的贡献,或能以前所未有的细节揭示整个欧洲大陆当时的社会网络、贸易和知识发展的历史。Kaplan 表示,“威尼斯时间机器”将成为供几个世纪以后的人使用的谷歌和 Facebook。

圣方济会荣耀圣母圣殿里存储的各种手稿和史册资料。它们将全部被输入“威尼斯时间机器”朽木响河 ,用于构建一个供几个世纪以后的人使用的谷歌和 Facebook。圣方济会荣耀圣母圣殿是威尼斯最大的教堂之一,具有次级宗座圣殿的地位。这座天主教堂位于圣波罗区的核心,敬奉圣母升天为主保圣人。图片来源:Nature
威尼斯时间机器的诞生龙门汤温泉,得益于机器学习技术的进步。这个项目成功的关键,也在于机器学习技术。
单纯扫描手稿、文献将其数字化的科研项目已有很多,令威尼斯时间机器脱颖而出的,是其规模和这个项目预计使用的新技术。据 Kaplan 介绍,他计划使用最先进的扫描仪,有些甚至可以在不打开书籍的情况下,读取书中纸页上的内容。此外,还有先进的机器学习算法,将手写文档转换成可被搜索和引用的数字文档。
威尼斯有着深厚悠久的历史,这些历史被一代代人整理和记录了下来。最重要的是,虽然几经动荡,这些记录都比较完好地保存了下来,最早从公元前 5 世纪开始邸怎么读。1797 年,拿破仑结束了威尼斯的共和国时代,1815 年,圣方济会荣耀圣母圣殿变为威尼斯国家档案馆(State Archives of Venice)。在接下来的几十年中,所有国家的行政文件,包括死亡登记册,医疗记录,公证记录,地图和建筑图案,专利注册和其他文件都陆续转移到这里。这些档案大多以拉丁文或威尼斯方言写就,有些从来没有被现代历史学家阅读过。
现在,根据 Kaplan 的计划,这些海量的文献将被系统化地送入威尼斯时间机器,和其他更多非常规数据来源一起,以更形象的形式,比如绘画和旅行者日志的形式呈现出来。
威尼斯时代机器这个项目始于 2012 年,实际上,在此之前,威尼斯国家档案馆就有相关的数字化项目,由意大利文化遗产部资助。威尼斯时代机器大幅推进了相关的过程,引进了专门设计的先进的高速扫描仪易派客,包括一个负责翻页的机械臂,以及一个 2 米宽转盘的旋转扫描仪,能够同时扫描多个 A3 尺寸的文档。这些扫描仪现在每小时生成 TB 级的数千幅用于长期存储的高清图像。这些数据还会被传到洛桑,那里有高性能计算机,专门将图像转换为数字文本,以便进行注释。
自动识别手稿是一个重大的技术挑战。因为手写的字符,比如个人信件上的文字形状可能有很大差异,并且随着时间的推移可以演变。欧盟专门有一个项目,叫做 READ(Recognition and Enrichment of Archival Documents),在制定各种解决方法。
Kaplan 也是 READ 的成员之一丁若镛,他在威尼斯时代机器这个项目里采用的首选方式,就是利用机器学习来识别整个单词的形状赢渠梁。
机器学习依靠算法,能修改规则和行为,根据从数据集中获取的示例,不断更新提高性能。威尼斯时间机器的算法旨在分析书面文本的结构,并提取看起来类似的图形形状,并将形状与结构联系起来。这让用户能在一份文档中找到一个名称,然后让系统显示数据库中所有其他手稿中出现相同名称的位置。
Nature 的一篇特稿详细介绍了威尼斯时间机器项目,包括 Kaplan 致力于将人工智能用于人文研究的经历。
我们可以看 Nature 特稿中给出的这幅图,形象地展示了机器学习算法重构可搜索数据库的过程。

首先,机械臂负责翻书,牛牧童扫描仪将图像扫描下来。同时落跑吧爱情,还有断层扫描技术,能够在不翻开书本的情况下,将书页上的内容扫描下来。这一概念基于医学中使用的计算机断层扫描技术(CT),CT 以不同角度拍摄的 X 射线图像共和国战争,逐层地建立人体内部的 3D 图像。EPFL 的科学家正在研究古代墨水的组成成分,从而找出可以用作 X 射线造影剂的分子。断层扫描仪扫描书籍的速度更快,质量更高仙傲九霄,扫描时对文物造成的损害也较小。
然后,算法将扫描的图像转换为数字文本岳西天气预报。同一个词(比如人物、地方、商标)会被标记出来,还有这个词在其他不同地方出现的情况。
相关数据综合在一起,构成一个覆盖时间和空间的社交网络。

高质量延伸阅读
?第一个被认为“科学家”的人:泰勒斯
? 数学思维比数学运算更重要
? 二十世纪的十大科学骗局
? 瞎扯现代数学的基础
? x背后的轶闻趣事
? 主宰这个世界的10大算法
? 16个让你烧脑让你晕的悖论
? 机器学习中距离和相似性度量方法
? 传说中的快排是怎样的
?什么是硬盘 玻璃秘史:一个人 改变了全世界
张谒之? 程序人生的四个象限和两条主线
? 比特币的原理及运作机制
? 概率论公式,你值得拥有
? 分类算法之朴素贝叶斯算法
? 采样定理:有限个点构建出整个函数

全文详见:https://6596.org/15097.html

TOP