2017年移动APP开发的11个趋势_励志网

2017年移动APP开发的11个趋势

2017-12-15 16:09 来源:励志网

找到一个固定的数据集(通常很小)。

相反如果区块链促进四个认证实验室共享他们的数据,你就有所有的合法数据,从利用它们你将建立一个分类器(右下)。任何输入的钻石,例如在eBay上看到,将遍历系统,并与分类器中的每一类进行比较。该分类器可以检测真实的欺诈行为,避免误报,从而降低误报率,使保险供应商和认证实验室受益。这可以简单地作为一个查找框,即不需要人工智能。但使用人工智能进一步提高了它,例如基于颜色、克拉预测价格,然后用「价格和价值的接近程度」作为主要欺诈分类器的输入。

机会1:数据共享→更好的模型

在整个星球范围内(公共区块链数据库):考虑不同生态系统之间的数据共享(例如能源使用数据+汽车零部件供应链数据);或个人参与者在一个行星尺度的生态系统(如网络)。更多的数据来源可以改善模型。例如,在中国一些工厂能源使用量的峰值可能与非法汽车零部件花了一天在市场运输有关。总的来说,我们看到公司汇总数据,进行洗白,重新包装并出售的行径;从Bloomberg终端到几十(或几百个)初创企业通过httpAPIs销售数据。我在稍后阐述这一未来。

设计一种算法来提高性能,例如为支持向量机分类器设计一个新的核函数,以提高AUC值。

在讨论这些应用之前,我们先来了解一下区块链与传统大数据的分布式数据库(比如MongoDB)之间的差异。

囤积vs分享?此处的两个相反动机之间有一个紧张关系。一个是囤积数据——即「数据是新护城河」的观点;另一个是共享数据,为了得到更好的/新的模式。分享行为必须要有一个超过「护城河」效益的足够驱动力。技术驱动力是得到更好的模式或新的模式,但这个驱动力必须要有商业价值。可能带来的利益包括降低原材料或供应链中的保险储蓄诈骗;将MechanicalTurk作为赚钱副业;数据/模型交换;或是对抗强大的核心玩家的集体行动,就像唱片公司合力对抗苹果的iTunes一样,等等;它需要创造性的商业策略。

生态系统内:竞争对手(例如,银行或唱片公司)过去永远不会分享他们的数据。但现在可能坦率地展示,结合几个银行的数据,可以做更好的模型以预防信用卡欺诈。或者供应链机构通过区块链共享数据,对供应链中更早地数据使用人工智能,可以更好地确定在供应链中导致失败的根本原因。例如,大肠杆菌的菌株究竟出现在哪里?

此外,最好的算法是最简单的;最糟糕的算法是最花哨的。来自20世纪50年代的无聊的感知器算法正在击败最先进的技术。

大规模的区块链技术解锁了其在人工智能应用上的潜力。从区块链的三点好处开始,我们来探讨一下这些潜力。

(3)允许共享控制人工智能的训练数据和模型。

这里的第二个例子是,去中心化系统中的一个适当的token激励机制(token-incentivescheme)可以激励先前未标记的数据集得到标记,或者是以一个更经济的方式进行标记。这基本上就是去中心化的MechanicalTurk(亚马逊的众包服务平台)。有了新标签,我们就得到了新数据集;我们使用新数据集进行训练以获得新模型。第三个例子是,token激励机制可能会导致来自物联网设备的直接数据输入。这些设备控制数据并可以将其交换为资产,比如能源。同样地,这个新数据可能会带来新模型。

一旦你了解这些动态,具体行动就有了简单的解释。谷歌收购卫星成像公司不是因为它喜欢卫星图像;而谷歌又开放了TensorFlow。

于是收集更多的数据的竞赛开始了。需要大量的努力才能获得好数据。如果你有资源,就可以得到数据。有时甚至可以锁定数据。在这个新世界里,数据是壕沟,人工智能算法是一种商品。出于这些原因,「更多数据」是谷歌、Facebook等公司的关键。

深度学习直接适用于这种情境:如果给定一个足够大的数据集,它能弄清楚如何获取相互影响和潜在变量。有趣的是,如果给予相同的大规模数据集,来自上世纪80年代的反向传播神经网络有时能与最新的技术媲美。参考论文《DeepBigSimpleNeuralNetsExcelonHandwrittenDigitRecognition》。所以说数据才是关键。

数据共享可能发生在一个企业中(如在区域办公室)、一个生态系统内(如一个「财团」数据库)或整个星球(例如共享行星数据库,即公开区块链)。

现代人工智能&数据

根据传统的数据库标准,传统的区块链(如比特币)是糟糕的:低吞吐量、低容量、高延迟、糟糕的查询支持等。但在蓝海思维中,这是可以接受的,因为区块链引入了三个新特性:去中心化/共享控制、不变性/审计跟踪和本地资产/交换。受比特币启发的人们乐于忽视传统的以数据库为主的缺点,因为这些新的好处有可能以全新的方式影响整个行业和社会。

第一个参考点是,在企业界的公共数据管理与重新包装使其更易被消费方面,从简单的天气或网络时间的API,到股票和货币之类的金融数据API,最近已经有一个十亿美元的市场了。想象一下,所有这些数据都可通过一个单一的数据库以一种类似的结构化方式(即使只是一个API的通行证)进行访问。就好像有了1000个彭博社。不用担心受制于某个单一的实体。

机会2:数据共享→新模型

走向现代人工智能&数据

(5)使训练/测试数据和模型成为知识产权(IntellectualProperty/IP)资产,这可以带来去中心化的数据和模型交换。能更好地控制数据的上游使用。

「越多数据,越多财富」——每个人

在我第一篇发表的论文《GeneticProgrammingwithLeastSquaresforFast,PreciseModelingofPolynomialTimeSeries》(1997)中,我自豪地展示了我新发明的算法与最先进的神经网络、遗传编程等相比在最小的固定数据集上有最好的结果。

(2)带来新的定性数据,因此新的定性模型。

但是,世界变化了。2001年,微软研究人员Banko和Brill发表了一篇有着显著成果的论文。首先,他们描述了大多数自然语言处理领域的工作基于小于100万字的小数据集上的情况。在这种情况下,对于旧/无聊/不那么花哨的算法,错误率为25%,如朴素贝叶斯(NaiveBayes)和感知器(Perceptron),而花哨的较新的基于记忆的算法(memory-basedalgorithms)实现了19%的错误率。这是下面最左边的四个数据点。

我们可以将区块链视为「蓝海」数据库:它们逃离了现有市场上有鲨鱼竞争的「红海」,而是没有市场竞争的蓝海。蓝海的著名例子是视频游戏主机Wii(妥协了原始性能,但添加了新的互动模式),或YellowTail葡萄酒(忽略了葡萄酒爱好者矫揉造作的繁复规范,使葡萄酒更容易被啤酒爱好者接受)。

到目前为止,还没有什么让人惊讶的。但是,Banko和Brill揭示了一些不同寻常的东西:当你添加更多的数据——不仅仅是一点数据,而是多达数倍的数据——并保持算法相同,那么错误率会持续下降很多。到数据集大到三个数量级时,误差小于5%。在许多领域,这是18%到5%之间的差异,但是只有后者对于实际应用是足够好的。

总之:去中心化/共享控制能促进数据共享,这反过来又带来更好的模型、更高的利润/更低的成本/等。阐述如下:

本地资产/交换:

在这里,我将描述现代人工智能为了产生好的结果是怎样利用大量数据的。(虽然不总是这样,但它很常见并值得描述。)

这里有一个用于识别钻石欺诈例子。如果你是一家提供钻石保险的银行,你想开发一个识别钻石是否欺诈的分类器。在地球上有四个值得信赖的钻石认证实验室(当然取决于你问谁)。如果你只能访问其中一个实验室的钻石数据,那么你就看不到其他三家的数据,你的分类器可能很容易把其他家的钻石标记为欺诈(见下图,左)。你的误报率会使你的系统不可用。

当我在90年代开始做人工智能研究时,一个典型的方法是:

#p#分页标题#e#但是如果有足够的正面效益,区块链鼓励传统的独立体间数据共享。区块链的去中心化本质鼓励数据共享:如果没有单一的实体控制存储数据的基础设施,共享就会有更少的冲突。之后我会举出更多好处。

这就像原子弹一样冲击了人工智能领域。

那么,当我们有一个行星尺度的、像IPDB那样的数据库共享服务,或是怎样一番景象?我们有几个参考点。

区块链技术同样能够变革人工智能——当然以它自己的特定方式进行。部分将区块链用于人工智能方式目前还很单一,比如在人工智能模型上进行审计跟踪(audittrail)。有些应用几乎是难以置信的,比如拥有自己的人工智能——人工智能去中心化自治组织(AIDAO)。这些都是发展的机会。这篇文章将具体探讨这些应用。

#p#分页标题#e#如果这听起来很学术,那是因为它本身就很学术。大多数人工智能工作仍然在学术界,虽然有实际的应用场景。在我的经验中,许多人工智能子领域中都是这样的,包括神经网络、模糊系统(fuzzysystem)、进化计算(evolutionarycomputation),甚至不那么人工智能的技术,如非线性规划或凸优化。

敌人们共享他们的数据来喂养一个人工智能。2016多么有趣!

整个星球层面的数据共享可能是最有趣的。让我们进一步深入这个问题。

「传统」人工智能&数据的历史

#p#分页标题#e#中心化vs去中心化?即使一些组织选择分享数据,他们也可以在无需区块链技术的情况下这样做。例如,他们可以简单地将其囤入S3实例中并提供出API。但在某些情况下,去中心化带来了新的好处。首先是基础设施的直接共享,这样共享联盟中的任一组织就不会自己控制所有的「共享数据」。(这在几年前是一个主要的障碍,那时唱片公司尝试过为一个公共注册系统而合作。)另一个好处是让数据&模型转变为资产变得更加容易,然后这样可以进行外部授权以获利。我下文会详细阐述这一点。

许多这些机会是关于人工智能与数据的特殊关系。让我们先来探讨一下。在此之后,我们将更详细地探讨区块链在人工智能领域的应用。

机会2A:行星层次的新数据→行星层次的新见解

还有一个机会:(6)人工智能与区块链解锁人工智能去中心化自治组织(AIDAO/DecentralizedAutonomousOrganizations)的可能性。这些人工智能可以积累财富。在很大程度上,它们就是软件即服务(Software-as-a-Service)。

在某些情况下,当独立的数据被合并,你不只是得到一个更好的数据集,还得到一个新的数据集。这能带来全新的模型,从中你可以收集新的见解、进行新的业务应用。也就是说,你可以做一些你以前不能做的事情。

(4)为训练/测试数据和模型提供了保证,提高数据和模型的可信度。数据也需要声誉。

区块链还可以以更多的方式帮助人工智能。反过来,人工智能可以有许多方法帮助区块链,如挖掘区块链数据(例如SilkRoad调查)。这是另外的讨论话题:)

IPDB是全球范围的结构化数据,而不是零碎的。将万维网视为互联网上的文件系统;IPDB是其数据库副本。(我认为我们没有看到更多相关工作的原因,在于语义上的Web工作试图以升级文件系统的角度去实现它。但通过「升级」文件系统来建立数据库是相当困难的!如果从一开始就说你正在建立一个数据库并设计它之类的话,这样更有效果。)「全局变量(Globalvariable)」会得到更加字面上的解释:)(注:global也有「全球」的意思)

第二个参考点来自于区块链,即通过一个区块链来「oraclize」外部数据使其易于消费的概念。但我们可以oraclize一切。去中心化的彭博社只是开始。

在会议或期刊上发表该算法。「最小可发表的改进程度」只需要相对提高10%,只要你的算法本身足够花哨。如果你的提高程度在2倍-10倍之间,你可以发表到该领域最好的期刊了,特别是如果算法真的很花哨(复杂)的话。

下面给出了每个对应的例子:

人工智能热衷数据。数据越多,模型越好。然而,数据往往是孤立的,尤其是在这个新世界里,数据可能是难以逾越的鸿沟。

总体而言,我们得到了数据集与数据源多样性的一个全新规模。因此从性质上讲,我们有了新数据。行星层次的结构化数据。由此从性质上讲,我们可以建立新的模型,使得之前没有联系的输入&输出之间产生关联。有了模型,我们将获得性质上的新见解。

如前所述,数据&模型共享会发生在三个层次:在一家企业内部(跨国公司的情况比你想象的要难);在一个生态系统或联合体中;或在这个星球中(相当于成为一个公用事业)。让我们更深入地探索这个行星尺度的分享吧。

去中心化/共享控制激励了数据共享:

这些区块链的好处为人工智能实践者带来了以下机会:

不变性/审计跟踪:

这三个新的「区块链」数据库特征对于人工智能应用也有潜在的借鉴意义。但是大多数实际的人工智能工作涉及大量的数据,如大数据集训练或高吞吐量流处理(streamprocessing)。因此,对于区块链在人工智能领域的应用,需要具有大数据可扩展性和查询的区块链技术。像BigchainDB这样的新兴技术及其公共网络IPDB(InternetPinballMachineDatabase)正是如此。这使得获得区块链的好处时不再需要舍弃传统的大数据数据库的优点。

Banko和Brill并不是唯一发现这个规律的人。例如,在2007年,谷歌研究人员Halevy、Norvig和Pereira发表了一篇文章,显示数据可以如何「不合理地有效」跨越许多人工智能领域。

还会有一个Bot角度的。我们一直假定区块链API的主要消费者会是人类。但如果是机器呢?现代DNS的创造者DavidHoltzman最近说,「IPDB是人工智能的饲料(kibbles)」。分析一下,这是由于IPDB实现并鼓励了行星层次的数据共享,而人工智能实在是很喜欢吃数据。

作为蓝海数据库的区块链(blockchain)

>>科技买手,全网尖儿货打折/特卖推荐平台近年,从围棋到人类水平的语音识别,人工智能(AI)研究者终于在他们几十年一直努力探索的领域取得了突破。取得突破进展的关键一点是研究者们可以收集巨量的数据并「学习」这些数据,从而将错误率降低到可接受范围以内。

简而言之,大数据大为改观了人工智能的发展,将其推到一个几乎难以置信的高度。

我希望此处可以说得更具体一些,但是它太新了,我想不出任何例子。不过,它们会出现的!

(1)带来更多的数据,因此可以训练出更好的模型。

机会3:数据&模型中的审计跟踪使预测结果更加值得信赖

数据才是关键!

人工智能区块链的概述

作为一个人工智能研究员我自己成熟的年龄是类似的。当我遇到现实世界的问题时,我学会了如何吞下我的骄傲,放弃「炫酷」的算法,仅仅满足能够解决手头上问题,并学会了热爱数据和规模。我们将重心从自动化的创意设计转向了「无聊」的参数优化;同时当用户要求我们从10个变量增加到1000和变量时,我们在匆忙应对中变得不那么无聊——我的第一家公司ADA(1998–2004)的情况就是这样。我们将重心从华丽的建模方法转移到超级简单但可完全扩展的机器学习算法(如FFX);当用户要求从100个变量增加到100000个,从100亿蒙特卡洛样本增加到10亿(有效样本),我们同样不无聊——这发生在我的第二家公司Solido(2004—至今)。即使是我第三家也是目前的公司的产品BigchainDB,也体现了对规模的需要(2013—至今)。扩展功能,扩大规模。

企业内:使用区块链技术来合并来自不同区域办公室的数据,因为它能降低企业审核自己数据的成本,并和审计员共享数据。随着新的数据到位,企业可以建立人工智能模型,例如,相比以前只建立在区域办公室水平的模型,新模型能更好地预测客户流失的模型。每个区域办公室的「数据集市」?

责编: