未来,高科技创业的趋势是什么?

硅谷最火的高科技创业公司都有哪些?
在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最近几年涌现的热门创业公司。我给大家一个列表,这个是华尔街网站的全世界创业公司融资规模评选。它本来的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到2015年1月17日,现在的排名和规模已经发生了很大的变化。首先估值在10billlon的达到了7家,而一年前一家都没有。第二第一名是中国人家喻户晓的小米,第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比如uber、airbnb、dropbox、pinterest。第四,里面也有不少相似模式成功的,比如flipkart就是印度市场的淘宝,uber与airbnb都是共享经济的范畴。所以大家还是可以在移动(uber),大数据(palantir),消费级互联网,通讯(snapchat),支付(square),o2o app里面寻找下大机会。这里面很多公司我都亲自面试和感受过他们的环境。
有如此之多的高估值公司,是否意味着存在很大的泡沫?
看了那么多高估值公司,很多人都觉得非常疯狂,这是不是很大泡沫了,泡沫是不是要破了,是很多人的疑问。我认为在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去做同样也助长了泡沫,很多项目在几个月的时间就会估值翻2、3倍,如uber、snapchat上我也惊讶于他们的巨额融资规模。那么这张图就是讲“新兴技术炒作”周期,把各类技术按照技术成熟度和期望值分类,在硅谷创业孵化器ycombinator 课程howtostartastartup提到。创新萌芽innovationtrigger”、“期望最顶点peakofinflated expectation”、“下调预期至低点troughofdisillusion”、“回归理想slope ofenlightenment”、“生产率平台plateauof productivity”,越往左,技术约新潮,越处于概念阶段;越往右,技术约成熟,约进入商业化应用,发挥出提高生产率的效果。纵轴代表预期值,人们对于新技术通常会随着认识的深入,预期不断升温,伴之以媒体炒作而到达顶峰;随之因技术瓶颈或其他原因,预期逐渐冷却至低点,但技术技术成熟后,期望又重新上升,重新积累用户,然后就到了可持续增长的健康轨道上来。gartner公司每年发布技术趋势炒作图,gartner's 2014hypecycleforemergingtechnologiesmapsthejourneytodigitalbusiness 今年和去年的图对比显示,物联网、自动驾驶汽车、消费级3d打印、自然语言问答等概念正在处于炒作的顶峰。而大数据已从顶峰滑落,nfc和云计算接近谷底。
未来,高科技创业的趋势是什么?
我先提一个最近看的一部电影《imitation game》,讲计算机逻辑的奠基者艾伦图灵(计算机届最高奖以他命名)艰难的一生,他当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的42岁生命。他的一个伟大贡献就是在人工智能的开拓工作,他提出图灵测试(turing test),测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已经有了很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。在google资深科学家吴军博士(数学之美,浪潮之巅作者),他提出当前技术发展三个趋势,第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没有意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没有太形成规模。他认为未来机器会控制98%的人,而现在我们就要做个选择,怎么成为剩下的2%?李开复在2015年新年展望也提出未来五年物联网带来庞大创业机会。
为什么大数据和机器智能结合的未来一定会到来?
其实在工业革命之前(1820年),世界人均gdp在1800年前的两三千年里基本没有变化,而从1820年到2001年的180年里,世界人均gdp从原来的667美元增长到6049美元。由此足见,工业革命带来的收入增长的确是翻天覆地的。这里面发生了什么,大家可以去思考一下。但人类的进步并没有停止或者说稳步增长,在发明了电力,电脑,互联网,移动互联网,全球年gdp增长 从万分之5到2%,信息也是在急剧增长,根据计算,最近两年的信息量是之前30年的总和,最近10年是远超人类所有之前累计信息量之和。在计算机时代,有个著名的摩尔定律,就是说同样成本每隔18个月晶体管数量会翻倍,反过来同样数量晶体管成本会减半,这个规律已经很好的match了最近30年的发展,并且可以衍生到很多类似的领域:存储,功耗,带宽,像素。而下面这个是冯诺伊曼,20世纪最重要的数学家之一,在现代计算机、博弈论和核武器等诸多领域内有杰出建树的最伟大的科学全才之一。他提出(技术)将会逼近人类历史上的某种本质的奇点,在那之后 全部人类行为都不可能以我们熟悉的面貌继续存在。这就是著名的奇点理论。目前会越来越快指数性增长,美国未来学家ray kurzweil称人类能够在2045年实现数字化永生,他自己也创办奇点大学,相信随着信息技术、无线网、生物、物理等领域的指数级增长,将在2029年实现人工智能,人的寿命也将会在未来15年得到大幅延长。
国外值得关注的大数据公司都有哪些?国内又有哪些?
这是2014年总结的big data公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如hadoop、mahout、hbase、cassandra,我在下面也会涵盖。我可以举几个例子,在分析这一块,cloudera、hortonworks、mapr作为hadoop的三剑客,一些运维领域,mangodb、couchbase都是nosql的代表,作为服务领域aws和google bigquery剑拔弩张,在传统数据库,oracle收购了mysql、db2老牌银行专用,teradata做了多年数据仓库。上面的apps更多,比如社交消费领域google、 amazon、netflix、twitter, 商业智能:sap,gooddata,一些在广告媒体领域:turn,rocketfuel,做智能运维sumologic等等。去年的新星databricks 伴随着spark的浪潮震撼hadoop的生态系统。
对于迅速成长的中国市场,大公司也意味着大数据,bat三家都是对大数据的投入也是不惜余力,我5年前在baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来andrew ng作为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了c++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做pyramid(按google三辆马车打造的金字塔三层分布式系统)有志之士,继续在oceanbase创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了oceanbase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就真破产。
与大数据技术关系最紧密的就是云计算,您曾在amazon云计算部门工作过,能否简单介绍一下亚马逊的redshift框架吗?
本人在amazon 云计算部门工作过,所以还是比较了解aws,总体上成熟度很高,有大量startup都是基于上面开发,比如有名的netflix、pinterest、coursera。amazon还是不断创新,每年召开reinvent大会推广新的云产品和分享成功案例,在这里面我随便说几个,像s3是简单面向对象的存储,dynamodb是对关系型数据库的补充,glacier对冷数据做归档处理,elastic mapreduce直接对mapreduce做打包提供计算服务,ec2就是基础的虚拟主机,datapipeline会提供图形化界面直接串联工作任务。
redshift,它是一种(massivelyparallel computer)架构,是非常方便的数据仓库解决方案,就是sql接口,跟各个云服务无缝连接,最大特点就是快,在tb到pb级别非常好的性能,我在工作中也是直接使用,它还支持不同的硬件平台,如果想速度更快,可以使用ssd的,当然支持容量就小些。
hadoop是现今最流行的大数据技术,在它出现的当时,是什么造成了hadoop的流行?当时hadoop具有哪些设计上的优势?
看hadoop从哪里开始的,不得不提google的先进性,在10多年前,google出了3篇paper论述分布式系统的做法,分别是gfs、mapreduce、bigtable,非常nb的系统,但没人见过,在工业界很多人痒痒的就想按其思想去仿作,当时apachenutch lucene的作者doug cutting也是其中之一,后来他们被yahoo收购,专门成立team去投入做,就是hadoop的开始和大规模发展的地方,之后随着yahoo的衰落,牛人去了facebook、 google,也有成立了cloudera、 hortonworks等大数据公司,把hadoop的实践带到各个硅谷公司。而google还没有停止,又出了新的三辆马车,pregel、caffeine、dremel,后来又有很多步入后尘,开始新一轮开源大战。
为啥hadoop就比较适合做大数据呢?首先扩展很好,直接通过加节点就可以把系统能力提高,它有个重要思想是移动计算而不是移动数据,因为数据的移动是很大的成本需要网络带宽。其次它提出的目标就是利用廉价的普通计算机(硬盘),这样虽然可能不稳定(磁盘坏的几率),但通过系统级别上的容错和冗余达到高可靠性。并且非常灵活,可以使用各种data,二进制,文档型,记录型。使用各种形式(结构化,半结构化,非结构化所谓的schemaless),在按需计算上也是个技巧。
围绕在hadoop周围的有哪些公司和产品?
提到hadoop一般不会说某一个东西,而是指生态系统,在这里面太多交互的组件了,涉及到io,处理,应用,配置,工作流。在真正的工作中,当几个组件互相影响,你头疼的维护才刚刚开始。我也简单说几个:hadoop core就三个hdfs,mapreduce、common,在外围有nosql:cassandra、hbase,有facebook开发的数据仓库hive,有yahoo主力研发的pig工作流语言,有机器学习算法库mahout,工作流管理软件oozie,在很多分布式系统选择master中扮演重要角色的zookeeper。
能否用普通人都能理解的方式解释一下hadoop的工作原理?
我们先说hdfs,所谓hadoop的分布式文件系统,它是能真正做到高强度容错。并且根据locality原理,对连续存储做了优化。简单说就是分配大的数据块,每次连续读整数个。如果让你自己来设计分布式文件系统,在某机器挂掉还能正常访问该怎么做?首先需要有个master作为目录查找(就是namenode),那么数据节点是作为分割好一块块的,同一块数据为了做备份不能放到同一个机器上,否则这台机器挂了,你备份也同样没办法找到。hdfs用一种机架位感知的办法,先把一份拷贝放入同机架上的机器,然后在拷贝一份到其他服务器,也许是不同数据中心的,这样如果某个数据点坏了,就从另一个机架上调用,而同一个机架它们内网连接是非常快的,如果那个机器也坏了,只能从远程去获取。这是一种办法,现在还有基于erasure code本来是用在通信容错领域的办法,可以节约空间又达到容错的目的,大家感兴趣可以去查询。
接着说mapreduce,首先是个编程范式,它的思想是对批量处理的任务,分成两个阶段,所谓的map阶段就是把数据生成key,valuepair, 再排序,中间有一步叫shuffle,把同样的key运输到同一个reducer上面去,而在reducer上,因为同样key已经确保在同一个上,就直接可以做聚合,算出一些sum, 最后把结果输出到hdfs上。对应开发者来说,你需要做的就是编写map和reduce函数,像中间的排序和shuffle网络传输,容错处理,框架已经帮你做好了。
mapreduce模型有什么问题?
第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作map/reduce,这本身就很奇怪,也不能解决所有的情况。
spark从何而来?spark相比于hadoopmapreduce设计上有什么样的优势?
其实spark出现就是为了解决上面的问题。先说一些spark的起源。发自2010年berkeleyamplab,发表在hotcloud 是一个从学术界到工业界的成功典范,也吸引了顶级vc:andreessenhorowitz的注资. 在2013年,这些大牛(berkeley系主任,mit最年轻的助理教授)从berkeley amplab出去成立了databricks,引无数hadoop大佬尽折腰,它是用函数式语言scala编写,spark简单说就是内存计算(包含迭代式计算,dag计算,流式计算 )框架,之前mapreduce因效率低下大家经常嘲笑,而spark的出现让大家很清新。reynod作为spark核心开发者, 介绍spark�...