博舍

人工智能、大数据、数据挖掘、机器学习 人工智能大数据在线预测彩票app

人工智能、大数据、数据挖掘、机器学习

一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。

二、先来回答大家两个问题:

问题1:博客里所所涉及到的数据在哪里拿?

后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。

问题2:想学习机器学习,不知道数据怎么来?

要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。

三、以下是收集到的链接

大数据

https://delicious.com/pskomoroch/datasethttp://stackoverflow.com/questions/10843892/download-large-data-for-hadoophttp://konect.uni-koblenz.de/

搜狗实验室

http://www.sogou.com/labs/resources.html?v=1

气象数据集

https://www.ncdc.noaa.gov/data-access/quick-links

气候监测数据集

http://cdiac.ornl.gov/ftp/ndp026b

机器学习

亚马逊网络服务数据

http://aws.amazon.com/datasets

航空公司数据(2009年ASA挑战)

http://stat-computing.org/dataexpo/2009/the-data.html

澳大利亚天气

http://www.bom.gov.au/climate/dwo/

因果关系工作台

http://www.causality.inf.ethz.ch/repository.php

Kaggle竞争数据

https://www.kaggle.com/datasets

KDNuggets竞争网站

www.kdnuggets.com/datasets/

机器学习的数据集存储库

http://mldata.org/

医疗保险数据文件

http://go.cms.gov/19xxPN4

微软研究院

http://research.microsoft.com/apps/dp/dl/downloads.aspx

百万歌曲数据集

http://blog.echonest.com/post/3639160982/million-song-dataset

歌曲数据集

http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets

RDataMining.comR和数据挖掘电子书数据

http://www.rdatamining.com/data

革命分析集合

http://www.revolutionanalytics.com/subscriptions/datasets/

社交网络

http://www.cs.cmu.edu//ancestry.com/~jelsas/数据

UCI机器学习库

http://archive.ics.uci.edu/ml/

535亿点击

http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset

http://archive.ics.uci.edu/ml/

http://www.ics.uci.edu/~mlearn//MLRepository.htm

机器学习样本数据库

http://kdd.ics.uci.edu/

http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站

http://www.gotofund.com/index.asp

数据生成器的链接

http://www.cse.cuhk.edu.hk/~kdd/data_collection.html

癌症基因

http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

网络

斯坦福大学大型网络数据收集

http://snap.stanford.edu/data/

微软匿名网络数据

http://kdd.ics.uci.edu/databases/msweb/msweb.html

MSNBC匿名网络数据

http://kdd.ics.uci.edu/databases/msnbc/msnbc.html

SyskillWebertWeb数据

http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html

图像

ImageNet(包含1400万的图像)

http://www.image-net.org/

TinyImagesDataset(包含8000万的32x32图像)

http://horatio.cs.nyu.edu/mit/tiny/data/index.html

MirFlickr1M(包含100万的图像)

http://press.liacs.nl/mirflickr/

CoPhIR(包含1亿600万的图像)

http://cophir.isti.cnr.it/whatis.html

SBUcaptionedphotodataset(包含100万的图像)

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Large-ScaleImageAnnotationusingVisualSynset(ICCV2011)(包含2亿图像)

http://cpl.cc.gatech.edu/projects/VisualSynset/

NUS-WIDE(包含27万的图像)

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

SUNdataset(包含13万的图像)

http://people.csail.mit.edu/jxiao/SUN/

MSRA-MM(包含100万的图像,23000视频)

http://research.microsoft.com/enus/projects/msrammdata/

TRECVID

http://trecvid.nist.gov/

卡耐基-梅隆的脸图片

http://kdd.ics.uci.edu/databases/faces/faces.html

金星上的火山

http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html

雅虎发布超大Flickr数据集1亿的图片+视频

http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

100多个有趣的数据集

http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics

图像处理相关个人主页、研究组及公开数据集网址

http://blog.sciencenet.cn/blog-673472-759786.html

PublicDomainCollections

Data360

http://www.data360.org/index.aspx

Datamob.org

http://datamob.org/datasets

Factual

http://www.factual.com/topics/browse

Freebase

http://www.freebase.com/

Google

http://www.google.com/publicdata/directory

infochimps:http://www.infochimps.com/

numbray

http://numbrary.com/

Quora

https://www.quora.com/Data/Where-can-I-find-large-datasets-open-to-the-public

RSCollection100+

http://rs.io/2014/05/29/list-of-data-sets.html

SampleRdatasets

http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html

SourceForge研究数据

http://www.nd.edu/oss/数据/研究司

StatSci.org

http://www.statsci.org/datasets.html

UFO报告

http://www.nuforc.org/webreports.html

维基解密911寻呼机截取

http://911.wikileaks.org/files/index.html

Stats4Stem.org:R数据集

http://www.stats4stem.org/data-sets.html

《华盛顿邮报》名单

http://www.washingtonpost.com/wp-srv/metro/data/datapost.html

科学

农业实验

http://www.insider.org/packages/cran/agridat/docs/agridat

气候数据

http://www.cru.uea.ac.uk/cru/data/temperature/#datter

andftp://ftp.cmdl.noaa.gov/

GeneExpressionOmnibus

http://www.ncbi.nlm.nih.gov/geo/

GeoSpatialData

http://geodacenter.asu.edu/datalist/

HumanMicrobiomeProject

http://www.hmpdacc.org/reference_genomes/reference_genomes.php

MITCancerGenomicsData

http://www.broadinstitute.org/cgibin/cancer/datasets.cgi

NASA

http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html

NIHMicroarraydata

ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/®

Proteinstructure

http://www.infobiotic.net/PSPbenchmarks/

PublicGeneData

http://www.pubgene.org/

斯坦福大学的微阵列数据

http://smd.stanford.edu/

社会科学

综合社会调查

http://www3.norc.org/GSS+网站/

ICPSR

http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp

皮尤研究

http://www.pewinternet.org/datasets/pages/2/

加州大学洛杉矶分校的社会科学档案

http://dataarchives.ss.ucla.edu/Home.DataPortals.html

UPJOHN本月

http://www.upjohn.org/erdc/erdc.html

时间序列

时间序列数据库

http://robjhyndman.com/TSDL/

澳大利亚手语数据

http://kdd.ics.uci.edu/databases/auslan/auslan.html

高质量的澳大利亚手语数据

http://kdd.ics.uci.edu/databases/auslan2/auslan.html

脑电图数据

http://kdd.ics.uci.edu/databases/eeg/eeg.html

日本的元音

http://kdd.ics.uci.edu/databases/JapaneseVowels/JapaneseVowels.html

Pioneer-1移动机器人数据

http://kdd.ics.uci.edu/databases/pioneer/pioneer.html

伪周期合成时间序列

http://kdd.ics.uci.edu/databases/synthetic/synthetic.html

合成控制图时间序列

http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.html

大学

卡内基梅隆大学安然电子邮件

http://www.cs.cmu.edu/~安然/

卡内基梅隆大学StatLab

http://lib.stat.cmu.edu/datasets/

龙骨存储库

http://sci2s.ugr.es/keel/datasets.php

卡内基梅隆大学JASA数据归档

http://lib.stat.cmu.edu/jasadata/

俄亥俄州立大学财务数据

http://fisher.osu.edu/fin/osudata.htm

加州大学伯克利分校

http://ucdata.berkeley.edu/

加州大学洛杉矶分校

http://aws.amazon.com/datasets

加州大学河滨分校时间序列

http://www.cs.ucr.edu//time_series_data/

多伦多大学

http://www.cs.toronto.edu/深入/数据/datasets.html

UCI知识发现(KDD)归档

http://kdd.ics.uci.edu/

信息和计算机科学

http://www.ics.uci.edu/

加州大学欧文分校

https://uci.edu/

互联网相关数据集

Datasetfor“StatisticsandSocialNetworkofYouTubeVideos”

http://netsg.cs.sfu.ca/youtubedata/

1998WorldCupWebSiteAccessLogs

http://ita.ee.lbl.gov/html/contrib/WorldCup.html

(从1998/04/26到1998/07/26的92天中,发生了1,352,804,107次请求)

PageviewstatisticsforWikimediaprojects

http://dammit.lt/wikistats/

AOLSearchQueryLogs-RP

http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

livedoorgourmet

http://blog.livedoor.jp/techblog/archives/65836960.html

离散序列数据

UNIX用户数据

http://kdd.ics.uci.edu/databases/UNIX_user_data/UNIX_user_data.html

主菜芝加哥推荐数据

http://kdd.ics.uci.edu/databases/entree/entree.html

多元数据

人口收入调查数据库

http://kdd.ics.uci.edu/databases/census-income/census-income.html

线圈数据

http://kdd.ics.uci.edu/databases/coil/coil.html

Corel图像特征

http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html

森林CoverType

http://kdd.ics.uci.edu/databases/covertype/covertype.html

保险公司基准(2000卷)

http://kdd.ics.uci.edu/databases/tic/tic.html

互联网使用数据

http://kdd.ics.uci.edu/databases/internet_usage/internet_usage.html

IPUMS人口普查数据

http://kdd.ics.uci.edu/databases/ipums/ipums.html

KDDCUP1998数据

http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html

KDDCUP1999数据

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

1990年美国人口普查数据

http://kdd.ics.uci.edu/databases/census1990/USCensus1990.html

关系数据

大肠杆菌基因

http://kdd.ics.uci.edu/databases/ecoli/ecoli.html

结核分枝杆菌基因

http://kdd.ics.uci.edu/databases/tb/tb.html

电影

http://kdd.ics.uci.edu/databases/movies/movies.html

MovieLens数据集

http://datahub.io/dataset/movielens

厄尔尼诺现象的数据

http://kdd.ics.uci.edu/databases/el_nino/el_nino.html

文本

20新闻组数据

http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html

路透社-21578文本分类收集

http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html

路透转录子集

http://kdd.ics.uci.edu/databases/reuters_transcribed/reuters_transcribed.html

摘要1990-2003年NSF研究奖项

http://kdd.ics.uci.edu/databases/nsfabs/nsfawards.html

其他

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html

http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog

http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.web-caching.com/traces-logs.html

http://www-2.cs.cmu.edu/webkb

http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf

http://www.cs.cornell.edu/projects/kddcup/index.html

AI人工智能三要素:数据、算力和算法

人工智能这两年的火爆大家有目共睹,取得的一些技术进步大家想必也有所耳闻。这里就来谈谈人工智能的三要素:数据、算力和算法。

首先,这三要素缺一不可,都是人工智能取得如此成就的必备条件。如果非要给这三者排个序的话,我认为应该是数据、算力和算法。

第一是数据。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,那必须经过不断地训练才能获得,而且有熟能生巧之说。AI也是如此,只有经过大量的训练,神经网络才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,则网络会基本处于瞎猜状态,正确率可想而知。比如需要识别勺子,但训练集中勺子总和碗一起出现,网络很可能学到的是碗的特征,如果新的图片只有碗,没有勺子,依然很可能被分类为勺子。因此,对于AI而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现良好的模型,看起来更智能。

第二是算力。有了数据之后,需要进行训练,不断地训练。AI中有一个术语叫epoch,意思是把训练集翻过来、调过去训练多少轮。只把训练集从头到尾训练一遍网络是学不好的,就像和小孩说一个道理,一遍肯定学不会,过目不忘那就是神童了,不过我至今还没见到过。当然,除了训练(train),AI实际需要运行在硬件上,也需要推理(inference),这些都需要算力的支撑。

第三是算法。其实大家现在算法谈得很多,也显得很高端,但其实某种程度上来说算法是获取成本最低的。现在有很多不错的paper,开源的网络代码,各种AutoML自动化手段,使得算法的门槛越来越低。另外提一点,算法这块其实是创业公司比较容易的切入点,数据很多人会觉得low,会认为就是打打标签而已,所以愿意做的不多;算力需要芯片支撑,是大公司争夺的主要阵地,留下的只有算法了。

不过,如果想做一个非常成功的AI应用,这三者都需要具备,所谓天时地利人和。

 

联系我:guanxs_ai@126.com

微信公众号:

收藏!《2023年中国人工智能企业大数据全景图谱》(附企业数量、投融资、专利信息和风险信息等)

当前位置:前瞻产业研究院»经济学人»研究员专栏收藏!《2022年中国人工智能企业大数据全景图谱》(附企业数量、投融资、专利信息和风险信息等)UVc分享到:夏才艳•2022-05-1514:00:15来源:前瞻产业研究院E21648G02023-2028年中国人工智能行业发展前景预测与投资战略规划分析报告2023-2028年全球人工智能芯片(AI芯片)行业市场调研与发展前景研究报告2023-2028年中国大数据产业发展前景与投资战略规划分析报告2023-2028年中国云计算产业发展前景预测与投资战略规划分析报告2023-2028年中国生物识别技术行业市场调研与投资预测分析报告

人工智能行业主要上市公司:海康威视(002415)、科大讯飞(002230)、赛为智能(300044)、东杰智能(300486)、闻泰科技(600745)、中兴通讯(000063)、恒生电子(600570)等

本文核心数据:中国人工智能企业数量、中国人工智能企业区域分布、中国人工智能企业投融资、中国人工智能风险分布

全文统计口径说明:1)上述数据均来源于中国企业数据库(企查猫),与全球企业数据库存在一定的误差。2)搜索相关关键词为“人工智能;3)企业筛选逻辑为:企业的名称、产品服务和经营范围中包含了“人工智能”的企业。4)统计时间截至2022年4月29日。5)由于中国企业数据库与全球企业数据库不同,存在一定的统计误差;6)若有特殊统计口径会在图表下方备注。

──中国人工智能企业在2020年注册火爆

根据中国企业数据库企查猫,目前中国人工智能行业的主要企业共有8586家,其中以2020年为主要注册热潮,2020年注册企业数量为2589家,而2021年则为2244家。

──人工智能企业注销企业占比不到10%

根据中国企业数据库企查猫,目前中国人工智能行业的存续企业5985家,占总企业数的70%;存续企业数占比为21%;注销企业数量占总企业数的9%。

──人工智能企业注册资本在500万以上的企业超过54%

根据中国企业数据库企查猫,目前中国人工智能企业的注册资本主要分布在1000万-5000万之间,相关企业数量为2539家;其次为100万-200万的企业,相关企业数量为1731家。从整体来看,中国人工智能企业注册资本在500万以上的企业超过56%,在1000万以上的企业超过39%。

注:已将以美元和港元的注册资本转换为人民币。

──人工智能企业主要注册在广东和江苏

根据中国企业数据库企查猫,目前中国人工智能企业主要分布在长三角和珠三角等地,特别以广东和江苏为代表。截至2022年4月底,广东共有相关人工智能企业数1240家,江苏则有1060家。

──上海的人工智能企业的平均注册资本更高

根据中国企业数据库企查猫,目前中国人工智能企业的平均注册资本区域分布中,上海相关企业的平均注册资本最高为5459万元,除此外,河北、北京和湖南的人工智能企业平均注册规模均在4000万以上,规模相对较大。

──人工智能企业主要为有限责任企业和独资企业

根据中国企业数据库企查猫,目前存续和在业的企业共7756家,中国人工智能企业以有限责任公司为主,目前共有7166家,其次为独资企业的2203家。

注:1)上述企业为存续和在业企业;2)上述统计未剔除重复值,同一个企业可以同为有限责任公司和独资企业。

──人工智能企业融资主要在A轮和战略融资

根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中共有284家企业有融资信息,而其中以A轮和战略融资为主。截至2022年中国人工智能企业中,有95家企业为A轮融资,93家企业为战略融资,其次分别为种子轮/天使轮的50家和B轮的27家。

注:上述企业为存续和在业的企业。

──人工智能企业主要在新三板和新四板上市

根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中7689家未上市,总来来看,人工智能企业的上市率为0.9%。在上市的企业中,以新四板和新三板的企业为主,新四板企业有42家,新三板企业有10家。

注:上述企业为存续和在业的企业。

──人工智能企业中科技型中小企业和专精特新企业较多

根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中共有523家企业获得科技型中小企业的称号,107家企业为专精特新企业,66家企业为主雏鹰企业。

注:上述企业为存续和在业的企业;2)上述统计未剔除重复值,同一个企业可以同为科技型中小企业和专精特新企业。

──人工智能企业中有发明专利者居多

根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中1563家企业有专利信息,2093家企业有软件著作权。在专利信息中,人工智能企业以发明为主,拥有发明信息的企业有1263家,申请实用新型的企业有1043家。

注:上述企业为存续和在业的企业;2)上述统计未剔除重复值,同一个企业可以同时拥有多种专利信息和软件著作权。

──人工智能企业中风险以裁判文书和经营异常为主

根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中539家企业有裁判文书,394家企业存在经营异常,104家企业有行政处罚。

注:上述企业为存续和在业的企业;2)上述统计未剔除重复值,同一个企业可以同时拥有裁判文书和行政处罚。

以上数据参考前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO募投可研、IPO业务与技术撰写、IPO工作底稿咨询等解决方案。

更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。

前瞻产业研究院-深度报告REPORTS2023-2028年中国人工智能行业发展前景预测与投资战略规划分析报告

本报告前瞻性、适时性地对人工智能行业的发展背景、供需情况、市场规模、竞争格局等行业现状进行分析,并结合多年来人工智能行业发展轨迹及实践经验,对人工智能行业未来...

查看详情

本文来源前瞻产业研究院,内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com)品牌合作与广告投放请联系:0755-33015062或hezuo@qianzhan.com

在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。如有IPO业务合作需求请直接联系前瞻产业研究院IPO团队,联系方式:400-068-7188。

p30q0我要投稿

UVc分享:标签:人工智能企业大数据人工智能企业数量人工智能企业投融资人工智能行业

品牌、内容合作请点这里:寻求合作››

产业规划

园区规划

产业招商

可行性研究

碳中和

市场调研

IPO咨询

前瞻经济学人专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院中国产业咨询领导者,专业提供产业规划、产业申报、产业升级转型、产业园区规划、可行性报告等领域解决方案,扫一扫关注。相关阅读RELEVANT

收藏!2022年广东省人工智能企业大数据全景分析(附区域企业数量、投融资、专利信息和风险信息等)

【建议收藏】重磅!2022年杭州市人工智能产业链全景图谱(附产业政策、产业链现状图谱、产业资源空间布局、产业链发展规划)

【深度】2022全球人工智能行业企业盈利大数据分析全球仍有近半企业未盈利?

【全球首发】2022全球人工智能行业企业资本大数据分析上市率低但杠杆率却居高不下

【全球首发】2022全球人工智能行业企业区域大数据分析哪个国家“更卷”?

收藏!2022年中国人工智能企业大数据竞争格局(附企业分布、风险分布、投融资集中度等)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇