人工智能、大数据、数据挖掘、机器学习
一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。
二、先来回答大家两个问题:
问题1:博客里所所涉及到的数据在哪里拿?
后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。
问题2:想学习机器学习,不知道数据怎么来?
要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。
三、以下是收集到的链接
大数据
https://delicious.com/pskomoroch/datasethttp://stackoverflow.com/questions/10843892/download-large-data-for-hadoophttp://konect.uni-koblenz.de/搜狗实验室
http://www.sogou.com/labs/resources.html?v=1
气象数据集
https://www.ncdc.noaa.gov/data-access/quick-links
气候监测数据集
http://cdiac.ornl.gov/ftp/ndp026b
机器学习
亚马逊网络服务数据
http://aws.amazon.com/datasets
航空公司数据(2009年ASA挑战)
http://stat-computing.org/dataexpo/2009/the-data.html
澳大利亚天气
http://www.bom.gov.au/climate/dwo/
因果关系工作台
http://www.causality.inf.ethz.ch/repository.php
Kaggle竞争数据
https://www.kaggle.com/datasets
KDNuggets竞争网站
www.kdnuggets.com/datasets/
机器学习的数据集存储库
http://mldata.org/
医疗保险数据文件
http://go.cms.gov/19xxPN4
微软研究院
http://research.microsoft.com/apps/dp/dl/downloads.aspx
百万歌曲数据集
http://blog.echonest.com/post/3639160982/million-song-dataset
歌曲数据集
http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
RDataMining.comR和数据挖掘电子书数据
http://www.rdatamining.com/data
革命分析集合
http://www.revolutionanalytics.com/subscriptions/datasets/
社交网络
http://www.cs.cmu.edu//ancestry.com/~jelsas/数据
UCI机器学习库
http://archive.ics.uci.edu/ml/
535亿点击
http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
http://archive.ics.uci.edu/ml/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
机器学习样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
癌症基因
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
网络
斯坦福大学大型网络数据收集
http://snap.stanford.edu/data/
微软匿名网络数据
http://kdd.ics.uci.edu/databases/msweb/msweb.html
MSNBC匿名网络数据
http://kdd.ics.uci.edu/databases/msnbc/msnbc.html
SyskillWebertWeb数据
http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html
图像
ImageNet(包含1400万的图像)
http://www.image-net.org/
TinyImagesDataset(包含8000万的32x32图像)
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
MirFlickr1M(包含100万的图像)
http://press.liacs.nl/mirflickr/
CoPhIR(包含1亿600万的图像)
http://cophir.isti.cnr.it/whatis.html
SBUcaptionedphotodataset(包含100万的图像)
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Large-ScaleImageAnnotationusingVisualSynset(ICCV2011)(包含2亿图像)
http://cpl.cc.gatech.edu/projects/VisualSynset/
NUS-WIDE(包含27万的图像)
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
SUNdataset(包含13万的图像)
http://people.csail.mit.edu/jxiao/SUN/
MSRA-MM(包含100万的图像,23000视频)
http://research.microsoft.com/enus/projects/msrammdata/
TRECVID
http://trecvid.nist.gov/
卡耐基-梅隆的脸图片
http://kdd.ics.uci.edu/databases/faces/faces.html
金星上的火山
http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html
雅虎发布超大Flickr数据集1亿的图片+视频
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
100多个有趣的数据集
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics
图像处理相关个人主页、研究组及公开数据集网址
http://blog.sciencenet.cn/blog-673472-759786.html
PublicDomainCollections
Data360
http://www.data360.org/index.aspx
Datamob.org
http://datamob.org/datasets
Factual
http://www.factual.com/topics/browse
Freebase
http://www.freebase.com/
http://www.google.com/publicdata/directory
infochimps:http://www.infochimps.com/
numbray
http://numbrary.com/
Quora
https://www.quora.com/Data/Where-can-I-find-large-datasets-open-to-the-public
RSCollection100+
http://rs.io/2014/05/29/list-of-data-sets.html
SampleRdatasets
http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
SourceForge研究数据
http://www.nd.edu/oss/数据/研究司
StatSci.org
http://www.statsci.org/datasets.html
UFO报告
http://www.nuforc.org/webreports.html
维基解密911寻呼机截取
http://911.wikileaks.org/files/index.html
Stats4Stem.org:R数据集
http://www.stats4stem.org/data-sets.html
《华盛顿邮报》名单
http://www.washingtonpost.com/wp-srv/metro/data/datapost.html
科学
农业实验
http://www.insider.org/packages/cran/agridat/docs/agridat
气候数据
http://www.cru.uea.ac.uk/cru/data/temperature/#datter
andftp://ftp.cmdl.noaa.gov/
GeneExpressionOmnibus
http://www.ncbi.nlm.nih.gov/geo/
GeoSpatialData
http://geodacenter.asu.edu/datalist/
HumanMicrobiomeProject
http://www.hmpdacc.org/reference_genomes/reference_genomes.php
MITCancerGenomicsData
http://www.broadinstitute.org/cgibin/cancer/datasets.cgi
NASA
http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html
NIHMicroarraydata
ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/®
Proteinstructure
http://www.infobiotic.net/PSPbenchmarks/
PublicGeneData
http://www.pubgene.org/
斯坦福大学的微阵列数据
http://smd.stanford.edu/
社会科学
综合社会调查
http://www3.norc.org/GSS+网站/
ICPSR
http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp
皮尤研究
http://www.pewinternet.org/datasets/pages/2/
加州大学洛杉矶分校的社会科学档案
http://dataarchives.ss.ucla.edu/Home.DataPortals.html
UPJOHN本月
http://www.upjohn.org/erdc/erdc.html
时间序列
时间序列数据库
http://robjhyndman.com/TSDL/
澳大利亚手语数据
http://kdd.ics.uci.edu/databases/auslan/auslan.html
高质量的澳大利亚手语数据
http://kdd.ics.uci.edu/databases/auslan2/auslan.html
脑电图数据
http://kdd.ics.uci.edu/databases/eeg/eeg.html
日本的元音
http://kdd.ics.uci.edu/databases/JapaneseVowels/JapaneseVowels.html
Pioneer-1移动机器人数据
http://kdd.ics.uci.edu/databases/pioneer/pioneer.html
伪周期合成时间序列
http://kdd.ics.uci.edu/databases/synthetic/synthetic.html
合成控制图时间序列
http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.html
大学
卡内基梅隆大学安然电子邮件
http://www.cs.cmu.edu/~安然/
卡内基梅隆大学StatLab
http://lib.stat.cmu.edu/datasets/
龙骨存储库
http://sci2s.ugr.es/keel/datasets.php
卡内基梅隆大学JASA数据归档
http://lib.stat.cmu.edu/jasadata/
俄亥俄州立大学财务数据
http://fisher.osu.edu/fin/osudata.htm
加州大学伯克利分校
http://ucdata.berkeley.edu/
加州大学洛杉矶分校
http://aws.amazon.com/datasets
加州大学河滨分校时间序列
http://www.cs.ucr.edu//time_series_data/
多伦多大学
http://www.cs.toronto.edu/深入/数据/datasets.html
UCI知识发现(KDD)归档
http://kdd.ics.uci.edu/
信息和计算机科学
http://www.ics.uci.edu/
加州大学欧文分校
https://uci.edu/
互联网相关数据集
Datasetfor“StatisticsandSocialNetworkofYouTubeVideos”
http://netsg.cs.sfu.ca/youtubedata/
1998WorldCupWebSiteAccessLogs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
(从1998/04/26到1998/07/26的92天中,发生了1,352,804,107次请求)
PageviewstatisticsforWikimediaprojects
http://dammit.lt/wikistats/
AOLSearchQueryLogs-RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
livedoorgourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
离散序列数据
UNIX用户数据
http://kdd.ics.uci.edu/databases/UNIX_user_data/UNIX_user_data.html
主菜芝加哥推荐数据
http://kdd.ics.uci.edu/databases/entree/entree.html
多元数据
人口收入调查数据库
http://kdd.ics.uci.edu/databases/census-income/census-income.html
线圈数据
http://kdd.ics.uci.edu/databases/coil/coil.html
Corel图像特征
http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html
森林CoverType
http://kdd.ics.uci.edu/databases/covertype/covertype.html
保险公司基准(2000卷)
http://kdd.ics.uci.edu/databases/tic/tic.html
互联网使用数据
http://kdd.ics.uci.edu/databases/internet_usage/internet_usage.html
IPUMS人口普查数据
http://kdd.ics.uci.edu/databases/ipums/ipums.html
KDDCUP1998数据
http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html
KDDCUP1999数据
http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
1990年美国人口普查数据
http://kdd.ics.uci.edu/databases/census1990/USCensus1990.html
关系数据
大肠杆菌基因
http://kdd.ics.uci.edu/databases/ecoli/ecoli.html
结核分枝杆菌基因
http://kdd.ics.uci.edu/databases/tb/tb.html
电影
http://kdd.ics.uci.edu/databases/movies/movies.html
MovieLens数据集
http://datahub.io/dataset/movielens
厄尔尼诺现象的数据
http://kdd.ics.uci.edu/databases/el_nino/el_nino.html
文本
20新闻组数据
http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html
路透社-21578文本分类收集
http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
路透转录子集
http://kdd.ics.uci.edu/databases/reuters_transcribed/reuters_transcribed.html
摘要1990-2003年NSF研究奖项
http://kdd.ics.uci.edu/databases/nsfabs/nsfawards.html
其他
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
AI人工智能三要素:数据、算力和算法
人工智能这两年的火爆大家有目共睹,取得的一些技术进步大家想必也有所耳闻。这里就来谈谈人工智能的三要素:数据、算力和算法。
首先,这三要素缺一不可,都是人工智能取得如此成就的必备条件。如果非要给这三者排个序的话,我认为应该是数据、算力和算法。
第一是数据。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,那必须经过不断地训练才能获得,而且有熟能生巧之说。AI也是如此,只有经过大量的训练,神经网络才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,则网络会基本处于瞎猜状态,正确率可想而知。比如需要识别勺子,但训练集中勺子总和碗一起出现,网络很可能学到的是碗的特征,如果新的图片只有碗,没有勺子,依然很可能被分类为勺子。因此,对于AI而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现良好的模型,看起来更智能。
第二是算力。有了数据之后,需要进行训练,不断地训练。AI中有一个术语叫epoch,意思是把训练集翻过来、调过去训练多少轮。只把训练集从头到尾训练一遍网络是学不好的,就像和小孩说一个道理,一遍肯定学不会,过目不忘那就是神童了,不过我至今还没见到过。当然,除了训练(train),AI实际需要运行在硬件上,也需要推理(inference),这些都需要算力的支撑。
第三是算法。其实大家现在算法谈得很多,也显得很高端,但其实某种程度上来说算法是获取成本最低的。现在有很多不错的paper,开源的网络代码,各种AutoML自动化手段,使得算法的门槛越来越低。另外提一点,算法这块其实是创业公司比较容易的切入点,数据很多人会觉得low,会认为就是打打标签而已,所以愿意做的不多;算力需要芯片支撑,是大公司争夺的主要阵地,留下的只有算法了。
不过,如果想做一个非常成功的AI应用,这三者都需要具备,所谓天时地利人和。
联系我:guanxs_ai@126.com
微信公众号:
收藏!《2023年中国人工智能企业大数据全景图谱》(附企业数量、投融资、专利信息和风险信息等)
当前位置:前瞻产业研究院»经济学人»研究员专栏收藏!《2022年中国人工智能企业大数据全景图谱》(附企业数量、投融资、专利信息和风险信息等)UVc分享到:夏才艳•2022-05-1514:00:15来源:前瞻产业研究院E21648G02023-2028年中国人工智能行业发展前景预测与投资战略规划分析报告2023-2028年全球人工智能芯片(AI芯片)行业市场调研与发展前景研究报告2023-2028年中国大数据产业发展前景与投资战略规划分析报告2023-2028年中国云计算产业发展前景预测与投资战略规划分析报告2023-2028年中国生物识别技术行业市场调研与投资预测分析报告人工智能行业主要上市公司:海康威视(002415)、科大讯飞(002230)、赛为智能(300044)、东杰智能(300486)、闻泰科技(600745)、中兴通讯(000063)、恒生电子(600570)等
本文核心数据:中国人工智能企业数量、中国人工智能企业区域分布、中国人工智能企业投融资、中国人工智能风险分布
全文统计口径说明:1)上述数据均来源于中国企业数据库(企查猫),与全球企业数据库存在一定的误差。2)搜索相关关键词为“人工智能;3)企业筛选逻辑为:企业的名称、产品服务和经营范围中包含了“人工智能”的企业。4)统计时间截至2022年4月29日。5)由于中国企业数据库与全球企业数据库不同,存在一定的统计误差;6)若有特殊统计口径会在图表下方备注。
──中国人工智能企业在2020年注册火爆
根据中国企业数据库企查猫,目前中国人工智能行业的主要企业共有8586家,其中以2020年为主要注册热潮,2020年注册企业数量为2589家,而2021年则为2244家。
──人工智能企业注销企业占比不到10%
根据中国企业数据库企查猫,目前中国人工智能行业的存续企业5985家,占总企业数的70%;存续企业数占比为21%;注销企业数量占总企业数的9%。
──人工智能企业注册资本在500万以上的企业超过54%
根据中国企业数据库企查猫,目前中国人工智能企业的注册资本主要分布在1000万-5000万之间,相关企业数量为2539家;其次为100万-200万的企业,相关企业数量为1731家。从整体来看,中国人工智能企业注册资本在500万以上的企业超过56%,在1000万以上的企业超过39%。
注:已将以美元和港元的注册资本转换为人民币。
──人工智能企业主要注册在广东和江苏
根据中国企业数据库企查猫,目前中国人工智能企业主要分布在长三角和珠三角等地,特别以广东和江苏为代表。截至2022年4月底,广东共有相关人工智能企业数1240家,江苏则有1060家。
──上海的人工智能企业的平均注册资本更高
根据中国企业数据库企查猫,目前中国人工智能企业的平均注册资本区域分布中,上海相关企业的平均注册资本最高为5459万元,除此外,河北、北京和湖南的人工智能企业平均注册规模均在4000万以上,规模相对较大。
──人工智能企业主要为有限责任企业和独资企业
根据中国企业数据库企查猫,目前存续和在业的企业共7756家,中国人工智能企业以有限责任公司为主,目前共有7166家,其次为独资企业的2203家。
注:1)上述企业为存续和在业企业;2)上述统计未剔除重复值,同一个企业可以同为有限责任公司和独资企业。
──人工智能企业融资主要在A轮和战略融资
根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中共有284家企业有融资信息,而其中以A轮和战略融资为主。截至2022年中国人工智能企业中,有95家企业为A轮融资,93家企业为战略融资,其次分别为种子轮/天使轮的50家和B轮的27家。
注:上述企业为存续和在业的企业。
──人工智能企业主要在新三板和新四板上市
根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中7689家未上市,总来来看,人工智能企业的上市率为0.9%。在上市的企业中,以新四板和新三板的企业为主,新四板企业有42家,新三板企业有10家。
注:上述企业为存续和在业的企业。
──人工智能企业中科技型中小企业和专精特新企业较多
根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中共有523家企业获得科技型中小企业的称号,107家企业为专精特新企业,66家企业为主雏鹰企业。
注:上述企业为存续和在业的企业;2)上述统计未剔除重复值,同一个企业可以同为科技型中小企业和专精特新企业。
──人工智能企业中有发明专利者居多
根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中1563家企业有专利信息,2093家企业有软件著作权。在专利信息中,人工智能企业以发明为主,拥有发明信息的企业有1263家,申请实用新型的企业有1043家。
注:上述企业为存续和在业的企业;2)上述统计未剔除重复值,同一个企业可以同时拥有多种专利信息和软件著作权。
──人工智能企业中风险以裁判文书和经营异常为主
根据中国企业数据库企查猫,目前存续和在业的企业共7756家,其中539家企业有裁判文书,394家企业存在经营异常,104家企业有行政处罚。
注:上述企业为存续和在业的企业;2)上述统计未剔除重复值,同一个企业可以同时拥有裁判文书和行政处罚。
以上数据参考前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO募投可研、IPO业务与技术撰写、IPO工作底稿咨询等解决方案。
更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。
前瞻产业研究院-深度报告REPORTS2023-2028年中国人工智能行业发展前景预测与投资战略规划分析报告本报告前瞻性、适时性地对人工智能行业的发展背景、供需情况、市场规模、竞争格局等行业现状进行分析,并结合多年来人工智能行业发展轨迹及实践经验,对人工智能行业未来...
查看详情
本文来源前瞻产业研究院,内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com)品牌合作与广告投放请联系:0755-33015062或hezuo@qianzhan.com在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。如有IPO业务合作需求请直接联系前瞻产业研究院IPO团队,联系方式:400-068-7188。
p30q0我要投稿
UVc分享:标签:人工智能企业大数据人工智能企业数量人工智能企业投融资人工智能行业品牌、内容合作请点这里:寻求合作››
产业规划
园区规划
产业招商
可行性研究
碳中和
市场调研
IPO咨询
前瞻经济学人专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。前瞻产业研究院中国产业咨询领导者,专业提供产业规划、产业申报、产业升级转型、产业园区规划、可行性报告等领域解决方案,扫一扫关注。相关阅读RELEVANT收藏!2022年广东省人工智能企业大数据全景分析(附区域企业数量、投融资、专利信息和风险信息等)
【建议收藏】重磅!2022年杭州市人工智能产业链全景图谱(附产业政策、产业链现状图谱、产业资源空间布局、产业链发展规划)
【深度】2022全球人工智能行业企业盈利大数据分析全球仍有近半企业未盈利?
【全球首发】2022全球人工智能行业企业资本大数据分析上市率低但杠杆率却居高不下
【全球首发】2022全球人工智能行业企业区域大数据分析哪个国家“更卷”?
收藏!2022年中国人工智能企业大数据竞争格局(附企业分布、风险分布、投融资集中度等)