人工智能课程心得
我第一次听说人工智能这个词源自初中的时候AlphaGo与李世石的围棋比赛,印象中的AlphaGo以大比分的优势击败了李世石,后来经过了解知道了在2016年比赛时的李世石是近十年来获得世界冠军最多的棋手。从表面上来看,李世石当时是和一台机器下棋,实际上也是与历史上所有的围棋高手下棋。在2017年AlphaGo再次挑战我国棋手柯洁,以3:0击败了柯洁,此时是AlphaGo2.0。在1.0时代并不是真正的人工智能,只是基于大数据是一些查询的检索,在他的棋路够熟,反应够快的前提下,是有机会能赢得。AlphaGo2.0就完全不同,它像人一样有学习能力和思考能力,能够通过一些基本规则,通过不断的学习,得到异于人类的能力。能够像人类一样去学习,思考和行动,才叫真正的人工智能。通过强大的算力和先进的算法,人工智能可以在短时间完成人类在几千年都不能完成的事情,所以,运用好人工智能,就可以让人类社会产生巨大的进步,这种进步在以前是无法想象的。
通过一个学期的人工智能课程的学习,自己也只是浅浅的入门了,了解了人工智能这门学科的应用,一些知识的表示方法,真正人工智能的核心部分我还没有完全的接触到,一个是这门课程的安排仅仅靠这些课时学懂一人工智能这门学科显然是不可能的,另一方面自己在这方面花费的时间精力去深入了解也是完全不够的。
人工智能是一门十分有发展前景的同时对我来说具有挑战性的科学,想要学好这门课程必须要懂得计算机知识以及基本的算法认识。人工智能研究的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。虽然这个课程中上机题并不完全是自己独立完成的,在网上找到了一些代码,学习这些算法的每一个代码块的意义从而有了一定的理解和认识。可以说是反向学习的过程,从已有的代码学习其用法,再到对宽度优先搜索以及遗传算法有了自己的认识。即使网上相关的代码十分的多,但是在学习代码的过程中我也有自己的调试以及修改,使其更符合上机的要求。经过反复的调试,在期间不断的思考以及理解,才对一开始对上机要求中的文字的陌生到代码实现后对算法有了更加清晰的思路。
十四五”规划建议列举出的几大前沿科技中,人工智能位列第一,预示着其未来的良好发展前景。图灵提出“机器可以具有智能”的观点受到了各种批判,其中有关“机器能否具有意识”的观点引起了学界讨论,塞尔通过“中文屋”思想实验与图灵测试进行类比,指出机器没有智能的原因在于缺少产生意向性的生物基础。计算机将会向网络化,智能化,并行化方向发展,人工智能的总趋势,通过理论联系实际,与其他学科交叉,逐步走向应用,在应用中体现人工智能的理念。
在机器学习这一章节的学习中,我了解过基于人工智能与医学影像方面的交叉应用,科技从人民中来,又回到人民中去,个人觉得十分有意义并且有发展前景。二十一世纪的信息技术领域将会以智能信息处理为中心,基于人工智能在医学影像方面[1]突破了传统方法的技术壁垒,是近些年发展最快的领域之一。医学影像+AI目前已应用于临床,在病灶识别和诊断、疗效评估等方面辅助医师做出了出色的成果,大大提高了医师的诊断效率。本文对医学影像+AI的发展历程,现状和未来可能的发展方向进行综述,辅助相关人员进一步了解该领域。医学影像作为临床和科研的一种可视化手段,在医疗健康领域发挥着极为重要的作用。人工智能技术的发展有可能从根本上改变医学实践的方式,将会在很大程度上推动个性化医疗和精准医疗的发展。
音乐人工智能引关注:音乐创作降门槛 AI作曲难过感情关
股市瞬息万变,投资难以决策?来#A股参谋部#超话聊一聊,[点击进入超话]
2021年9月2日,瑞士洛桑,Nexus管弦乐团演奏贝多芬“第十交响曲”的片段市民体验智慧钢琴短短几年,音乐人工智能已成为热门。作曲、伴奏、即兴创作……人工智能在各种场合展示的“才华”令人大开眼界。在刚刚过去的2021年,世界音乐人工智能大会、全球人工智能技术大会、2021中国音乐科技应用论坛等各种学术活动上,音乐人工智能也成为被提及最多、大家讨论最热烈的话题之一。未来的音乐会变成什么样?音乐人工智能会代替人类的艺术创造吗?它会为人类的创造力插上翅膀,还是成为终结者?个案AI少女学音乐“小冰学习能力超强”2020年的毕业季,上海音乐学院迎来一位“特殊”的毕业生——人工智能少女小冰。小冰不仅顺利毕业,还被授予音乐工程系2020届“荣誉毕业生”称号。谈及进军音乐内容创作,前微软(亚洲)互联网工程院副院长、现任小冰公司首席执行官李笛告诉北京青年报记者,不同于此前的诗歌创作、视觉创作、演唱,音乐创作对人工智能小冰来说难度更大,“音乐是流媒体,对作品的流畅度要求很高。此前小冰在音乐创作中的能力主要是内容的生成,比如演唱,这一次小冰学习的作词、作曲和编曲其实更难。”如何让人工智能学会音乐创作呢?小冰团队与上海音乐学院老师告诉北青报记者,让人工智能小冰开始音乐创作的学习过程分三步:首先,基于小冰已有的音乐创作模型,团队把端口给到上海音乐学院的老师,让老师去听小冰创作的海量音乐作品,并给出系统性的点评。其次,老师也教会团队程序员基本的乐理知识,包括编曲技巧等,用于优化小冰的创作模型。最后,小冰不断学习,不断交作业,老师不断给反馈。无论“模型”“作业”还是“反馈”,都是一个不断迭代的过程,如此循环往复……当小冰达到和人类同学相似的水平,且趋于稳定,她就毕业了。在上海音乐学院学习期间,小冰接受了来自音工系主任于阳教授和陈世哲老师的“指导”。谈及教学模式,陈世哲老师说,教学生学习音乐创作和教授人工智能有相似之处:“传统教学方式,我们会让学生学习经典的作品、然后临摹,接下来老师批改、学生再反馈。人工智能和普通学生的学习方式并没有太多差异,我们同样也是给小冰准备了一些数据,小冰学习之后进行创作,老师再来进行评估,来指出哪里有问题,继续去修改,一起来完成。”当然也有不同。陈世哲评价说“小冰是个学习能力超强的学生”,“教学过程中最大的不同是,小冰的迭代速度是人类完全不可能企及的,比如说一个学生学习、临摹一首曲子、写出作业、老师修改,这个过程至少要一周时间,但是在对小冰的教学中,我们一口气放过去几百首甚至更多曲子。”陈世哲老师介绍,判定学生能否顺利通过毕业的考核大体有三条水平线,“最高级创作线是顶尖的流行歌曲,譬如可以拿到格莱美奖、最佳金曲奖的水平;中间线是创作水准不错的普通流行歌曲;基本线是创作广告、电视剧、纪录片配乐等。经过半年的学习,我们认为小冰已经达到基本线普通、简单歌曲的创作能力,不断接近中间线的创作标准,所以我们给了她荣誉毕业生的称号。实际上她的水准已经很接近中间线,我们也期待小冰继续按照研究生的标准来入学。”李笛表示,“对于音乐产业化,人工智能可以在不需要人力参与的情况下,用稳定的质量、极低的成本、高并发地生产内容,并供应出去,未来在视频、影视配乐等产业的落地都有很大的空间。”揭秘音乐人工智能 3秒创作完整歌曲人工智能的算法进入到艺术创作当中,对传统音乐的创作产生了巨大的影响。2019年,华为公司利用Mate20Pro中的AI,对奥地利作曲家舒伯特未完成的《第八交响曲》剩余曲谱进行了谱写,并在伦敦的一场音乐会上进行了公演。与舒伯特的未完稿不同,贝多芬的《第十交响曲》几乎没有任何曲谱,由于病情恶化,贝多芬只画了这部作品的几张草图就溘然离世。创意人工智能初创公司Playform的一群科学家和音乐学家完成了贝多芬未竟的事业,他们经过两年多的努力,不仅让人工智能学习了贝多芬的全部作品,还教会了它贝多芬的创作过程。2021年10月,这台人工智能帮助贝多芬续写了《第十交响曲》,并在德国波恩举行首演,吸引了世界的目光。“像人类的学习一样,人工智能也是通过语料库学习海量的内容,然后‘创作’新的作品。”面对人工智能超强的学习能力,中央音乐学院音乐人工智能与音乐信息科技系主任、教授李小兵忍不住感慨,“实在是太强了!”2021年,由李小兵作为首席专家申报的《音乐与人工智能协同创新发展理论研究》入选2021年度国家社科基金艺术学重大项目。该课题从音乐学、脑科学、人工智能、计算机科学等多个领域入手展开跨学科研究,以“音乐创作与人工智能协同创新发展”“音乐呈现与人工智能协同创新发展”“音乐接受与人工智能协同创新发展”“音乐人工智能哲学——美学”为四个子课题,围绕人、音乐、人工智能三者的相互关系,对音乐与人工智能协同发展中的问题进行深入全面的研究。随着研究的深入,音乐人工智能在效率上不断精进。李小兵透露,目前人工智能最快3秒就可以创作出一首歌曲。“原来最快是23秒,现在已经缩短到3秒了,3秒不仅是作曲,还包括演唱、伴奏、合成,也就是说出来就是一首完整的作品了。”李小兵和他的团队将人类创作的歌曲和人工智能创作的儿童歌曲放在一起,邀请志愿者做过盲测,很难分辨出哪首是人工智能创作的。与人类的思维不同,李小兵用“盲盒”来形容人工智能,“音乐人工智能创作的东西有些与人类相同,有些却不太一样,甚至会让人瞠目结舌。”观点“音乐魅力在于演奏家的二度创作”“人工智能和艺术的结合最难的一块实际上就是音乐。”上海音乐学院音乐工程系主任、作曲家于阳对北青报记者说,“有章可循的容易实现,但音乐是时间的艺术,听觉上给人的感受变化无穷,有太多不确定性。受限于技术水准、数据等因素,现在的音乐人工智能还处于初级阶段,需要进一步探索和研究。”李小兵也认为,与文本、语言相比,音乐的维度要多很多,有音高、节奏、强弱、情感等,也要复杂得多,因此音乐人工智能需要更大的模型和算力,也要最顶尖的科学家和艺术家携手。尽管人工智能作曲可以通过学习海量的作品,模仿作曲家的创作通过图灵测试,在演奏方面也可以做到精准无误,但业内人士普遍认为,就情感来说,这些作品与人类创作的作品还是有很大区别的。“这就是音乐的魅力所在。一首钢琴曲,十个演奏家弹出来是十种完全不同的感受,这里面就有演奏家的二度创作。这种感受的不同是机器取代不了的。”于阳说。尽管不能代替人类最核心的创造力,但目前人工智能已经可以辅助人类做很多事情,尤其是大量重复性、基础性的工作。“20年前,我们都是在五线谱上写东西,现在大部分作曲家都是用电脑软件创作了,这实际上就是人工智能的一种形式。”身为作曲家的于阳表示,写作完成后,软件还能自动生成演奏,作曲家可以随时在上面修改、调整,“人工智能大大提高了创作效率。”李小兵也认为,“如果要创作高水平的音乐,如电影配乐或是一线的、能打榜的流行歌曲,人工智能还有很长的路要走,但一些背景音乐,人工智能的创作已经能够符合人们的欣赏需求。”随着音乐人工智能的深入发展,未来的音乐会有翻天覆地的变化。在李小兵看来,未来音乐可能不止3D音乐、机器人主持、交互多媒体、人工智能伴奏、虚拟现实、机器人指挥、机器人演奏、机器人演唱等,更有可能会出现新形态,“就像照相机出现以后,迫使美术界发生了特别大的改变,出现了一批照相机不能代替的大艺术家,随着音乐人工智能研究的深入,未来的音乐创作更加弥足珍贵,也一定会诞生让人意想不到的新的音乐形态。”本版文/本报记者 田婉婷 张知依统筹/刘江华 供图/视觉中国潮流档案AI通过自身强大的数字处理能力兼顾歌曲从制作到演唱的全流程,实现化繁为简,在短时间内完成音乐作品创作。通过算法学习和“实战”训练来学习如何写歌,非音乐工作者也可以借助这种技术创作出属于自己独一无二的曲子。行业布局科技巨头投资各有重点资本早就意识到了音乐人工智能的商业价值,人工智能科技巨头都在积极布局:早在2016年,字节跳动就成立了AI Lab,对AI进行深入研究;网易云音乐在2020年战略投资了AI音乐公司AIVA,重点放在了AI辅助音乐创作领域;腾讯AI Lab推出了AI数字人“艾灵”,可以通过用户提供的关键词自动生成歌词并演唱;字节跳动开发的基于Tacotron声学模型和WaveRNN神经网络声码器的中文歌声合成(SVS)系统——ByteSing、微软研究院发布的AI音乐开源项目Muzic等都在试图证明人工智能可以完成音乐的整个生产过程。学科储备首批音乐人工智能博士今年毕业各大高校也在迅速推进音乐人工智能的研究和应用。中央音乐学院、上海音乐学院、四川音乐学院等高校纷纷开设音乐人工智能专业。2022年7月,中央音乐学院首批音乐人工智能的博士就要毕业了,他们成为了各大互联网公司争抢的人才。“因为社会对音乐人工智能的人才需求量巨大,现在大的互联网公司用的大部分都是从声学专业转过来的,可能不是专门学习音乐人工智能专业的,所以说目前我们这个专业的博士毕业生非常抢手。”李小兵说。“通常情况下,搞音乐的人不懂科技,搞科技的人不懂音乐,音乐人工智能是个交叉领域,我们现在做的事情就是把这两方面结合起来。”于阳透露,上海音乐学院的人工智能博士采取双导师制,音乐和技术的导师各一名。“音乐人工智能未来可期,现在要跨出这一步很重要。但目前人才缺口还是很大的。”大事记2019年深圳交响乐团演奏了全球首部AI交响变奏曲《我和我的祖国》,这也是该曲目的世界首演。2020年7月9日由微软小冰、小米小爱、百度小度、Bilibili泠鸢四位人工智能机器人合唱的主题曲《智联家园》亮相 2020年世界人工智能大会开幕式。2021年10月9日人工智能续写的贝多芬《第十交响曲》在德国发布,引发世界关注。海量资讯、精准解读,尽在新浪财经APP责任编辑:张亚楠
人工智能贝多芬AI我要反馈投顾排行榜收起人气榜跟牛人买牛股入群讨论今日热度问股榜立即问股今日诊股产品入口:新浪财经APP-股票-免费问股产品入口:新浪财经APP-股票-免费问股产品入口:新浪财经APP-股票-免费问股APP专享直播上一页下一页1/10热门推荐收起新浪财经公众号24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
相关新闻加载中点击加载更多人工智能:作曲we can do it!
人类大致有两种方法参与自动音乐生成:
自动生成。基于各种技术进行全自动音乐生成,而人类仅指定风格参数。如NVIDIA的AIVA就是一个典型的例子。辅助作曲。FlowConmposer是一个典型的例子。这里算法为人类的作曲做出建议和补充,进行共同作曲。目前大部分的算法都属于第一类方法。第二种方法在很多情况下是第一种方法的组合和变体。
一个例子
2019年3月21日,GoogleMagenta组贡献了一个交互式算法demo,称为BachDoodle,通过学习J.S.Bach的四重奏,算法可以由用户指定第一声部,然后自动计算给出剩余的三个声部。
(虽然很难听,但是Magenta在computermusic领域黑不动)
BachDoodle
我们以这个算法的雏形和前身“MiniBach”算法开始。
Tospecifytheproblem,我们形式化决定算法仅生成四个小节的音乐。
如何将音乐转换为符号表示,其实有很多种方法。被公认的主流方法之一是piano-roll及其变体。midi可以表示128个不同的音高,将129指定为rest,130指定为sustain(持续),则音乐可以用一个130*N的矩阵表示。N取决于分辨率和音乐实际长度。主流设置是将16分音符作为最小的分辨率,那么一个4/4拍的两小节音乐可以被表示为130*32的矩阵。
pianoroll的起源是匀速运动的打孔纸带
然而minibach作为早期模型,没有采用成熟的表示法,而是将21个音高*16个step*4个小节=1344,一共1344个node,使用了一个多分类器进行学习:
minibach音乐人工智能的先驱者们
下面直接进入神经网络相关的模型:一波星星之火随着深度学习的浪潮而兴起。
首先是Todd的时间窗口-条件循环结构。
Todd的目标是以迭代的方式产生单音旋律(monophoicmelody)。他的第一个设计是time-window结构,通过滑窗的方法,逐段地反复地进行旋律生成,上一段的输出作为下一段的输入。这是一个非常直接且朴素的想法。注意,这个idea是在1989年产生的,距离LSTM的正式诞生还有26年。
Todd的TimeWindows结构
他还设计了Sequential结构,输入层分为两部分,分别是context和plan。context是生成的历史旋律,而plan是预先设置的需要网络学习的特定旋律的名字。
Todd的循环结构
Todd的这个模型影响深远,甚至可以看作是conditionalnetwork结构的先驱。
Todd后续还陆续提及了一些想法,希望得到解决,他们包括:
音乐的分层结构(structureandhierarchy)。这个问题至今没能得到完美的解决。2019年GoogleMagenta的MusicVAE试图在这个问题上有所突破,这也是我研究的课题之一。
MusicVAE
多时钟结构。这个问题后面被ClockworkRNN和SampleRNN等模型尝试解决。
ClockRNN
第二个提到的人是Lewis,他提出了基于refinement的方法(CreationbyRefinement,CBR),提出通过梯度下降的方式训练模型。Lewis人工构建了正确的和没那么正确的旋律,通过我们现在熟知的方法进行网络训练。
Lewis的算法可以是看作最大化一些目标属性,以控制生成模型的各类方法的前身。现代的诸多算法都使用了类似的机制,如DeepHear最大化与给定目标的相似度,DeepDream最大限度地激活特定单元,等等。
Lewis的模型
有意思的是,这个网络使用梯度下降和反向传播机制进行训练,而且是在1988年。
此外,Lewis颇有创意地提出了一种attention机制和一种hierarchy方法。这个方法简单来说,有点类似于一类形式语法规则,如ABC变为AxByC,在不改变现有token的情况下,使用attention地方式选择位置,然后进行拓展。
与综述一样,我们从下面五个方向展开介绍:
目标。即我们要生成什么,是旋律,伴奏,还是和弦?要生成的是乐谱还是音频?是单声部的还是多声部的?在各个小领域中这些问题都有不同的人在努力研究。如GusXia老师就致力于研究人机交互的自动伴奏方法。表示。即如何表示音乐。对于原始音乐的表示包括五线谱、midimessage、Piano-roll等,而音乐的高层表示也有很多,比如GTTM表示法。模型结构。这个模型是RNN模型、VAE模型、GAN模型,还是多种模型的组合、改进、变化?要求。即对生成结果的质量评估,如流畅性、创造性、一致性等。策略。如逐步迭代、encoder-decoder方法等不一样的生成方式。要注意上面五个方法并不是正交的。
首先来聊聊音乐的表示法。音乐主要以两种形式表示:audio和symbolic。所以前几年相关的基础研究,有的会说自己是“symbolicdomainmusicgeneration”,最近见得少了。
audio。audio主要有:信号波,频谱(通过FFT得到)。这两种表示都很常见,尤其是在做tranion这类相关任务时。symbolic。主要包括midi文件里的midimessage,piano-roll,文本格式。piano-roll的一个结构图如下图所示:而文本格式中最被广泛使用的为ABCnotation。现在还有活跃的社区在收集ABC标注的数据集:
也有相关的网站提供了ABC格式在线渲染乐谱的demo,有兴趣的话可以访问这个网站,体验一下ABCnotation和乐谱的对应关系:
在一些格式中,模型会遇到编码问题。比如说音高pitch,既可以用一个实数表示,也可以用一个one-hot向量表示,甚至可以通过二进制来表示。目前one-hot是最为广泛的采用方法。
下面,我们来认识一些基本的模型。这些模型包括:
前馈网络RNN循环结构,包括递归的循环和采样策略。将采样策略应用上时,可以使得生成的音乐有更多的不确定性。RNN模型中,每一步输出的音高由softmax决定,而softmax本身是一个概率函数,采样策略用它来取得不确定的输出。之后是一些复合架构。复合的方法可以分为下面几种:
组合。将现有的结构堆叠在一起,如Bi-LSTM,RBM-RNN,C-RNN-GAN,MusicVAE等模型。C-RNN-GAN的结构
细化。即对结构做出约束,添加人为的inductivebias,使得模型有所偏向和专门化。如VAE中,对latentZ做额外的约束,使得Z满足高斯分布和一些特定的条件,从而隐式引导模型往需要的方向学习。嵌套。嵌套一个模型到另外一个架构中,成为一个子单元。MusicVAE同样也采用了这种做法。模式(Pattern)。即引入一个外部的pattern到模型中,使模型能够处理pattern层面的信息。下图是流行模型的分类归属:
我们再讨论一些改进的架构。
VAE。VAE是现在音乐生成模型中最流行的架构之一。基础的VAE和嵌套的VAE结构如下图:
有工作试图将latentZ解耦,利用多个encoder和decoder进行表征学习的工作,如ISMIR2019的音色分离模型:
事实上得到latentZ之后,可以通过多种方法对Z进行decoding,得到音乐。比如说sample一个符合原分布的向量,再交给Decoder进行VAE的解码工作。当然,插值等方法也是可以使用的。
目前一个研究热点问题是对VAE中的latentZ进行解释、分离,以达到表示学习的目的。如ISMIR2019上一篇音乐节奏风格迁移的文章,就是将latentZ的不同部分分别约束,强制latentvector包含特定的含义。
简单的说了一下VAE之后我们再讨论GAN模型。GAN模型近年来远没有VAE模型多见,而更多地用作弱监督环境下提升质量的方法。前几年的MidiNet就是GAN模型:
MidiNet
正如我之前提到的,对网络的中间变量进行采样,然后对生成的结果做迭代的细化,也是生成的一个策略。DeepBach采用了类似的策略:
在实际使用中,DeepBach可以指定重新生成音乐的任意部分,无需重新生成整个内容:
无独有偶,BachDoodle的原文CocoNet,也采用了相似的方法。网络通过反复擦除不同地方的结果,让网络进行补完,之后采样,再补完,迭代地细化结果:
最后闲聊一些别的。
音乐生成领域非常广阔,从计算机音乐顶会ISMIR每年CfP时的说明就可以看出来,有很多值得研究的主题。
在这些主题中,纯粹的音乐生成其实并不是最热门的方向。在音乐信息检索、音乐转录、哼唱识别、音乐学研究等领域,也有无数学者孜孜不倦地努力着。
此外,计算机音乐也与NLP、数据挖掘等领域紧密相关。KDD、ICML等会议都曾出现过相关论文和workshop。
部分截图
欧洲比较著名的研究机构,包括QueenMary的C4DM,规模和整体科研实力都是在欧洲数一数二的:
法国的IRCAM:
西班牙的UPF-MTG:
北美斯坦福的CCRMA:
纽约大学的MARL:
麦吉尔大学的CIRMMT:
亚洲新加坡国立大学:
日本京都大学:
遗憾的是,我们国家在计算机音乐领域还远没有发展起来。
近年来我们成立了自己的社区,有了自己的会议:
与我比较熟的同行们,主要来自下面的实验室:
北京大学陈晓鸥老师的数字音频研究所:
复旦大学李伟老师的实验室:
北京邮电大学李圣辰老师的实验室:
上海纽约大学夏光宇老师的实验室:
至于工业界,主要是腾讯的QQ音乐:
以及字节跳动的抖音:
可以明显地感觉到,国内和国外,不管是工业界还是学术界,都有着数量上的明显差距。国内的计算机音乐方兴未艾,这对所有从业者来说,既是挑战,也是机会。
“品玩知科技”系知乎科技和PingWest品玩联合出品的精品栏目,知乎科技是知乎科技数码领域的官方机构号。针对科技热点新闻和好玩儿的数码体验,第一时间为用户带来可信赖的解读。返回搜狐,查看更多