數(shù)據(jù)科學(xué)導(dǎo)論
Introduction to Data Science
數(shù)據(jù)科學(xué)是運用概率統(tǒng)計、分布式計算、現(xiàn)代軟件等綜合知識探索來自商業(yè)貿(mào)易,生物 醫(yī)療, 金融證券, 社交網(wǎng)絡(luò)等眾多領(lǐng)域的較大規(guī)?;蚪Y(jié)構(gòu)復(fù)雜數(shù)據(jù)集的高效存儲、 高效管理、 高效概括、深入分析和精準(zhǔn)預(yù)測的科學(xué)和藝術(shù)。
本課程主要介紹什么是數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)主要面對的問題,進行數(shù)據(jù)科學(xué)分析需要哪些環(huán)節(jié),作為一個數(shù)據(jù)科學(xué)家需要具備的素質(zhì)、需要使用的工具等等。
數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué), 顧名思義即數(shù)據(jù)相關(guān)的科學(xué)研究, 它是一門利用數(shù)據(jù)學(xué)習(xí)知識的學(xué)科, 包含兩方面--用數(shù)據(jù)的方法來研究科學(xué)和用科學(xué)的方法來研究數(shù)據(jù)。 其目標(biāo)是通過從數(shù)據(jù)中提取出有價值的部分來生產(chǎn)數(shù)據(jù)產(chǎn)品, 結(jié)合了諸多領(lǐng)域中的理論和技術(shù), 包括應(yīng)用數(shù)學(xué), 統(tǒng)計, 模式識別, 機器學(xué)習(xí), 數(shù)據(jù)可視化, 數(shù)據(jù)庫, 以及高性能計算。 數(shù)據(jù)科學(xué)的應(yīng)用覆蓋了醫(yī)學(xué)與公共衛(wèi)生, 工程, 法律, 教育, 設(shè)計, 商業(yè), 經(jīng)濟, 政策規(guī)劃等廣泛的領(lǐng)域, 也將為這些領(lǐng)域帶來巨大的變革與發(fā)展。