《計算機科學叢書:數據挖掘與R語言》的支持網站給出了案例研究的所有代碼、數據集以及R函數包,不要求讀者具有R、數據挖掘或統計技術的基礎知識。《計算機科學叢書:數據挖掘與R語言》利用大量給出必要步驟、代碼和數據的具體案例,詳細描述了數據挖掘的主要過程和技術。
目錄
出版者的話
推薦序
中文版序
譯者序
前言
致謝
第1章簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列表
1.2.10數據框
1.2.11構建新函數
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介
第2章預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據加載到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變量的相關關系來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元線性回歸
2.6.2回歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結
第3章預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.21在R中處理與時間有關的數據
3.22從CSV文件讀取數據
3.23從網站上獲取數據
3.24從MySQL數據庫讀取數據
3.3定義預測任務
3.3.1預測什么
3.3.2預測變量是什么
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何應用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何應用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成:仿真交易
3.6模型評價和選擇
3.6.1蒙特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易系統
3.7.1評估最終測試數據
3.7.2在線交易系統
3.8小結
第4章偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1加載數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結
第5章微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因(特征)選擇
5.3.1基于分布特征的簡單過濾方法
5.3.2 ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特征聚類的組合進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函數索引