توضیحات
A comprehensive guide for data scientists to master effective data cleaning tools and techniques
Key Features
- Master data cleaning techniques in a language-agnostic manner
- Learn from intriguing hands-on examples from numerous domains, such as biology, weather data, demographics, physics, time series, and image processing
- Work with detailed, commented, well-tested code samples in Python and R
Book Description
It is something of a truism in data science, data analysis, or machine learning that most of the effort needed to achieve your actual purpose lies in cleaning your data. Written in Davids signature friendly and humorous style, this book discusses in detail the essential steps performed in every production data science or data analysis pipeline and prepares you for data visualization and modeling results.
The book dives into the practical application of tools and techniques needed for data ingestion, anomaly detection, value imputation, and feature engineering. It also offers long-form exercises at the end of each chapter to practice the skills acquired.
You will begin by looking at data ingestion of data formats such as JSON, CSV, SQL RDBMSes, HDF5, NoSQL databases, files in image formats, and binary serialized data structures. Further, the book provides numerous example data sets and data files, which are available for download and independent exploration.
Moving on from formats, you will impute missing values, detect unreliable data and statistical anomalies, and generate synthetic features that are necessary for successful data analysis and visualization goals.
By the end of this book, you will have acquired a firm understanding of the data cleaning process necessary to perform real-world data science and machine learning tasks.
What you will learn
- Identify problem data pertaining to individual data points
- Detect problem data in the systematic shape of the data
- Remediate data integrity and hygiene problems
- Prepare data for analytic and machine learning tasks
- Impute values into missing or unreliable data
- Generate synthetic features that are more amenable to data science, data analysis, or visualization goals.
Who This Book Is For
This book is designed to benefit software developers, data scientists, aspiring data scientists, and students who are interested in data analysis or scientific computing.
Basic familiarity with statistics, general concepts in machine learning, knowledge of a programming language (Python or R), and some exposure to data science are helpful. A glossary, references, and friendly asides should help bring all readers up to speed.
The text will also be helpful to intermediate and advanced data scientists who want to improve their rigor in data hygiene and wish for a refresher on data preparation issues.
————————————————————–
ترجمه ماشینی :
راهنمای جامعی برای دانشمندان داده برای تسلط بر ابزارها و تکنیکهای موثر پاکسازی دادهها
ویژگیهای کلیدی
- مسلط بر تکنیکهای تمیز کردن دادهها در یک زبان روشی آگنوستیک
- از مثالهای عملی جذاب از حوزههای متعدد، مانند زیستشناسی، دادههای آبوهوا، جمعیتشناسی، فیزیک، سریهای زمانی و پردازش تصویر بیاموزید
- کار با جزئیات، نظرات , نمونه کد به خوبی آزمایش شده در پایتون و R
توضیحات کتاب
این چیزی شبیه به حقیقت در علم داده، تجزیه و تحلیل داده، یا یادگیری ماشین است که بسیاری از تلاش لازم برای دستیابی به هدف واقعی شما در پاکسازی داده های شما نهفته است. این کتاب که به سبک دوستانه و طنز آمیز امضای دیویدز نوشته شده است، به طور مفصل مراحل ضروری انجام شده در هر خط لوله علم داده تولید یا تجزیه و تحلیل داده ها را مورد بحث قرار می دهد و شما را برای تجسم داده ها و نتایج مدل سازی آماده می کند.
کتاب به مراحل عملی می پردازد. استفاده از ابزارها و تکنیک های مورد نیاز برای بلع داده ها، تشخیص ناهنجاری، انتساب ارزش و مهندسی ویژگی. همچنین تمرینهای طولانیمدتی را در پایان هر فصل برای تمرین مهارتهای بهدستآمده ارائه میدهد.
شما با مشاهده فرمتهای دادهای مانند JSON، CSV، SQL RDBMSes، HDF5، پایگاههای داده NoSQL شروع خواهید کرد. ، فایل ها در قالب های تصویری و ساختارهای داده سریالی باینری. علاوه بر این، این کتاب مجموعه دادهها و فایلهای دادهای نمونههای متعددی را ارائه میکند که برای دانلود و کاوش مستقل در دسترس هستند.
با حرکت از قالبها، مقادیر گمشده را تلقی میکنید، دادههای غیرقابل اعتماد و ناهنجاریهای آماری را شناسایی میکنید، و مصنوعی تولید میکنید. ویژگی هایی که برای تجزیه و تحلیل داده ها و اهداف تجسم موفقیت آمیز ضروری هستند.
در پایان این کتاب، شما درک محکمی از فرآیند پاکسازی داده ها لازم برای انجام کارهای علم داده در دنیای واقعی و یادگیری ماشین کسب خواهید کرد. .
آنچه یاد خواهید گرفت
- تشخیص داده های مشکل مربوط به نقاط داده جداگانه
- تشخیص داده های مشکل در شکل سیستماتیک داده ها
- برطرف کردن یکپارچگی داده ها و مشکلات بهداشتی
- آماده سازی داده ها برای وظایف تحلیلی و یادگیری ماشینی
- مقادیر را به داده های گمشده یا غیرقابل اعتماد وارد کنید
- ویژگی های مصنوعی ایجاد ک
tag : دانلود کتاب پاکسازی داده ها برای علم داده موثر: انجام 80 درصد دیگر کار با پایتون، R و ابزارهای خط فرمان , Download پاکسازی داده ها برای علم داده موثر: انجام 80 درصد دیگر کار با پایتون، R و ابزارهای خط فرمان , دانلود پاکسازی داده ها برای علم داده موثر: انجام 80 درصد دیگر کار با پایتون، R و ابزارهای خط فرمان , Download Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools Book , پاکسازی داده ها برای علم داده موثر: انجام 80 درصد دیگر کار با پایتون، R و ابزارهای خط فرمان دانلود , buy پاکسازی داده ها برای علم داده موثر: انجام 80 درصد دیگر کار با پایتون، R و ابزارهای خط فرمان , خرید کتاب پاکسازی داده ها برای علم داده موثر: انجام 80 درصد دیگر کار با پایتون، R و ابزارهای خط فرمان , دانلود کتاب Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools , کتاب Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools , دانلود Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools , خرید Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools , خرید کتاب Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools ,

نقد و بررسیها
هنوز بررسیای ثبت نشده است.