توضیحات
سرعت Apache Spark، سهولت استفاده، تجزیه و تحلیل پیچیده، و پشتیبانی چند زبانه، دانش عملی این چارچوب محاسباتی خوشهای را برای مهندسان و دانشمندان داده به یک مهارت ضروری تبدیل میکند. با راهنماییهای درج شده در این کتاب عملی کاربردی، هرکسی که به دنبال مقدمهای برای Spark است، الگوریتمها و مثالهای عملی را با استفاده از PySpark یاد خواهد گرفت.
محمود پارسیان نویسندهی کتاب، در هر فصل به شما چگونگی حل یک مسئلهی داده با مجموعهای از تبدیلها و الگوریتمهای Spark را نشان میدهد. شما در این کتاب همچنین یاد خواهید گرفت که چگونه با مشکلات مربوط به ETL، الگوهای طراحی، الگوریتمهای یادگیری ماشین، پارتیشنبندی دادهها و تجزیه و تحلیل ژنومیک مقابله کنید. هر دستورالعمل دقیق شامل الگوریتمهای PySpark با استفاده از درایور و شِل اسکریپت است. این کتاب موارد زیر را هم پوشش میدهد:
- نحوهی انتخاب تبدیلهای Spark برای راهحلهای بهینه را یاد بگیرید.
- تبدیلها و کاهشهای قدرتمند از جمله Reduce ByKey، Combination ByKey، Map Partitions را کاوش کنید.
- پارتیشنبندی دادهها برای پرس و جوهای بهینه شده را درک کرده و بفهمید.
- با استفاده از الگوهای طراحی PySpark یک مدل ساخته و اعمال کنید.
- از الگوریتمهای موتیفییابی برای دادههای نمودار استفاده کنید.
- دادههای نمودار را با استفاده از GraphaFrames API تجزیه و تحلیل کنید.
- الگوریتمهای PySpark را برای دادههای کلینیکال و ژنومیک اعمال کنید.
- نحوهی استفاده و اعمال مهندسی ویژگی در الگوریتمهای ML را بیاموزید.
- الگوهای طراحی دادههای عملی و کاربردی را درک و استفاده کنید