Exercises – به نام خدا Solved

$ 29.99
Category:

Description

مباحثی در علوم کامپیوتر استاد درس: دکتر اکبریتمرین سوم: خزش داده ها و جمع آوری دادگان دانشگاه صنعتی امیرکبیر
۷ دی ۹۹۳۱ دانشکده ریاضی و علوم کامپیوتر

Data scraping، که به عنوانWeb scraping نیز شناخته می شود ،فرآیند وارد کردن اطلاعات از وب سایت هاو برنامه ها به یک فایلcsv یا پوشه ای در کامپیوتر شخصی شما است. این یکی از کارآمدترین راه ها برایدریافت داده از وب و در برخی موارد فرستادن آن به وب سایت دیگری است. کاربردهای معمول خزش داده ها عبارتند از:
• تحقیق برای محتوای وب و هوش تجاری
• قیمت گذاری برای سایت های سفر رزرو و سایت های مقایسه قیمت
• یافتن سرنخ های فروش و انجام تحقیقات در یک بازار باcrawl منابع داده عمومی (به عنوان مثال
(Twitter وYell
• ارسال اطلاعات محصول از یک سایت تجارت الکترونیکی به یک فروشنده آنلاین دیگر (به عنوان
(Google درShopping مثال قسمت
• ساخت داده گان های مناسب برای الگوریتم های یادگیری ماشین و یادگیری عمیق
۱ شرح پروژه
در این پروژه هدف استخراج تعدادی عکس از سایتHouzz و جمع آوری دادگانی است که می تواند برایانجام کارهای مختلف از جمله تشخیص اشیاء یا دسته بندی عکس ها مفید باشد. ابتدا سایتlewis john را بررسی کنید و توضیح دهید چرا سایتHouzz گزینه ی بهتری برای خزش است. در این بررسی راجع بهمسیرrobots.txt هم تحقیق کنید و این فایل را برای هر دو سایت بررسی کنید. برای خزش مسیر های مربوطبه میزها، صندلی ها، تخت ها و مبل ها را از سایت پیدا کرده و به عنوان ورودی به خزنده بدهید. لازم استاز هر صفحه موارد زیر را جدا کنید:
• اسم محصول
• دو عکس اول هر محصول (در صورت وجود)
This Product Has Been Described As در بخش توضیحات محصول، تگ•
برای این کار می توانید از کتابخانه های مختلف مانندselenium وscrapy استفاده کنید. توضیح دهید تفاوتاستفاده از این دو کتابخانه در چیست؟
۱
۱ .۱ امتیازی
• خودتان باJavaScript یا jquery و ابزارهای مشابه از میان آخرین وبلاگ های به روزشده در بلاگفا، ازهر وبلاگ ۱۰ مطلب اخیر را جمع آوری کنید.
• برخی سایت ها با ردیابیip و مشخصات مرورگر، با محدود کردن دسترسی های با فرکانس بالا از یکip و یا مرورگر، خزش داده ها را مشکل می کند. کد خزنده را طوری بنویسید که در هرn درخواستمتوالی،ip ، مشخصات مرورگر و ویژگی هایی که باJavaScript قابل دریافت و ردیابی است را عوضکند.
۲ معیارهای تصحیح و ارزیابی
• فرمت داده های جمع آوری شده در نهایت منظم باشد و قابلیت استفاده مجدد را داشته باشد.(برایمثال در فرمتjson یاcsv ولی تمیز)!
• مستندسازی برای دیتاست جدیدتان و نوشتن توضیحاتی برای نفرات بعدی ای که از دیتاستاستفاده خواهند کرد.(برای مثال ویژگی هایی مانند این که چند نمونه در دیتاست موجود است،هر نمونه به چه فرمت است و برای چه تسک هایی می توان از این دیتاست استفاده کرد).
• خوانایی کد مورد استفاده برای عملیات خزش
• نوشتن کد مربوط به خزش در قالب یک کلاس پایتون که قابلیت استفاده ی دوباره از آن برایسایت های دیگر هم تا حدودی فراهم باشد.(یعنی کد نوشته شده فقط مخصوص یک وبسایتنباشد و قابلیت تعمیم پذیری داشته باشد).
• قابل اعتماد و منعطف بودن کد خزنده، به طوری که در صورت قطع اینترنت، قطع برق و یا مشکلاتمشابه، کل داده هایی که تا به حال خزش شده اند از دست نرود.
۳ ارسال پاسخ
مهلت ارسال پاسخ۱۵ : دی ۹۹۳۱
مهلت ارسال با تاخیر ۱۰(درصد کسر نمره به ازای هر روز۱۷ 🙂 دی ۹۹۳۱ارتباط با ما
ایمیل: یاسمن امی آرمان ملک زاده
malekzadeh@ieee.org yassi.ommi@gmail.com !موفق باشید
۲

Reviews

There are no reviews yet.

Be the first to review “Exercises – به نام خدا Solved”

Your email address will not be published. Required fields are marked *