خط أنابيب تصنيف النص الذي يستخدم ميزات TF-IDF ومصنف بايز الساذج المتعدد الحدود للتنبؤ بلغة الجمل المدخلة.
يقوم دفتر الملاحظات بتحميل مجموعة البيانات "Language Detection.csv" في pandas (10337 إدخالاً مع عمودي "النص" و"اللغة")، ثم ينقسم إلى مجموعات التدريب والاختبار. يقوم بتحويل النص إلى متجه باستخدام <code data-start=\"2331\" data-end=\"2348\">TfidfVectorizer</code>، ويتناسب مع نموذج <code data-start=\"2357\" data-end=\"2372\">MultinomialNB</code>، ويقيّم الأداء عبر درجة الدقة، ومصفوفة الارتباك، وتقرير التصنيف.</td></tr></tbody></table><table><tbody><tr data-start=\"2511\" data-end=\"2879\"><td data-start=\"2511\" data-end=\"2542\" data-col-size=\"sm\"></td></tr></tbody></table>
استعرض ملف الخاص بالمشروع أدناه أو اطلب نسخة منه.