Ebook SEO VietMoz 2013

pdf 187 trang Gia Huy 16/05/2022 2350
Bạn đang xem 20 trang mẫu của tài liệu "Ebook SEO VietMoz 2013", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfebook_seo_vietmoz_2013.pdf

Nội dung text: Ebook SEO VietMoz 2013

  1. Ebook SEO VietMoz 2013 2 About VietMoz Trung tâm đào tạo SEO VietMoz thuộc Công Ty TNHH Truyền Thông VietMoz chính thức thành lập vào ngày 31/05/2013, tuy nhiên những hoạt động đào tạo và tư vấn của chúng tôi thực sự đã bắt đầu từ năm 2010. Khởi nguồn từ những buổi offline cộng đồng và những lớp học SEO với số lượng hạn chế do Mr.Lê Nam (người sáng lập trung tâm SEO VietMoz đồng thời là CEO của VietMoz) trực tiếp đứng lớp và giảng dạy. Sau rất nhiều khóa học trải dài trong nhiều năm qua, trung tâm đào tạo SEO VietMoz đã đào tạo được hàng trăm SEOer và hiện vẫn đang có rất nhiều học viên tiếp tục theo học. Trong đào tạo, VietMoz cố gắng tối đa để thoả mãn yêu cầu của học viên. Không chỉ cung cấp kiến thức trong khoá học, giảng viên của chúng tôi sẽ chia sẻ các kinh nghiệm làm việc, các thông tin bổ ích về ngành Internet Marketing ở Việt Nam. Chúng tôi quan tâm tới sức học của từng học viên trong lớp, với những bạn học yếu hoặc quá bận công việc, VietMoz luôn dành thời gian giúp đỡ thêm để các bạn theo kịp chương trình. Đặc biệt với những học viên xuất sắc, sẽ được mời ở lại làm việc với VietMoz hoặc được VietMoz tiến cử tới các công ty cung cấp dịch vụ SEO và công ty làm các lĩnh vực khác. VietMoz đã, đang và sẽ luôn tìm mọi cách để học viên cảm thấy thoải mái và thuận tiện nhất khi đến lớp học, nhắm đến mục đích cuối cùng là giúp cho việc tiếp thu kiến thức được hiệu quả hơn. Phòng học tại trung tâm đào tạo SEO VietMoz đạt tiêu chuẩn quốc tế với nội thất được thiết kế đặc biệt sẽ mang lại cảm giác dễ chịu và trải nghiệm đặc biệ t cho các học viên. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  2. Ebook SEO VietMoz 2013 3 Trung tâm Đào tạo SEO VietMoz liên tiếp tổ chức các buồi offline miễn phí cho cộng đồng, là nơi thảo luận, tư vấn thắc mắc cho mọi thành viên Để có thêm thông tin về chúng tôi, xin mời các bạn đừng ngại ngần tới thăm quan phòng học của chúng tôi tại: Trung tâm Đào tạo SEO VietMoz Địa chỉ: Hoa Cương Building – Số 18/11 Thái Hà, Đống Đa, Hà Nội Điện thoại: (04) 6292 3344 Email: info@vietmoz.com Bản đồ : Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  3. Ebook SEO VietMoz 2013 4 CHỊU TRÁCH NHIỆM NỘI DUNG Mr. Lee Nam CEO VietMoz BIÊN DỊCH Mr. Tuấn SEOer - VietMoz NHÓM BIÊN SOẠN Mr. Thành Designer - VietMoz Mr. Tùng Coder - VietMoz Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  4. Ebook SEO VietMoz 2013 5 Mục lục Chương 1: Cơ bản về công cụ tìm kiếm 8 Bài 1: Tổng quan về các máy tìm kiếm 9 Bài 2: Tìm kiếm với công cụ tìm kiếm 12 Bài 3: Tìm kiếm nâng cao 14 Bài 4: Dò quét WEBSI TE 16 Bài 5: Indexing 18 Bài 6: Thứ hạng (Ranking) 21 Bài 7: Kiểm tra (10 phút) 24 Chương 2:Thực hành sử dụng toán tử tìm kiếm 25 Bài 1: Căn bản về toán tử tìm kiếm 25 Bài 2: Tìm kiếm title trang web 26 Bài 3: Tìm kiếm trong địa chỉ trang web (URL) 26 Bài 4 : Giới hạn tìm kiếm đến một tên miền cấp 1 nào đó. 26 Bài 5: Lấy về bản cache gần đây nhất của trang web 27 Bài 6: Tìm file pdf trên Internet 27 Bài 7 : Tìm bài viết theo tên tác giả 27 Bài 8: Sử dụng toán tử phủ định 27 Bài 9: Kết hợp toán tử phủ định và toán tử nâng cao 27 Bài 10: Tìm kiếm văn bản neo 28 Chương 3: Tối ưu Onpage 29 Bài 1: Giới thiệu 30 Bài 2: Kỹ thuật tối ưu Onpage và chèn từ khóa 30 Bài 3: Tối ưu hình ảnh 34 Bài 4: Những lỗi thường gặp khi tối ưu Onpage 36 Bài 5: Câu hỏi kiểm tra kiến thức 39 Chương 4: Các yếu tố kỹ thuật trong SEO 40 Bài 1: Vì sao phải nghiên cứu các yếu tố kỹ thuật trong SEO 41 Bài 2: Dò quét và lưu dữ liệu 41 Bài 3: Mã trạng thái HTTP là gì? Chúng được dùng khi nào? 49 Bài 4: Đường dẫn URL – Cấu trúc và cách tối ưu 53 Bài 5: Trùng lặp nội dung và cách khắc phục 55 Bài 6: Tốc độ site – Tầm quan trọng và cách tối ưu 61 Bài 7: Sitemap và RSS Feeds – Tầm quan trọng và tại sao? 63 Bài 8: Những lỗi thường gặp 69 Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  5. Ebook SEO VietMoz 2013 6 Bài 9: Những tool cần biết 72 Bài 10: Câu hỏi kiểm tra 74 Chương 5: Interactive robots.txt 75 Bài 1: Kiến thức cơ bản 76 Bài 2: Chặn cả thư mục 76 Bài 3: Cho phép một đường dẫn cụ thể nào đó 76 Bài 4: Chặn một loại bọ cụ thể 77 Bài 5: Add multiple block 77 Bài 6: Khai báo User-agent cụ thể 78 Bài 7: Cơ bản về ký tự đại diện 78 Bài 8: Chặn tham số 79 Bài 9: Chặn định dạng của file 80 Bài 10: Chỉ ra vị trí sitemap XML 80 Chương 6 : Nghiên cứu từ khóa 81 Bài 1: Thế nào là nghiên cứu từ khóa 82 Bài 2: Giá trị của việc nghiên cứu từ khóa 85 Bài 3: Các loại từ khóa 87 Bài 4: Giới thiệu công cụ nghiên cứu từ khóa của Google 89 Bài 5: Bắt tay xây dựng danh sách từ khóa đầu tiên của bạn 94 Bài 6: Nhóm từ khóa theo từng chủ đề 96 Bài 7: Mở rộng danh sách từ khóa: 98 Bài 9: Tài liệu tham khảo và công cụ hỗ trợ 104 Bài 10: Câu hỏi kiểm tra 106 Chương 7: Information Architecture 107 Bài 1: Giới thiệu về Information Architecture 108 Bài 2: Các loại điều hướng tiêu biểu 109 Bài 3: Những hạn chế của máy tìm kiếm 111 Bài 4: Sử dụng sitemap để tìm ra những lỗi trong cấu trúc website 114 Bài 5: Liên kết nội bộ 117 Bài 6: Điều khiển các máy tìm kiếm 123 Bài 7: Giới thiệu về Faceted Navigation – Điều hướng nhiều chiều 128 Bài 8: Cấu trúc các website quốc tế 133 Bài 9: Công cụ 133 Chương 8: Nghiên cứu đối thủ cạnh tranh 138 Bài 1: Giới thiệu về nghiên cứu đối thủ cạnh tranh 139 Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  6. Ebook SEO VietMoz 2013 7 Bài 2: Phân tích mức độ cạnh tranh của một từ khóa cụ thể 140 Bài 3: Phân tích công ty và website đối thủ 144 Bài 4: Phân tích hệ thống link 150 Bài 5: Competitive Link Growth 154 Bài 6: Các công cụ và tài liệu tham khảo hữu ích 156 Bài 7: Câu hỏi kiểm tra kiến thức 157 Chương 9: Phân tích link 158 Bài 1: Giới thiệu về phân tích link 159 Bài 2: Độ uy tín và giá trị của trang liên kết 160 Bài 3: Mức độ liên quan về nội dung giữa trang đặt liên kết và trang nhận được liên kết 165 Bài 4: Văn bản neo 168 Bài 5: Số lượng và chất lượng link 172 Bài 6: Đặc điểm của link xấu 175 Bài 7: Công cụ phân tích link 178 Bài 8: Hỏi đáp 183 Chương 10: Thực hành cài đặt Google Analytics 184 Bài 1: Tùy chỉnh tham số UA 185 Bài 2: Tạo pageview ảo 185 Bài 3: Theo dõi biến ngẫu nhiên 186 Lời kết 187 Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  7. Ebook SEO VietMoz 2013 8 CHƯƠNG 1 Cơ bản về công cụ tìm kiếm Bài 1 : Tổng quan về các máy tìm kiếm Bài 2 : Tìm kiếm với công cụ tìm kiếm Bài 3 : Tìm kiếm nâng cao Bài 4 : Dò quét WEBSITE Bài 5 : Indexing Bài 6 : Thứ hạng (Ranking) Bài 7 : Kiểm tra (10 phút) Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  8. Ebook SEO VietMoz 2013 9 Bài 1: Tổng quan về các máy tìm kiếm Trong bài này, chúng ta sẽ tìm hiểu về World Wide Web là gì? Lịch sử và vai trò của công cụ tìm kiếm Sơ lược về dò quét, tạo chỉ mục và xây dựng thứ hạng Những tiến bộ gần đây của các công cụ tìm kiếm World Wide Web là gì? Về cơ bản, thế giới web là tập hợp các trang web và các file (thuộc rất nhiều định dạng khác nhau) được liên kết với nhau bởi hệ thống phức tạp của các liên kết hay links. H Các file trên thế giới web này có thể thuộc những định dạng sau: Hình ảnh Videos File pdf Video Flash File Javascript Với nhiều định dạng file khác nhau, nội dung trang web trở nên hấp dẫn hơn, thay vì thuần túy là văn bản. Việc này gây khó khăn cho máy tìm kiếm, đặc biệt vào thời điểm nó mới ra đời. Một phần vì kỹ thuật dò quét chưa thực sự phát triển. Cho đến ngày nay, máy tìm kiếm vẫn gặp khó khăn với một vài định dạng file. Là một người làm SEO, bạn cần biết những định dạng file nào mà máy tìm kiếm gặp khó khăn để không đưa những nội dung quan trọng vào các file này. Lịch sử và vai trò của các máy tìm kiếm Thế giới web mới ra đời trong hơn 20 năm. Ngày đó, máy tìm kiếm vẫn chưa ra đời – các website được biết đến chỉ nhờ truyền miệng, hoặc nhờ một trang web danh bạ chứa địa chỉ của tất cả các trang web khác (web hub). Khi thế giới Internet vẫn còn nhỏ, việc này ko vấn đề gì. Nhưng khi thế giới này mở rộng mạnh mẽ vào những năm tiếp theo, một giải pháp mới là điều bắt buộc. Trong suốt 1993/1994, những máy tìm kiếm đầu tiên đã ra đời bao gồm Excite, AltaVista và Yahoo!. Số lượng các trang web và người dùng tăng lên mạnh mẽ đến mức mà những trang web hub trở nên quá tải và không còn hiệu quả. Năm 1996, Google ra đời. Đây là máy tìm kiếm đầu tiên nhận ra sức mạnh và vai trò của liên kết và sử dụng chúng để đánh giá độ uy tín của trang web. Đây chính là bước đột phá giúp tăng chất lượng bảng kết quả tìm kiếm. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  9. Ebook SEO VietMoz 2013 10 3 công việc chính của máy tìm kiếm: Dò quét, Xây dựng cơ sở dữ liệu và Xếp hạng Về cơ bản: Dò quét: Là quá trình máy tìm kiếm đi tìm những nội dung mới. Họ sử dụng những phần mềm có thể tự động ghé thăm các website và lần theo liên kết trên các trang web để tìm ra những nội dung khác. Xây dựng cơ sở dữ liệu: Các máy tìm kiếm copy nội dung của các trang web mà chúng đã ghé thăm. Dữ liệu này được lưu trữ trên rất nhiều máy tính trong các trung tâm dữ liệu (data center) ở khắp nơi trên thế giới. Điều này giúp cho việc tìm kiếm trở nên nhanh chóng, dễ dàng hơn giúp bạn nhận được kết quả chỉ trong 1/2s hoặc ít hơn. Xếp hạng: Đây là công việc mà các SEO quan tâm nhất. Khi một người tìm kiếm online, các cỗ máy này cần một thuật toán để đánh giá trang web nhằm xác định trang web nào liên quan nhất, và từ đó tính ra thứ hạng của trang web đó trên bảng kết quả Những tiến bộ gần đây của công cụ tìm kiếm Bên cạnh đó, kết quả tìm kiếm không phân biệt theo khu vực. Bất kỳ ai trong một đất nước tìm kiếm một sản phẩm hay dịch vụ đều nhận được một bảng kết quả như nhau. Tuy nhiên, trong những năm gần đây, đã có một số thay đổi: Mạng xã hội: Các trang mạng xã hội như Facebook và Twitter giúp máy tìm kiếm biết chính xác trang web nào đang được quan tâm. Máy tìm kiếm đã nhanh chóng cập nhật tín hiệu này vào thuật toán, giúp bảng kết quả trở nên chính xác hơn, cập nhật hơn. Cá nhân hóa kết quả tìm kiếm: Tương tự, máy tìm kiếm thu thập lịch sử lướt web của người dùng. Lịch sử đó bao gồm: những cụm từ nào được họ tìm kiếm nhiều, những trang web nào họ hay ghé thăm và ở lại lâu. Từ đó, máy tìm kiếm có thể biết mức độ yêu thích của người dùng đối với các trang web. Kết quả là với cùng một cụm từ, bảng kết quả tìm kiếm của người này sẽ có khác biệt với bảng kết quả của người khác. Ví dụ trang web vnexpress.net và 24h.com.vn. Tôi thích trang web này, bạn thích trang web khác. Chúng ta ai cũng có quan điểm của riêng mình. Máy tìm kiếm đã tiến hóa rất nhiều trong những năm gần đây và từ đó thay đổi cách thức tìm kiếm của mọi người, đặc biệt là Google. Cỗ máy này đã trở nên thông minh hơn rất nhiều nhờ cơ chế tự học cũng như khả năng thu thập dữ liệu vượt trội giúp nó có thể cung cấp kết quả phù hợp nhất với mong muốn người dùng. Sự vượt trội này của Google thể hiện qua 2 tính năng dưới đây: Google Suggets: Ra đời từ 8/2008. Khi bạn bắt đầu gõ, Google sẽ đề xuất từ khóa cho bạn, giúp bạn không mất nhiều thời gian mà vẫn biết được từ khóa nào phù hợp nhất cho mình. Google Instant: Ra đời 9/2010, Google Instant thay đổi đáng kể cách tìm kiếm bằng cách ngay lập tức cung cấp kết quả dựa trên những ký tự mà người dùng gõ vào. Bạn sẽ thu được kết quả ngay khi gõ mà không cần nhấn Enter. Là một chuyên gia SEO, bạn không chỉ cần biết những điều này, bạn còn phải nhận thức ảnh hưởng của nó đến công việc. Cụ thể, bạn cần phải biết cách tìm kiếm sẽ thay đổi như thế nào, cụm từ tìm kiếm sẽ thay đổi như thế khi những tính năng này ra đời. Bài tập Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  10. Ebook SEO VietMoz 2013 11 Sử dụng tính năng Google Instant ngay hôm nay và mô tả hoạt động của nó. Ví dụ 1. Tìm kiếm với cụm từ “bún chả”. 2. Mở tab khác tìm với cụm từ “bún chả hà nội” So sánh 2 bảng kết quả và đưa ra kết luận Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  11. Ebook SEO VietMoz 2013 12 Bài 2: Tìm kiếm với công cụ tìm kiếm Trong bài này chúng ta sẽ học về: Giới thiệu về bảng kết quả tìm kiếm Kết quả tìm kiếm hỗn hợp và vai trò của nó với người làm SEO Bảng kết quả tìm kiếm Hình thức truyền thống của bảng kết quả thường bao gồm 10 liên kết hay 10 trang web. Ngoài ra không còn thông tin nào khác. Giờ đây, khi tìm kiếm bạn sẽ nhận được bảng kết quả bao gồm: Tin tức. Hình ảnh. Bản đồ và địa chỉ chi tiết các doanh nghiệp, tổ chức trong vùng. Điểm đánh giá của người dùng. Thông tin sản phẩm. Video. Ví dụ, nếu bạn tìm kiếm với cụm từ “Vietmoz logo”, đến 99% trong bảng kết quả sẽ có hình ảnh logo của Vietmoz. Bảng kết quả của bạn sẽ có hình thù như sau: Đây là lý do mà bảng kết quả này có tên là bảng kết quả hỗn hợp. 2. Kết quả hỗn hợp (blended results) có ý nghĩa gì với các SEOer Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  12. Ebook SEO VietMoz 2013 13 Nếu bạn mở một nhà hàng ở Hà nội, bạn nên lập tài khoản Google Place và sẽ có thể xuất hiện trong bảng kết quả tìm kiếm như nhà hàng Venus ở trên. Nếu được tận dụng tốt, kết quả hỗn hợp mang đến nhiều cơ hội hơn nữa cho bạn, giúp bạn xuất hiện trước mặt khách hàng. Bài tập: Tìm kiếm trên Google Tìm kiếm với những cụm từ sẽ mang lại kết quả hỗn hợp (blended results) bao gồm cả hình ảnh, văn bản và video. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  13. Ebook SEO VietMoz 2013 14 Bài 3: Tìm kiếm nâng cao Trong bài này, bạn sẽ được học về: Giới thiệu các toán tử tìm kiếm Ưu điểm của việc sử dụng toán tử tìm kiếm Cách sử dụng các toán tử tìm kiếm 1. Toán tử tìm kiếm là gì? Toán tử tìm kiếm là những từ khóa bạn sử dụng trong khi tìm kiếm, giúp thu hẹp phạm vi tìm kiếm đến chính xác những gì bạn cần. 2. Những ví dụ về toán từ tìm kiếm: Dưới đây là những toán tử tìm kiếm hay được dùng trong giới SEO: a. Tìm ra những trang đã được index của một website cho trước Câu lệnh tìm kiếm: site:vietmoz.com Toán tử “site” yêu cầu máy tìm kiếm chỉ lấy ra những trang thuộc tên miền đã cho, trong trường hợp này là vietmoz.com b. Tìm những trang web mà tên miền chứa cụm từ cho trước Câu lệnh tìm kiếm: Inurl:forum quần áo Toán tử “inurl” yêu cầu máy tìm kiếm chỉ trả về những trang mà địa chỉ URL của nó có chứa từ hoặc cụm từ đã cho, trong trường hợp này là từ forum. Kết quả trả về là tất cả những diễn đàn có chứa từ quần áo trong nội dung. Những diễn đàn này sẽ rất hữu ích khi bạn xây dựng liên kết để SEO cho một website cũng nói về chủ đề quần áo. Bên cạnh việc sử dụng riêng lẻ từng toán tử, bạn cũng có thể kết hợp chúng với nhau: Nhiều toán tử có thể kết hợp với nhau, ví dụ với 2 toán tử “site” và “inurl” ở trên. Như bạn sẽ thấy ở đây với: site:vnexpress.net inurl:the thao Câu lệnh này sẽ trả về tất cả những trang trong website vnexpress.net mà trong đường dẫn URL có chứa từ “the thao” Ngoài ra, còn rất nhiều toán tử khác đang chờ bạn khám phá. Nếu hứng thú, hãy truy cập vào đường link: 3. Toán tử của các máy tìm kiếm khác Trên đây là những toán tử được dùng chung cho các máy tìm kiếm. Ngoài ra, mỗi máy tìm kiếm cũng có những toán tử riêng. Các toán tử dành cho Bing (máy tìm kiếm của Microsoft) Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  14. Ebook SEO VietMoz 2013 15 Có 2 toán tử bạn có thể sử dụng với Bing mà rất hữu ích với công việc SEO: 1. Toán tử linkfromdomain: Toán tử này sẽ lấy ra tất cả những website đối tác, những người nhận được link trỏ từ domain của bạn: linkfromdomain:vietmoz.com Kết quả trả về cho bạn là tất cả những trang web được website vietmoz.com đặt link trỏ tới. Biết điều này sẽ rất hữu ích trong quá trình xây dựng link: Ví du: Nếu bạn đang muốn lấy link từ một website, bạn có thể xem họ đã đặt link tới những đâu và vì sao họ lại làm vậy. 4. Những tác dụng mà toán tử tìm kiếm mang lại: Với một người làm SEO, toán tử tìm kiếm rút ngắn thời gian làm việc của bạn. Nó giúp bạn tìm ra những website, blog, forum mà bạn có thể đặt link, giúp bạn tìm kiếm theo những định dạng file cụ thể như pdf, word, power point Bài tập: Kiểm tra xem trên website của bạn, hoặc website mà bạn hay ghé thăm có bao nhiêu trang được index Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  15. Ebook SEO VietMoz 2013 16 Bài 4: Dò quét WEBSITE Trong bài này, chúng ta sẽ được học về dò quét website, một trong 3 công việc hàng ngày của máy tìm kiếm. 1. Cách bọ tìm kiếm dò quét website Máy tìm kiếm thực hiện dò quét website nhằm mục đích tìm ra nội dung mới. Máy tìm kiếm làm được việc này nhờ sử dụng những phần mềm hiện đại có thể thu thập thông tin trên Internet. Những chương trình này thường được gọi là bọ tìm kiếm (Spider). Với quy mô ngày càng mở rộng của mạng Internet, công việc này ngày càng tiêu tốn nhiều tài nguyên. Do đó, máy tìm kiếm sử dụng các thuật toán để quyết định xem trang web nào sẽ được dò quét, bao lâu sẽ dò quét, và độ sâu dò quét. Điều này cho phép họ tận dụng tài nguyên của mình một cách hiệu quả nhất có thể. Bài học quan trọng mà các SEOer cần phải nhớ là các máy tìm kiếm se không tự động dò quét trang web của bạn trừ phi chúng có lý do để làm điều đó. Một khi bọ tìm kiếm ghé thăm trang web của bạn, đầu tiên chúng sẽ tìm đến file robots.txt, đây cũng chính là bảng nội quy của trang web và sẽ chỉ ra những trang nào (nếu có) mà chúng không được dò quét. Bạn có thể tìm hiểu nhiều hơn về bảng nội quy đặc biệt này ở những bài học sau. Giả sử rằng con bọ không bị chặn theo cách này, nó sẽ bắt đầu dò quét tất cả các trang web trên website của bạn. Dọc đường đi, nó sẽ lưu lại tất cả các địa chỉ tên miền vào trong một danh sách để sử dụng cho những lần dò quét sau. Giữa dò quét và index (lưu dữ liệu) có sự khác biệt lớn. Dò quét là tìm ra các địa chỉ trang web, trong khi index là thu thập thông tin hay nội dung trong các trang web đó. 2. Những vấn đề mà bọ tìm kiếm thường gặp phải Bọ tìm kiếm là các chương trình máy tính thông minh, tuy nhiên, chúng vẫn chỉ là máy móc và do đó có những hạn chế nhất định Những công nghệ Web có thể gây khó khăn cho bọ tìm kiếm: Website ngày nay sử dụng nhiều công nghệ khác nhau để nâng cao chất lượng đồng thời mang lại trải nghiệm tốt hơn cho người dùng. Tuy nhiên một số công nghệ lại gây khó khăn cho bọ tìm kiếm. Cụ thể là: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  16. Ebook SEO VietMoz 2013 17 Javascript AJAX Flash Nhưng là một người làm SEO, bạn cần biết rằng sử dụng các công nghệ này trong trang web có thể làm khó cho bọ tìm kiếm khi chúng dò quét nội dung của bạn. Những loại nội dung có thể gây khó cho hoạt động của bọ tìm kiếm: Có những loại nội dung mà bọ tìm kiếm không thích, vì chúng không thể đọc được dễ dàng như con người, cụ thể là video và hình ảnh. Trong khi chúng có thể phát hiện và nhận ra sự tồn tại của video hoặc hình ảnh trên một trang web, chúng vẫn chưa đủ khả năng để hiểu đầy đủ nội dung này. Một lần nữa, bọ tìm kiếm đang ngày càng trở nên thông minh hơn nhưng còn xa chúng mới đạt tới trình độ có thể hiểu đầy đủ các loại nội dung như con người. Ví dụ: Máy tìm kiếm sẽ không thể đọc được chữ trên một bức ảnh. Điều tương tự cũng xảy ra với video. Vì vậy cần đảm bảo trang web của bạn không chỉ chứa hình ảnh hoặc video. Bên cạnh hình ảnh, video cần có những đoạn nội dung mô tả. Và những nội dung quan trọng nhất định phải được để trong những định dạng mà máy tìm kiếm có thể dễ dàng hiểu được. Cụ thể là văn bản 3. Các loại bọ tìm kiếm Mỗi máy tìm kiếm có con bọ riêng với cái tên riêng. Ví dụ của Google là googlebot. Của Bing là bingbot. Baidu là Baiduspider. 4. Tài liệu tham khảo Vlog Cơ chế tìm kiếm của Google Spider ( cua-cong-cu-tim-kiem/ ). Tìm hiểu cơ chế tìm kiếm của Google Spider ( co-che-tim-kiem-cua-Google-Spider-46/). Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  17. Ebook SEO VietMoz 2013 18 Bài 5: Indexing Trong bài này chúng ta sẽ học về: Web index là gì? Thu thập thông tin Caching là gì và làm thế nào để kiểm tra bản cache của một trang web? Một khi máy tìm kiếm đã dò quét trang web, chúng cần lưu tất cả những nội dung này vào cơ sở dữ liệu của mình. Tất cả những thông tin này được tổ chức lại và đặt trong tình trạng sẵn sàng cung cấp cho người dùng khi họ tìm kiếm. 1. Cơ sở dữ liệu web (Web index) là gì? Về cơ bản, web index là cơ sở dữ liệu lưu trữ các trang web. Các máy tìm kiếm sử dụng hàng ngìn máy chủ đặt khắp nơi trên thế giới để lưu trữ nhiều tỉ trang web trong CSDL của mình. Việc này đảm bảo người tìm kiếm nhận được kết quả gần như ngay lập tức sau khi họ nhấn nút Enter. 2. Lấy thông tin Khi một người dùng tìm kiếm với một từ khóa, thực tế họ không tìm kiếm trên thế giới web. Họ đang tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm. Các máy tìm kiếm sẽ vào cơ sở dữ liệu của mình và lấy ra các trang web cùng chủ đề. Cụ thể đó là những trang web có chứa từ tìm kiếm hoặc chứa những từ liên quan. Từ đây rút ra được, để tăng độ liên quan của trang web đến từ khóa bạn muốn hướng tới, bạn cần biết chèn từ khóa một cách hợp lý ở những vị trí quan trọng. Bên cạnh đó, cũng không được quên những từ liên quan. Làm thế nào máy tìm kiếm biết được nội dung trang web có liên quan đến từ khóa đang được tìm kiếm a. Sử dụng từ khóa: Máy tìm kiếm tìm xem trong nội dung của trang web có chứa từ khóa đang được tìm kiếm hay không? Nếu người lên Google tìm kiếm với từ bóng đá: Nội dung A: Bóng đá là môn thể thao tập thể, gồm 2 đội thi đấu đối kháng với nhau. Mỗi đội có 11 vận động viên. Trong đó có 1 thủ môn, có quyền chơi bóng bằng tay và được bảo vệ trong vòng cấm địa. Trận đấu được điều khiển bởi 3 trọng tài trong đó có 1 trọng tài chính, 2 trợ lý trọng tài Nội dung B: Với kỹ thuật điêu luyện và khả năng đọc trận đấu cực tốt, Messi đã góp công lớn trong kỳ tích 3 chức vô địch La Liga liên tiếp của Barca. Cũng nhờ điều này mà anh đã 4 năm liền được bầu chọn là cầu thủ hay nhất thế giới. Tóm lại: vì nội dung A chứa từ bóng đá trong khi nội dung B không có mặc dù cũng nói về chủ đề bóng đá, máy tìm kiếm dễ dàng xác định nội dung A liên quan hơn, và từ đó trả về cho người tìm kiếm Rõ ràng là sẽ không còn dễ dàng nếu cả 2 nội dung này cùng chứa từ “bóng đá”. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  18. Ebook SEO VietMoz 2013 19 b. Tần suất xuất hiện * tần số nghịch của từ trong văn bản (Term Frequency*Inverse Document Frequency) Tần số xuất hiện là số lần xuất hiện của từ khóa trong văn bản. Tần số nghịch là tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn. Ví dụ khi bạn tìm kiếm với cụm từ “bóng đá Messi” Nội dung A: Bóng đá là môn thể thao vua, với hàng tỉ người hâm mộ trên toàn thế giới. Các giải bóng đá hàng đầu thế giới có thể kể đến như Ngoại Hạng Anh, Bundesliga Đức hay La Liga Tây Ban Nha. Nội dung B: Trên thị trường chuyển nhượng, hiện Messi là cầu thủ được định giá cao nhất và được rất nhiều câu lạc bộ lớn săn đón. Dù vậy, đội bóng chủ quản của Messi, CLB Barca chưa bao giờ và khả năng sẽ không bao giờ bán ngôi sao lớn này của họ. Với phương pháp TF*IDF: vì từ “Messi” ít phổ biến hơn “bóng đá” nên IDF của “Messi” cao hơn. Với cùng một tỷ lệ TF, thì rõ ràng nội dung B liên quan đến cụm từ truy vấn hơn nội dung A. Và do đó, máy tìm kiếm sẽ trả về nội dung B cho người dùng. Máy tìm kiếm sử dụng IDF. Ví dụ, khi người dùng gửi một truy vấn đến máy tìm kiếm, hệ thống cần biết từ nào là từ người dùng quan tâm nhất. Chẳng hạn: truy vấn của người dùng là "làm thế nào để sửa máy ủi". Sau khi tách từ, chúng ta sẽ có 5 từ đơn như sau: làm, thế nào, để, sửa, máy ủi. Trong các từ này, "máy ủi" sẽ có IDF cao nhất. Hệ thống sẽ lấy ra tất cả các nội dung có chứa từ máy ủi và sau đó sẽ thực hiện việc đánh giá và so sánh dựa trên các từ còn lại trong câu truy vấn. Kết quả sẽ xác định tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn. Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Với máy tìm kiếm đây là những từ có giá trị cao hơn. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó). c. Những từ liên quan (Co-occurrence) Ví dụ, cụm từ tìm kiếm: “tôn ngộ không” Nội dung A: Tôn Ngộ Không còn gọi là Tề Thiên Đại Thánh hay Tề Thiên, là nhân vật chính trong tiểu thuyết Tây du ký, nhân vật giả tưởng có thể được xem là nổi tiếng nhất trong văn học Trung Hoa. Nội dung B: Theo truyền thuyết, Tôn Ngộ Không sinh ra từ một hòn đá và đã học được 72 phép biến hóa (gấp hai lần số phép của Trư Bát Giới). Vì cụm từ “tôn ngộ không” thường được sử dụng với “tây du ký” nên nội dung A liên quan đến cụm từ cần tìm kiếm hơn nội dung B. Do vậy, nó có thứ hạng cao hơn. 3. Caching Để sử dụng hiệu quả nguồn tài nguyên của mình, các máy tìm kiếm sẽ tiến hàng copy nội dung trang web của bạn về máy chủ của họ để dùng cho việc đánh giá thứ hạng. Những bản copy nội dung trang web này được gọi là bản cache. Vì nội dung trang web thường được cập nhật nên máy tìm kiếm Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  19. Ebook SEO VietMoz 2013 20 thường phải quay trở lại để copy nội dung. Tần suất có thể là từ vài tiếng/1 lần đến vài ngày/1 lần hoặc thậm chí lâu hơn. Điều này có nghĩa nội dung của bản cache có thể khác biệt với nội dung hiện tại của trang web. Điều này sẽ lý giải thực tế vì sao: thứ hạng của website không thay đổi mặc dù bạn đã tiến hành tối ưu nó. Thực tế, máy tìm kiếm vẫn đánh giá website dựa trên bản cache cũ, chỉ đến khi nó download nội dung mới – hay tạo bản cache mới thì thứ hạng website của bạn mới thay đổi. Ví dụ, khi bạn bổ sung thêm nội dung để nhắm đến những từ khóa khác, bạn không thể ngay lập tức thấy sự cải thiện về thứ hạng cho đến khi máy tìm kiếm ghé thăm website của bạn lần tới, thấy được nội dung mới và lưu những nội dung này vào bản cache mới của trang web. 4. Cách kiểm tra bản cache của trang web Nếu bạn dùng Google Chrome, bạn có thể dùng lệnh sau: cache:vnexpress.net Khi tìm kiếm, bạn sẽ thấy bản cache đã được Google lưu của trang web này. Bạn cũng có thể kiểm tra phiên bản chỉ chứa text hay chữ, phiên bản Google nhìn thấy. Việc này sẽ giúp bạn biết thực tế Google có thể thấy những gì trên trang web của bạn. Bài tập: Kiểm tra bản cache trên Google, và so sánh với bản hiện tại. tìm ra những điểm khác biệt nếu có. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  20. Ebook SEO VietMoz 2013 21 Bài 6: Thứ hạng (Ranking) Trong bài học này, chúng ta sẽ được học về: Điều gì xảy ra khi bạn thực hiện tìm kiếm? Cá nhân hóa kết quả tìm kiếm ảnh hưởng gì đến thứ hạng website? Cá nhân hóa ảnh hưởng gì đến những người làm SEO? Phần cuối cùng trong quá trình chính là phần chúng ta thường thấy nhất – Kết quả tìm kiếm. Đây cũng là phần mà chúng ta quan tâm nhiều nhất. 1. Điều gì xảy ra khi bạn thực hiện tìm kiếm? Đây là sơ đồ mô tả những sự kiện sẽ diễn ra khi bạn thực hiện tìm kiếm trên Google: Về cơ bản, sau khi nhận được truy vấn tìm kiếm, máy chủ sẽ xác định nội dung chính của truy vấn này. Và sau đó lọc ra danh sách tất cả những trang web có chung chủ đề. Sau đó máy tìm kiếm đánh giá dựa trên những trang web đó, và xếp trang web phù hợp nhất với cụm từ tìm kiếm ở vị trí đầu tiên, cũng như các vị trí tiếp theo. Qua thời gian, máy tìm kiếm dần trở nên thông minh hơn. Chúng bắt đầu học hỏi từ hành vi của người dùng để nâng cao chất lượng tìm kiếm. Ví dụ, chúng có thể đo lường khoảng thời gian kể từ khi một người dời khỏi bảng kết quả tìm kiếm để ghé thăm một website đến khi họ nhấn nút Back để quay trở lại chính bảng kết quả đó. Khoảng thời gian này sẽ ngắn khi website có nội dung hoặc hình thức Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  21. Ebook SEO VietMoz 2013 22 không tốt và không đáp ứng được mong muốn của người dùng. Nếu việc này xảy ra lặp đi lặp lại, website đó sẽ bị mất thứ hạng. 2. Kết quả tìm kiếm được cá nhân hóa Như các bạn đã biết, các máy tìm kiếm thường thu thập dữ liệu về hành vi người dùng để xem người dùng có hài lòng với bảng kết quả tìm kiếm không. Điều này không chỉ giúp tăng chất lượng bảng kết quả mà còn sinh ra một thực tế rằng: Dù tìm kiếm với cùng một từ khóa, mỗi cá nhân sẽ nhận được một bảng kết quả khác nhau. Điều này là do mỗi người có một lịch sử tìm kiếm cũng như hành vi tìm kiếm khác nhau. Google là người đi tiên phong trong việc cá nhân hóa kết quả tìm kiếm, đến mức mà nhiều người đã phải e ngại vì sự nhiệt tình trong việc thu thập dữ liệu người dùng của Google. Họ giới thiệu về cá nhân hóa kết quả tìm kiếm vào năm 2005 ( personal.html) và chính thức áp dụng nó trên toàn cầu kể từ năm 2009 ( Cụ thể, Kết quả tìm kiếm khi bạn tìm kiếm ẩn danh sẽ khác biệt ít nhiều với kết quả khi bạn đã đăng nhập vào tài khoản Google Account. Nếu bạn đã đăng nhập vào tài khoản Google, Google sẽ sử dụng lịch sử tìm kiếm của tài khoản đó để cá nhân hóa kết quả tìm kiếm. Họ sẽ xem những website nào bạn thường ghé thăm và rồi xếp hạng những website đó ở vị trí cao hơn. Bạn có thể xem lịch sử tìm kiếm ứng với tài khoản Google của bạn tại đây ( Nếu bạn không đăng nhập vào tài khoản Google, Google vẫn sẽ cá nhân hóa kết quả tìm kiếm của bạn dựa vào cookie (định nghĩa về cookie terms-cookie). Lưu ý là Google chỉ sử dụng dữ liệu cookie của 180 ngày gần nhất. Là một người làm SEO, có vài điều bạn cần lưu ý về việc cá nhân hóa kết quả tìm kiếm: Phần mềm kiểm tra thứ hạng giờ trở nên ít hữu ích hơn Việc mang đến trải nghiệm tốt cho người dùng trở nên quan trọng hơn Khi kiểm tra thứ hạng bằng tay, bạn nên sử dụng một trình duyệt sạch chưa có lịch sử tìm kiếm. Nếu không kết quả bạn nhận được sẽ không chính xác. Tích hợp mạng xã hội Google+ trong kết quả tìm kiếm Vào tháng 1 năm 2012, Google tiến một bước dài trong việc cá nhân hóa kết quả tìm kiếm. Lần này là việc tích hợp mạng xã hội Google+ (mạng xã hội của riêng họ và đã vươn lên trở thành mạng xã hội lớn thứ 2 thế giới chỉ sau Facebook). Chúng ta có thể dễ dàng nhìn thấy ảnh hưởng của mạng xã hội này lên bảng kết quả tìm kiếm: Những trang web được bạn bè trong vòng kết nối G+ của chúng ta “cộng 1” sẽ có thứ hạng cao hơn khi ta tìm kiếm. Là một người làm SEO, bạn cần chú ý những điểm như sau: Thường xuyên theo dõi và đánh giá ảnh hưởng của Google+ lên bảng kết quả tìm kiếm, đặc biệt trong lĩnh vực của bạn Đảm bảo các website của bạn hoặc những website bạn đang tối ưu cho khách hàng có cài đặt bản quyền tác giả Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  22. Ebook SEO VietMoz 2013 23 Tích hợp các chức năng của Google+ lên website của bạn để khuyến khích người dùng sử dụng Bài tập Bạn mở 2 trình duyệt, một trình duyệt có đăng nhập tài khoản Google, một trình duyệt thì không. Sau đó tìm kiếm trên Google với cùng 1 từ khóa và chỉ ra sự khác nhau giữa 2 bảng kết quả. Lý giải tại sao lại có sự khác biệt đó? Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  23. Ebook SEO VietMoz 2013 24 Bài 7: Kiểm tra (10 phút) 1. Liệt kê 5 loại file mà máy tìm kiếm không thể dò quét và index chính xác: Hình ảnh, video, flash, ajax, javascript 2. Liệt kê 3 công việc chủ yếu của máy tìm kiếm: Dò quét, lưu dữ liệu và xếp hạng website 3. Miêu tả 2 cách mà việc cá nhân hóa kết quả tìm kiếm ảnh hưởng đến công việc của các SEOs: Tích hợp mạng xã hội Google+ vào bảng kết quả tìm kiếm Máy tìm kiếm dựa vào lịch sử tìm kiếm và hành vi người dùng (lưu trữ trong tài khoản Google hoặc cookies) để tối ưu hóa bảng kết quả tìm kiếm Do đó: Việc kiểm tra thứ hạng từ khóa trở nên ít chính xác hơn và trải nghiệm người dùng trở nên quan trọng hơn 4. Toán tử tìm kiếm nào được sử dụng để xác định xấp xỉ số lượng trang được index trong Google Toán tử site. Cấu trúc câu lệnh site:domain.com Tài liệu tham khảo: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  24. Ebook SEO VietMoz 2013 25 CHƯƠNG2 Thực hành sử dụng toán tử tìm kiếm Bài 1 : Căn bản về toán tử tìm kiếm Bài 2 : Tìm kiếm title trang web Bài 3 : Tìm kiếm trong địa chỉ trang web (URL) Bài 4 : Giới hạn tìm kiếm đến một tên miền cấp 1 nào đó. Bài 5 : Lấy về bản cache gần đây nhất của trang web Bài 6 : Tìm file pdf trên Internet Bài 7 : Tìm bài viết theo tên tác giả Bài 8 : Sử dụng toán tử phủ định Bài 9 : Kết hợp toán tử phủ định và toán tử nâng cao27 Bài 10 :Tìm kiếm văn bản neo Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  25. Ebook SEO VietMoz 2013 26 Bài 1: Căn bản về toán tử tìm kiếm Toán tử tìm kiếm giúp bạn tìm kiếm dễ dàng hơn Ngoài cách tìm kiếm thông thường, các máy tìm kiếm chính còn cung cấp các toán tử nâng cao giúp bạn tìm ra đúng thứ mình muốn. Trong bài này, chúng ta sẽ tìm hiểu tất cả những toán tử hữu ích cũng như cách kết hợp chúng lại để tìm ra đúng thứ bạn cần. Những toán tử dưới đây được dùng riêng cho Google vì dù sao đây cũng là cỗ máy tìm kiếm phổ biến nhất. Bạn có thể tìm hiểu thêm về các toán tử nâng cao tại đây: ( Bài tập: Để tìm kiếm tất cả các trang web có chứa từ ngọc trinh trên website vnexpress.net Bạn sẽ sử dụng câu lệnh nào? Trả lời: ngọc trinh site:vnexpress.net Bài 2: Tìm kiếm title trang web Với câu lệnh “site:vnexpress.net bóng đá”, kết quả nhận được sẽ là tất cả các trang web có nội dung chứa từ “bóng đá” nằm trong website vnexpress.net Với intitle:keyword, kết quả thu được sẽ là các trang web mà trong title của nó có chứa từ keyword Bài tập: Để tìm kiếm tất cả các trang web trong website vietmoz.net có title chứa từ “seo”, bạn sẽ dùng câu lệnh nào? Trả lời: site:vietmoz.net intitle:seo Bài 3: Tìm kiếm trong địa chỉ trang web (URL) Với inurl:keyword, bạn có thể thu gọn phạm vi tìm kiếm để kết quả trả về là những trang web có chứa keyword trong địa chỉ URL. Bài tập: Để tìm kiếm tất cả các trang web trong website vnexpress.net mà có địa chỉ URL chứa từ “hai- huoc”, bạn sẽ dùng câu lệnh nào? Trả lời: site:vnexpress.net inurl:hai-huoc Bài 4 : Giới hạn tìm kiếm đến một tên miền cấp 1 nào đó. Với toán tử site, Ngoài cấu trúc tìm kiếm site:domain.com. Ta còn có site:sub-domains.com (Ví dụ : site www.vnexpress.net) và site:.net (Tìm kiếm với tất cả các website có đuôi là .net) Bài tập : Bạn dùng câu lệnh nào để tìm kiếm tất cả các trang web có đuôi .edu và chứa cụm từ seo training Trả lời : site:.edu « seo training » Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  26. Ebook SEO VietMoz 2013 27 Bài 5: Lấy về bản cache gần đây nhất của trang web Toán tử cache sẽ trả về phiên bản gần nhất của trang web đang được lưu giữ trong cơ sở dữ liệu của máy tìm kiếm. Bài tập : Bạn hãy tìm bản cache của website vnexpress.net. Xem thời điểm nó được tạo ra là khi nào và so sánh nó với phiên bản hiện thời xem có gì khác biệt không ? Bài 6: Tìm file pdf trên Internet Với câu lệnh inurl:pdf site:vnexpress.net, kết quả nhận được là tất cả các trang web trên site vnexpress có cụm từ « pdf » trong địa chỉ URL, bất kể chúng có phải là file pdf hay không. Nếu bạn chỉ muốn tìm file pdf, hãy sử dụng toán tử filetype:pdf. Toán tử này cũng có thể dùng với với các định dạng file khác như doc, ppt Bài tâp : Để tìm tất cả các file pdf trong website vnexpress.net. Bạn sẽ sử dụng câu lệnh nào ? Trả lời : filetype:pdf site:vnexpress.net Bài 7 : Tìm bài viết theo tên tác giả Chúng tôi tin rằng bản quyền tác giả đóng vai trò ngày càng quan trọng trong thế giới marketing hiện đại. (như Tom Anthony đã đề cập trong bài viết dưới đây operators/#inpostauthor) Sử dụng toán tử inpostauthor, cho phép bạn tìm kiếm bài viết theo tên tác giả. Nếu có đầy đủ họ tên, bạn phải để chúng trong dấu ngoặc kép. Bài tập: tìm kiếm tất cả những bài do tác giả Rand Fishin viết trên website:moz.com, bạn sẽ dùng câu lệnh nào? Trả lời: inpostauthor:”randfish” site:moz.com Bài 8: Sử dụng toán tử phủ định Đặt dấu – (hay dấu âm) trước các toán tử đã học và chúng ta sẽ được toán tử nghịch đảo của chúng. Toán tử nghịch đảo sẽ tìm ra những trang web không chứa từ hoặc cụm từ tìm kiếm. Điều này cũng áp dụng với từ khóa. Ví dụ tìm kiếm với -“bóng đá” sẽ ra bảng kết quả chứa tất cả những trang web không chứa từ “bóng đá”. Tương tự, -site:vietmoz.net, sẽ sinh ra bảng kết quả chứa tất cả các trang web trên mạng ngoại trừ các trang web từ website vietmoz.net Bài tập: Tìm tất cả những trang web có chứa từ “thể thao” nhưng không chứa từ “bóng đá” trong nội dung Trả lời: “thể thao” -“bóng đá” Bài 9: Kết hợp toán tử phủ định và toán tử nâng cao Bài tập: Sử dụng tất cả những gì bạn được học. Tìm kiếm tất cả các trang web trên domain vietmoz.net mà không nằm trên www.vietmoz.net Trả lời: site:vietmoz.net -site:www.vietmoz.net Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  27. Ebook SEO VietMoz 2013 28 Bài 10: Tìm kiếm văn bản neo Câu lệnh dưới đây dùng để lọc ra các trang web trên vietmoz.net không chứa từ “seo” trong title: site:vietmoz.net -intitle:seo Toán tử inanchor sẽ trả về tất cả trang web có văn bản neo (văn bản đại diện cho link – là dòng chữ xanh và thường được gạch chân) chứa từ khóa tìm kiếm. Bài tập: Tìm tất cả các văn bản neo trên vietmoz.net có chứa từ “vietmoz” Trả lời: inanchor:vietmoz site:vietmoz.net Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  28. Ebook SEO VietMoz 2013 29 CHƯƠNG 3 Tối ưu Onpage Bài 1 : Giới thiệu Bài 2 : Kỹ thuật tối ưu Onpage và chèn từ khóa Bài 3 : Tối ưu hình ảnh Bài 4 : Những lỗi thường gặp khi tối ưu Onpage Bài 5 : Câu hỏi kiểm tra kiến thức Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  29. Ebook SEO VietMoz 2013 30 Bài 1: Giới thiệu Tối ưu Onpage là việc đảm bảo nội dung của website liên quan đến từ hoặc cụm từ khóa mà bạn đang nhắm tới. Đây là phần rất quan trọng trong hầu hết các dự án SEO. Cụ thể, tối ưu Onpage bao gồm những công việc chính sau đây: Xác định chính xác những từ và cụm từ bạn sẽ nhắm tới. Chọn trang web để tối ưu. Nếu chưa có phải lên kế hoạch lập website mới. Viết nội dung hướng đến những từ và cụm từ này. Tối ưu tất cả các thành phần trên trang để chúng chứa những từ và cụm từ này. Tối ưu Onpage là cần thiết nhưng vẫn chưa đủ để có một thứ hạng cao. Đầu tiên của bạn phải quan tâm đến chất lượng nội dung. Nội dung của bạn phải thật chất lượng và hữu ích, làm cho người dùng cảm thấy thỏa mãn khi tìm đến website của bạn. Trong quá trình học về cách tối ưu Onpage hãy luôn ghi nhớ: “Chừng nào việc tối ưu Onpage của bạn không ảnh hưởng đến chất lượng bài viết và vẫn mang lại trải nghiệm thật tốt cho người dùng, lúc đó bạn mới nên tối ưu ” Bài 2: Kỹ thuật tối ưu Onpage và chèn từ khóa Trong bài này chúng ta sẽ học về: Thẻ tiêu đề Thẻ mô tả Địa chỉ URL Header Bài viết Hình ảnh Nói một cách đơn giản, chèn từ khóa hợp lý sẽ giúp nâng thứ hạng cho trang web, nhưng chèn như thế nào, ở đâu, mật độ bao nhiêu? Tất cả sẽ được giải đáp trong phần dưới đây. 1. Tiêu đề trang Ta sẽ thấy tiêu đề trang trong code HTML, vị trí của nó nằm giữa 2 thẻ và . Ví dụ: Nội dung tiêu đề trang Tiêu đề trang là thành phần on-page quan trong nhất vì máy tìm kiếm rất coi trọng yếu tố này, do vậy bạn phải nhớ chèn từ khóa vào tiêu đề trang. Ngoài ra, trong bảng kết quả tìm kiếm, tiêu đề trang là thành phần nổi bật nhất, có kích thước lớn nhất, màu nổi nhất so với tất cả các thành phần khác. Tiêu đề trang cũng được dùng làm đường link dẫn Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  30. Ebook SEO VietMoz 2013 31 đến trang web đích. Vì vậy bạn cần đảm bảo có một tiêu đề trang ngắn gọn, chiều dài không quá 70 ký tự, để tránh bị cắt ngắn trên bảng kết quả. Để kiểm tra xem tiêu đề trang web của bạn hiển thị như thế nào trong bảng kết quả tìm kiếm, truy cập trang web sau, điền địa chỉ website của bạn vào và xem kết quả. Để viết một title hấp dẫn, bạn có thể học cách viết tiêu đề trên báo chí. Và nhớ chèn lời thúc giục mua hàng bất cứ khi nào có thể. Tham khảo thêm bài viết: Tối ưu thẻ tiêu đề: 2. Thẻ mô tả Cấu trúc thẻ mô tả: Nội dung thẻ mô tả được dùng làm phần tóm tắt, giới thiệu về trang web trong bảng kết quả tìm kiếm. Đồng thời, nó cũng được sử dụng làm phần mô tả cho một đường link khi nó xuất hiện trên các trang mạng xã hội. Thẻ mô tả không dùng trong việc tính toán thứ hạng nhưng lại rất quan trọng trong việc thu hút khách hàng. Cùng với tiêu đề, thẻ mô tả là ấn tượng đầu tiên mà khách hàng có khi họ tìm kiếm trên Google. Một đoạn mô tả hấp dẫn, có chứa từ khóa (sẽ được bôi đậm nếu nó chứa cụm từ tìm kiếm), chắc chắn sẽ mang lại nhiều lượt truy cập hơn. Cùng với thẻ tiêu đề, thẻ mô tả cũng bị cắt ngắn nếu vượt quá số lượng ký tự cho phép. Vì vậy, hãy đảm bảo số lượng ký tự trong thẻ mô tả của bạn không vượt quá 150 ký tự. Tham khảo thêm bài viết: Tối ưu thẻ mô tả: 3. Địa chỉ URL URL cũng là một yếu tố dùng để xếp hạng, do vậy bạn cũng nên chèn từ khóa khi có thể, các từ nên phân cách bởi dấu gạch ngang. Ví dụ: Khi cần thiết bạn nên nhờ đội ngũ kỹ thuật chỉnh sửa lại địa chỉ URL. Khi thay đổi một địa chỉ đã có, nhớ sử dụng redirect 301 từ trang cũ sang trang mới. Việc này sẽ đảm bảo trang mới được kế thừa tất cả sức mạnh của trang cũ. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  31. Ebook SEO VietMoz 2013 32 Bên cạnh việc nâng cao thứ hạng, chèn từ khóa vào trong URL còn mang lại nhiều lợi ích phụ khác. Thứ nhất, người dùng khi xem qua đường link sẽ biết nội dung của trang web là gì. Thứ hai, khi trang web được mang đi chia sẻ, đường link của nó đồng thời là văn bản neo. Việc có từ khóa trong văn bản neo cũng lại là một yếu tố giúp tăng hạng cho website của bạn. Nhiều khi các diễn đàn tự động chuyển địa chỉ URL trong bài viết của thành viên thành các liên kết HTML. Điều này có nghĩa là bản thân địa chỉ URL đó sẽ trở thành văn bản neo. Kết quả là, nếu URL chứa từ khóa thì văn bản neo cũng sẽ chứa từ khóa, điều này sẽ giúp tăng thứ hạng website. Ví dụ, một khi địa chỉ URL được chuyển thành link, sẽ giúp tăng thứ hạng cho website vietmoz.com với từ khóa đào tạo seo hoặc dao tao seo Tham khảo bài viết: Tìm hiểu về URL: 9 kỹ thuật tối ưu hóa URL: 4. Thẻ Heading Cấu trúc các thẻ heading Headline Subheading Subheading là thẻ Headline. Bạn đã từng đọc báo chưa ? Headline chính là dòng chữ to nhất, thường nằm ở phần trên cùng mỗi bài báo. Còn dưới nó, phân bố trong nội dung bài viết là những sub-heading (h2), là những đoạn text có kích cỡ nhỏ hơn nhưng vẫn nổi bật hơn phần còn lại của bài viết. Ở những cấp thấp hơn, chúng ta có h3, h4. Tóm lại, Headline là thành phần quan trọng nhất, kế đến là các Sub- Heading. Chỉ cần đọc qua heading ta có thể hiểu sơ về nội dung bài viết, vì vậy các máy tìm kiếm thường sử dụng heading trong việc tính toán độ liên quan của website với từ khóa tìm kiếm. Như các bạn đã biết, độ liên quan càng lớn, thứ hạng website càng cao. 5. Nội dung bài viết Sử dụng từ khóa mục tiêu trong thân bài viết sẽ rất hữu ích, chừng nào nó được chèn một cách hợp lý và tự nhiên kèm theo biến thể và những từ liên quan của nó. Bạn cần tuyệt đối tránh việc nhồi nhét từ khóa vì không chỉ bạn sẽ mất điểm trong mắt người dùng mà trang web của bạn cũng có nguy cơ phải chịu những hình phạt từ Google. Nhẹ thì mất thứ hạng, nặng thì bạn có thể biến mất luôn khỏi cơ sở dữ liệu của các máy tìm kiếm. 6. Hình ảnh Nhớ chèn từ khóa vào trong tên ảnh cũng như trong thẻ mô tả ảnh của bất kỳ ảnh nào trên trang web. Việc này sẽ giúp tăng thứ hạng website. 7. Thẻ từ khóa Nói chung, bạn không cần quan tâm đến thẻ từ khóa (vì nó không còn được các máy tìm kiếm sử dụng trong công thức tính toán thứ hạng). Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  32. Ebook SEO VietMoz 2013 33 Tuy nhiên, khi nghiên cứu đối thủ cạnh tranh, bạn nên nghiên cứu thẻ từ khóa của họ để xem đối thủ đang hướng tới những từ khóa nào. Bài tập: Tìm một trang biết sử dụng hiệu quả hình ảnh và thẻ mô tả (sử dụng add-on Web Developer cài trên Firefox) Bạn đã được học về những kỹ thuật Onpage cơ bản để tăng thứ hạng website. Onpage tốt ngoài ra cũng sẽ mang lại nhiều lợi ích khác cho bạn như: tăng lượng truy cập, quảng bá thương hiệu. 8. Bôi đậm Google sẽ bôi đậm cụm từ tìm kiếm nếu nó xuất hiện trong tiêu đề, địa chỉ URL và thẻ mô tả. Ví dụ khi tôi lên Google tìm kiếm với từ khóa “học seo” Tất cả 3 từ “học”, “SEO” và “học SEO” đều được bôi đậm, bất kể nó xuất hiện ở đâu, ở thẻ tiêu đề, ở địa chỉ URL hay ở thẻ mô tả. Việc này sẽ tăng lượng truy cập của người dùng. 9. Tài liệu tham khảo Tutorial: Hướng dẫn làm Google Author o Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  33. Ebook SEO VietMoz 2013 34 Bài 3: Tối ưu hình ảnh Trong bài này chúng ta sẽ được học về: Thẻ mô tả ảnh Tên ảnh Chữ xung quanh ảnh Kích cỡ và định dạng ảnh Tối ưu một số yếu tố có thể giúp bài viết cũng như hình ảnh của bạn có được thứ hạng cao trên bảng kết quả tìm kiếm (Lưu ý:hiện nay kết quả tìm kiếm có thể bao gồm cả hình ảnh, video, tin tức, chứ không chỉ đơn thuần là các trang web như trong bảng kết quả truyền thống). Do vậy, nếu được tối ưu tốt, hình ảnh của bạn cũng có thể có được thứ hạng cao trên bảng kết quả. Thẻ mô tả ảnh Để tối ưu thẻ mô tả, bạn cần biết bố trí từ khóa hợp lý trong nội dung thẻ này. Mục đích của thẻ mô tả ảnh đúng như tên gọi, là để mô tả ảnh. Nếu trình duyệt của bạn không thể đọc được hình ảnh, nó sẽ hiển thị nội dung thẻ mô tả ảnh, giúp bạn biết ảnh đó nói về cái gì. Vì vậy bổ sung nội dung thể mô tả ảnh là việc làm không thể thiếu, nó tốt cho cả máy tìm kiếm lẫn người dùng. Máy tìm kiếm cũng giống như người khiếm thị. Nó không thể nhìn thấy ảnh của bạn. Để hiểu nội dung của ảnh nó hoàn toàn dựa vào thẻ mô tả ảnh và các nội dung xung quanh ảnh. Vì vậy bạn không được quên chèn từ khóa vào trong thẻ này. Thẻ mô tả có cấu trúc như sau: Lưu ý là khi hình ảnh được dùng làm liên kết trỏ tới một website nào đó thì thẻ mô tả đồng thời được sử dụng làm văn bản neo. Vì vậy, bạn một lần nữa không nên quên bổ sung từ khóa vào thẻ mô tả ảnh Tên ảnh Cũng giống như thẻ mô tả, để tối ưu tên ảnh bạn cần chèn từ khóa hợp lý trong tên ảnh. Nếu tên ảnh có 2 từ trở lên, phân cách các từ này bằng dấu gạch nối. Ví dụ: tu-khoa-cua-ban.jpg, lưu ý đổi tên trước khi tải ảnh lên website hoặc server của bạn. Chữ xung quanh Những đoạn chữ nằm ở phía trước, phía sau hoặc hai bên (nếu có) (bao gồm đoạn chú thích ảnh) cũng có ảnh hưởng đến thứ hạng của hình ảnh trên bảng kết quả tìm kiếm. Đảm bảo rằng những đoạn văn bản này liên quan chặt chẽ đến hình ảnh đồng thời có chèn từ khóa và các cụm từ liên quan. Văn bản neo Nếu mục đích của bạn là SEO hình ảnh, đừng quên chèn từ khóa vào trong văn bản neo của những links trỏ đến hình ảnh của bạn. Đây là yếu tố giúp hình ảnh của bạn tăng hạng. Kích cỡ và định dạng ảnh Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  34. Ebook SEO VietMoz 2013 35 Theo kinh nghiệm của các chuyên gia SEO, bạn nên sử dụng những hình ảnh có kích cỡ hợp lý. Hình ảnh quá nhỏ thì người dùng sẽ phải căng mắt lên để nhìn. Hình ảnh quá lớn thì sẽ làm kéo dài thời gian tải trang. Tuy nhiên, vẫn có ngoại lệ nếu hình ảnh đó là hình đại diện (thumbnail), các hình infographics cần kích cỡ lớn để mô tả nội dung. Thêm vào đó, chỉ nên sử dụng các định dạng phổ biến như JPG, GIF hoặc PNG Bài tập: Thử tìm kiếm với từ “iphone”, và tìm những hình ảnh không liên quan đến dòng điện thoại này. Lý giải tại sao những hình ảnh này lại có mặt trong bảng kết quả. Vì Google không thể đọc được hình ảnh. Chúng chỉ căn cứ vào các yếu tố liên quan như thẻ mô tả, tên ảnh, lời chú thích và các đoạn text xung quanh. Nếu bạn tối ưu tất cả những yếu tố này, ảnh của bạn sẽ có thứ hạng trên bảng kết quả bất kể nội dung ảnh không liên quan đến từ được tìm kiếm. Tài liệu tham khảo: Kỹ thuật tối ưu hình ảnh: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  35. Ebook SEO VietMoz 2013 36 Bài 4: Những lỗi thường gặp khi tối ưu Onpage Có những lỗi mà người làm SEO thường mắc phải và có thể làm mất thứ hạng website: Tối ưu quá đà Nhồi nhét từ khóa Trùng lặp nội dung Sao chép nội dung mẫu Tạo ra 2 nội dung khác nhau, một cho Google, một cho người dùng 1. Tối ưu quá đà Tối ưu Onpage quá đà là sử dụng quá nhiều kỹ thuật SEO trên trang, kết quả là thứ hạng không thấy đâu, có khi lại bị Google phạt. Việc này có thể khắc phục bằng cách tối ưu lại trang về mức có thể chấp nhận được. Dưới đây là checklist mà Google sử dụng để đánh giá xem một trang web có tối ưu quá đà hay không? Hình phạt sẽ được áp dung khi trang web vi phạm một vài trong số những điều dưới đây: Sử dụng quá nhiều từ khóa trong title Sử dụng quá nhiều từ khóa trong bài viết Sử dụng quá nhiều từ khóa trong địa chỉ URL Khi bạn đã sửa chữa những lỗi này và Google đã dò quét lại trang web và ghi nhận sự sửa chữa, Google sẽ gỡ bỏ hình phạt cho bạn. 2. Trùng lặp nội dung Tốt nhất là tuyệt đối tránh việc trùng lặp nội dung giữa các trang web trên website của bạn cũng như với các trang web bên ngoài. Việc này sẽ làm cho nội dung của bạn bị giảm giá trị, và gây ra nhầm lẫn cho người dùng lẫn máy tìm kiếm. Ví dụ, nếu một website có 2 trang web có nội dung giống nhau. Người dùng cũng như máy tìm kiếm không biết nội dung nào là bản chính, nội dung nào là bản phụ. Người dùng không biết nên tin vào nội dung nào, máy tìm kiếm cũng không biết nên đưa nội dung nào lên bảng kết quả. Thêm vào đó, sử dụng những nội dung giống nhau trên cùng một trang sẽ chỉ mang lại kết quả với một số ít từ khóa trong khi bạn còn rất nhiều từ khóa có giá trị không kém. Hơn nữa, những nội dung trùng lặp này không mang lại giá trị gì cho người dùng và sẽ khiến website của bạn mất điểm trong mắt họ. Khi Google nhìn thấy nội dung trùng lặp, nó sẽ ưu tiên nội dung từ các website uy tín trong khi các website kém uy tín hơn sẽ phải xếp sau. 3.Sao chép nội dung mẫu Ví dụ bạn có một shop bán điện thoại di động online. Bạn sẽ nhận thông tin mô tả về sản phẩm từ đâu? Chắc chắn là từ nhà sản xuất. ví dụ với iPhone 5, bạn sẽ lấy thông tin từ Apple. Thực tế có rất nhiều người cũng kinh doanh điện thoại iPhone 5 và cũng giống bạn họ lấy thông tin mô tả sản phẩm từ nhà sản xuất để đưa lên website thay vì tự viết nội dung của riêng mình. Việc này vô tình sẽ tạo ra Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  36. Ebook SEO VietMoz 2013 37 những nội dung trùng lặp. Nếu nội dung của bạn cũng giống họ, lý do gì Google xếp website của bạn cao hơn những người khác. Để có thứ hạng tốt, đoạn miêu tả sản phẩm của bạn phải thật sự độc đáo, điều này có nghĩa là mọi thứ trong nội dung của bạn: từ đoạn miêu tả đến đặc tính kỹ thuật sản phẩm cần phải được viết lại để trở nên hoàn toàn độc đáo. Nguyên tắc trên cũng áp dụng cho viết blog. Có rất nhiều blog chỉ đơn giản đi copy lại nội dung từ các blog khác. Google thừa khả năng để biết một nội dung do ai viết ra, và sẽ cho những nội dung đó thứ hạng cao hơn các nội dung đi sao chép. Tuy nhiên có một ngoại lệ khi các website sao chép có độ uy tín cao hơn (PR cao hơn), chúng đôi khi được xếp trên website của bạn. Tối ưu nội dung sẽ giúp bạn có thứ hạng tốt, điều đó không phải bàn cãi. Tối ưu nội dung bao gồm việc lặp lại từ khóa, bôi đậm in nghiêng, gạch chân từ khóa, và sử dụng các biến thể từ khóa. Tuy nhiên, chèn quá nhiều từ khóa sẽ khiến cho bài viết của bạn mất tính tự nhiên, gây cảm giác khó chịu cho người đọc. Người dùng sẽ chỉ truy cập những trang web này một lần và thời gian họ ở trên website này cũng rất ngắn. Đây cũng là một yếu tố để tính thứ hạng cho website. Vì thế những website dạng này sẽ dần mất thứ hạng. Vì vậy, thay vì viết nội dung xoay quanh từ khóa, hãy viết nội dung hướng tới người dùng. 4. Nhồi nhét từ khóa trong title Trước đây, chèn nhiều từ khóa vào title sẽ mang lại thứ hạng cao. Ngày nay, không những không mang lại lợi ích, bạn còn phải đối mặt với những hình phạt của Google vì đây là dấu hiệu của spam, của việc tối ưu quá đà. Bạn nên tuyệt đối tránh việc này nếu không muốn mất thứ hạng. Dưới đây là ví dụ của việc lạm dụng từ khóa trong tiêu đề: Xe Camry, Bán xe Camry, Xe Camry giá rẻ, Xe Camry nhập khẩu | Toyota Đống Đa Ngoài việc chèn từ khóa chính vào thẻ tiêu đề, nội dung thẻ tiêu đề phải thật hấp dẫn. Với ví dụ trên, chúng ta có thể viết lại thẻ tiêu đề như sau: “Mua xe Camry chính hãng, giá gốc | Toyota Thanh Xuân” 5. Tạo ra 2 phiên bản của cùng 1 trang web, một cho Google, một cho người dùng Trước đây lỗi này rất phổ biến. Cụ thể là người chủ website sẽ tạo ra 2 nội dung cho một trang web, một nội dung cho Google, một nội dung cho người dùng. Phiên bản cho Google sẽ là phiên bản được tối ưu từ khóa (ví dụ nhồi nhét từ khóa), trong khi phiên bản cho người dùng đơn giản hơn, nội dung tốt hơn, mang lại trải nghiệm tốt hơn. Việc này vi phạm quy định của Google và nếu bị phát hiện, bạn chắc chắn sẽ bị phạt. 6. Các lỗi khác Một kỹ thuật khác cũng đã lỗi thời là ẩn chữ. Việc này có thể thực hiện bằng nhiều cách. Kỹ thuật đầu tiên, rất đơn giản là những nội dung nhồi nhét từ khóa vào khu vực dưới cùng của trang web. Vì là văn bản nhồi nhét từ khóa nên người đọc sẽ không thích, tuy nhiên do được đặt ở phía dưới cùng của trang web nên người dùng sẽ hiếm khi nhìn thấy. Việc này giờ đây không mang lại kết quả vì Google đã hiểu rõ cấu trúc của một trang web cũng như hành vi người dùng. Google biết rằng những đoạn văn Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  37. Ebook SEO VietMoz 2013 38 bản ở phần cuối trang thực ra chỉ nhằm mục đích SEO, để nâng cao thứ hạng và do đó không quan tâm nhiều đến những đoạn văn bản này. Với Google, phần nội dung giá trị nhất là phần mà người dùng nhìn thấy đầu tiên khi họ mới tới website của bạn. Đó là phần nội dung mà họ nhìn thấy ngay lập tức mà không phải cuộn trang web. Một kỹ thuật khác cũng đã từng được dùng để ẩn chữ là làm cho màu chữ trùng với màu nền (ví dụ chữ trắng trên nền trắng). Google không gặp khó khăn gì để phát hiện thủ thuật này và nếu vi phạm bạn sẽ bị phạt. Tài liệu tham khảo: 10 sai lầm phổ biến của SEOer: o Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  38. Ebook SEO VietMoz 2013 39 Bài 5: Câu hỏi kiểm tra kiến thức Kể tên 6 thành phần của trang web mà bạn nên chèn từ khóa Title, thẻ mô tả, heading, ảnh, nội dung bài viết, địa chỉ URL Với Headline bạn nên dùng thẻ heading nào? Thẻ Liệt kê 2 thành phần của ảnh mà bạn nên chèn từ khóa Tên ảnh, thẻ mô tả ảnh, văn bản xung quanh ảnh, lời chú thích của ảnh Tài liệu tham khảo Tối ưu trang web một cách hoàn hảo: web-mot-cach-hoan-hao-102/ Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  39. Ebook SEO VietMoz 2013 40 CHƯƠNG 4 Các yếu tố kỹ thuật trong SEO Bài 1 : Vì sao phải nghiên cứu các yếu tố kỹ thuật trong SEO? Bài 2 : Dò quét và lưu dữ liệu Bài 3 : Mã trạng thái HTTP là gì? Chúng được dùng khi nào? Bài 4 : Đường dẫn URL – Cấu trúc và cách tối ưu Bài 5 : Trùng lặp nội dung và cách khắc phục Bài 6 : Tốc độ site – Tầm quan trọng và cách tối ưu Bài 7 : Sitemap và RSS Feeds – Tầm quan trọng và tại sao? Bài 8 : Những lỗi thường gặp Bài 9 : Những tool cần biết Bài 10 : Câu hỏi kiểm tra Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  40. Ebook SEO VietMoz 2013 41 Bài 1: Vì sao phải nghiên cứu các yếu tố kỹ thuật trong SEO Một cách lý tưởng, các máy tìm kiếm có thể tìm ra và hiểu mọi loại nội dung ở bất kỳ đâu trên thế giới web và trả về những kết quả liên quan nhất đến cụm từ tìm kiếm của bạn. Tuy nhiên, xây dựng website là một quá trình phức tạp và không tránh khỏi những thiếu sót. Một vài lỗi thậm chí có thể khiến máy tìm kiếm không tìm ra được website của bạn, hoặc khiến nó không thể có thứ hạng tốt. Để trở thành một người làm SEO giỏi, bạn cần phải biết cách hoạt động của máy tìm kiếm, cách nó tìm ra nội dung mới, cách nó hiểu và xếp hạng trang web của bạn. Điều này sẽ giúp bạn nâng cao chất lượng website hiện có và tránh mắc phải những lỗi mà mọi người thường hay mắc phải. Tài liệu tham khảo: Cơ chế hoạt động của Google Spider: cu-tim-kiem/ Bài 2: Dò quét và lưu dữ liệu Trong bài này chúng ta sẽ học về: Dò quét Sơ đồ website XML Lưu dữ liệu Những rào anarn đối với việc dò quét và lưu dữ liệu JavaScript Flash Frames Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  41. Ebook SEO VietMoz 2013 42 Cookies Emulating Googlebot Những loại nội dung khác o Hình ảnh o File PDF o File Microsoft Office Kiểm tra việc lưu dữ liệu Điều khiển hoạt động của bọ tìm kiếm Lựa chọn loại thư mục Sử dụng file Robots.txt Sử dụng Meta Robots 1.Dò quét Các máy tìm kiếm tìm thấy nội dung nhờ những chú robots (còn được gọi là con bọ tìm kiếm, tên tiếng anh là "bots," "spiders," hoặc "crawlers") liên tục ghé thăm các website. Chúng đồng thời lần theo đường link trên các website đó để tìm ra các website mới. Những đường link này có thể là link nội bộ, hoặc link trỏ ra ngoài. Nhờ đó bọ tìm kiếm có thể khám phá tất cả các nội dung trên trang web đó, cũng như nội dung của các website khác. Vì vậy, hệ thống link nội bộ của bạn cần phải được thiết kế tối ưu sao cho máy tìm kiếm có thể tìm ra mọi nội dung quan trọng trên website của bạn. Hành động đi theo những đường link để khám phá ra nội dung mới được gọi là “Dò quét”. 2.Sơ đồ website XML Một cách khác giúp máy tìm kiếm khám phá nội dung mới là thông qua sơ đồ website XML, là danh sách các địa chỉ URL của các trang web. Mỗi website có một hoặc nhiều sitemap XML. Các máy tìm kiếm sẽ lấy ra sitemap này và sử dụng nó để khám phá ra nội dung mới. Trong khi, sơ đồ website XML giúp máy tìm kiếm dễ dàng khám phá website của bạn, nó không giúp tăng thứ hạng cho website của bạn. Nó đơn giản chỉ giúp bọ tìm kiếm tìm ra nội dung của bạn dễ dàng hơn mà thôi. 3. Lưu dữ liệu Khi bọ tìm kiếm tìm ra một trang web, nó đọc đồng thời lưu các nội dung đó cùng với địa chỉ URL của trang web vào hệ thống máy chủ của mình. Quá trình lưu trữ dữ liệu này còn được gọi là indexing. Việc Google index một trang, cũng giống như việc chúng ta mở một quyển sách hay một tạp chí, photocopy một bài báo nào đó, rồi đặt bản sao đó vào một file có cùng chủ đề với bài báo, nơi bạn có thể tìm lại nó bất cứ khi nào cần đến. 4. Các công nghệ gây khó khăn cho máy tìm kiếm Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  42. Ebook SEO VietMoz 2013 43 Như các bạn đã biết, công nghệ mới giúp tăng chất lượng website, giúp website thân thiện hơn, hấp dẫn hơn với người dùng. Tuy nhiên, chúng cũng gây ra những khó khăn nhất định với máy tìm kiếm. cụ thể là các công nghệ dưới đây: a) JavaScript JavaScript là ngôn ngữ kịch bản của Web. Tất cả các trang web hiện đại đều sử dụng JavaScript nhằm tăng thêm chức năng cho trang Web, ví dụ: kiểm tra dữ liệu đầu vào, giao tiếp với máy chủ web Máy tìm kiếm không thể đọc được file JavaScript. Điều này có nghĩa nếu nội dung nằm trong JavaScript, nó sẽ vô hình trước máy tìm kiếm. Tương tự như vậy, Google cũng không thể đọc được các liên kết nằm nếu chúng nằm trong JavaScript. Điều này có nghĩa nếu bạn sử dụng JavaScript cho thanh điều hướng chính, toàn bộ cấu trúc site sẽ trở nên vô hình trước máy tìm kiếm. Khả năng của Google đã được cải thiện nhiều trong việc dò quét file JavaScript, nhưng vẫn chưa đạt đến mức hoàn hảo. Trong khi Google đang cố gắng ngày đêm hoàn thiện mình để tăng khả năng đọc hiểu JavaScript, bạn không nên phụ thuộc vào điều này. Bạn cần đảm bảo những nội dung quan trọng nhất của mình đều nằm trong code HTML. b) Flash Google đã thông báo rằng: Nó đã có thể hiểu file Flash định dạng .swf tốt hơn trước đây, trong khi vẫn chưa đủ khả năng để đọc hiểu file Flash Video. Tuy Google có thể đọc được nội dung Flash, nó vẫn gặp khó khăn trong việc rút ra ý chính của một file Flash từ những hình ảnh riêng lẻ. Đó là do: Flash là phim. Vì những lý do này, bạn nên tránh sử dụng Flash bất cứ khi nào có thể. Flash có thể làm cho website của bạn hấp dẫn hơn, sinh động hơn nhưng bạn chỉ nên sử dụng hạn chế. Thêm Flash vào website cũng giống như cho thêm hạt tiêu vào bát cháo. Nó có thể làm bát cháo của bạn ngon hơn, và thơm hơn nếu bạn sử dụng vừa phải. Nhưng chắc chắn bạn không muốn ăn một bát cháo quá cay, quá nồng. Tương tự vậy, Flash khiến cho website của bạn thú vị hơn, nhưng bạn chắc chắn không nên làm một website hoàn toàn bằng Flash, hoặc có quá nhiều nội dung Flash. Với sự ra đời và phát triển mạnh mẽ của HTML5, bạn càng có ít lý do để sử dụng Flash, vì HTML5 có đầy đủ chức năng của Flash. c) Frames Nếu trang web của bạn có chứa thẻ hoặc , các máy tìm kiếm cũng sẽ không thể đọc được nội dung trong các thẻ này. Ví dụ nếu trang web: webcuaban.com/du-lich.html sử dụng một iframe để hiển thị nội dung lấy từ trang web: webkhac.com/du-lich.html, tất cả những nội dung trong frame này sẽ không được sử dụng trong công thức tính toán thứ hạng của Google. Do đó, những nội dung này chỉ có giá trị với người dùng, không có giá trị gì với máy tìm kiếm. d) Cookies Cookies là một file để lưu dữ liệu về lịch sử sử dụng Internet của người dùng. Ví dụ, một cookie có thể được một website sử dụng để ghi nhớ thông tin về bạn, do vậy website đó có thể biết bạn là một người truy cập hoàn toàn mới hay là một người đã từng truy cập trước kia. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  43. Ebook SEO VietMoz 2013 44 Nhờ có cookies, giao diện website có thể thay đổi tự động theo người truy cập. Ví dụ, nếu bạn đã từng mua hàng trên một trang thương mại điện tử, và bạn đã lựa chọn thay thế đồng tiền thanh toán mặc định từ USD sang VNĐ, thông tin này sẽ được lưu trữ trong file cookies. Lần sau khi bạn lại ghé thăm website đó, nó sẽ tự động lựa chọn đồng tiền mặc định là VNĐ thay vì USD như những người khác. Việc này sẽ tránh cho bạn mất công phải lựa chọn lại. Thực tế là cookie có thể ảnh hưởng đến công việc dò quét website của bọ tìm kiếm. Website không thể tạo cookies cho bọ tìm kiếm giống như đã làm cho người dùng. Ví dụ với trường hợp trên, bọ tìm kiếm sẽ chỉ thấy duy nhất đồng tiền mặc định trong khi không thấy tất cả những đồng tiền còn lại. Vì lý do này, bạn không nên phụ thuộc vào cookies. Website của bạn nên được thiết kế để đảm bảo tất cả các nội dung đều sẵn sàng mà không cần đến cookies. Điều này sẽ cho phép máy tìm kiếm có thể dò quét và lưu trữ tất cả dữ liệu của bạn. 5. Xem website dưới con mắt bọ tìm kiếm Nếu bạn muốn biết trang web của mình trông như thế nào dưới mắt máy tìm kiếm, bạn có thể thực hiện bằng 1 trong 2 cách dưới đây I. Sử dụng Google Webmaster Tools Trước khi sử dụng công cụ này, bạn cần khai báo và chứng minh mình là chủ của website này với Google Webmaster Tools. 1. Trên trang chủ Webmaster Tools, đăng nhập vào tài khoản Google của bạn, click vào website bạn muốn kiểm tra 2. Trên Dashboard (là thanh menu nằm bên trái màn hình), Click vào Crawl (Dò quét), chọn Fetch as Google trong menu sổ xuống 3. Trong hộp thoại ở phía trên cùng, gõ vào đường dẫn đến trang web mà bạn muốn kiểm tra 4. Trong danh sách sổ xuống, lựa chọn loại fetch mà bạn muốn. Để xem website trông thế nào dưới mắt của Googlebot, chọn Web. 5. Click Fetch. Một khi googlebot đã hoàn thành việc fetch trang web của bạn, bạn sẽ nhận được một đường link “success” mà bạn có thể truy cập để xem website dưới con mắt của Google. Bên cạnh đó, Google còn cung cấp cho bạn mã trạng thái cũng như code HTML mà Googlebot nhận được II. Truy cập vào trang web: Và gõ vào địa chỉ trang web bạn cần kiểm tra 6. Những loại nội dung khác Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  44. Ebook SEO VietMoz 2013 45 Ngoài file HTML, trên website bạn còn tìm thấy nhiều định dạng file khác. Dưới đây là những định dạng phổ biến nhất và cách tối ưu chúng: Hình ảnh: Các máy tìm kiếm có thể nhận ra hình ảnh nhưng không thể hiểu hay xem hình ảnh đó như con người. Để hiểu hình ảnh, nó sẽ dựa vào: 1. Thẻ mô tả ảnh và tên ảnh 2. Chú thích ảnh và nội dung xung quanh ảnh 3. Các liên kết trỏ đến ảnh Do đó, bạn cần đảm bảo tất cả những thông tin này chuẩn và chứa từ khóa chính cùng các từ khóa liên quan. File PDF Máy tìm kiếm có thể dò quét và lưu trữ file PDF. Tuy nhiên, vì file PDF có chức năng khá nghèo nàn và không đẹp như một trang web nên có thể bạn không muốn người dùng tìm đến các file này. Bạn muốn sử dụng các phiên bản HTML thay thế cho các phiên bản PDF. Bạn có 2 giải pháp. Bạn có thể ngăn chặn máy tìm kiếm, không cho nó truy nhập, và từ đó ngăn chặn file pdf này xuất hiện trên bảng kết quả tìm kiếm. Việc này có thể thực hiện bằng cách đặt các file PDF vào trong một thư mục (như: /assets/) và không cho bọ tìm kiếm truy cập vào thư mục này thông qua file robots.txt (bạn sẽ tìm hiểu kỹ hơn trong bài tiếp theo). Nhược điểm của cách làm này là: Bạn không thể tận dụng được giá trị các link trỏ đến các file pdf này. Giải pháp thứ 2 cũng là giải pháp tốt hơn là chèn tag canonical trỏ tới phiên bản HTML của file PDF này. Việc này đảm bảo file pdf này cũng không xuất hiện trong bảng kết quả tìm kiếm trong khi giá trị của các link trỏ đến file PDF này sẽ không bị mất đi mà sẽ được chuyển sang phiên bản HTML. Chú ý: Cách này chỉ áp dụng với Google. Tài liệu Microsoft Office Máy tìm kiếm có thể đọc và lưu trữ những file dạng này. Như bạn đã biết, những file này không cung cấp đầy đủ chức năng cho một trang web nên chắc chắn người dùng không thích chúng. Bạn có thể khắc phục bằng cách chặn nội dung dùng file robots.txt hoặc chèn thẻ canonical trỏ đến phiên bản HTTP. 7. Điều khiển hoạt động của bọ tìm kiếm Khi bọ tìm kiếm tìm đến website của bạn, bạn có quyền điều khiển hoạt động của chúng. Trên website của bạn có những nội dung chưa đầy đủ hoặc nội dung riêng tư mà bạn không muốn người khác biết đến. Bạn có thể chặn không cho bọ tìm kiếm tìm đến những nội dung này. Có 2 công cụ có thể giúp bạn làm điều này: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  45. Ebook SEO VietMoz 2013 46 1. File Robots.txt: Cần được đặt trong thư mục gốc để phát huy tác dụng, dung để chặn bọ tìm kiếm không cho chúng truy cập vào một hoặc nhiều trang web nào đó. 2. Thẻ Meta Robots: Đặt trong phần head của 1 trang web và điều khiển cách bọ tìm kiếm tương tác với nội dung cũng như cách hiển thị trang web trên kết quả tìm kiếm Dưới đây là những ưu, nhược điểm của 2 phương pháp kể trên. Robots.txt Meta Robots Ngăn chặn dò quét Có Không Ngăn chặn lưu dữ Có Có liệu Ngăn hiển thị URL Không Có lên kết quả tìm kiếm Gỡ bỏ nội dụng khỏi cơ sở dữ liệu của Không Có Google Ưu điểm Áp dụng với cả thư mục Không cần quyền truy cập vào thư mục gốc Các loại lệnh Robots.txt: Sử dụng file robots.txt để điều khiển truy cập vào các files và các thư mục trong website của bạn. File này hoạt động giống như một biển báo giao thông. Nó báo với Googlebot và các con bọ tìm kiếm khác những file và thư mục trên website của bạn mà không được dò quét. Để sử dụng file robots.txt, bạn phải có quyền truy cập vào thư mục gốc của website. Nếu bạn không thể truy cập vào thư mục gốc, bạn cũng có thể điều khiển truy cập của bọ tìm kiếm bằng cách sử dụng thẻ meta robots trên từng trang riêng lẻ. Tuy nhiên, hãy nhớ rằng, kể cả khi bạn sử dụng file robots.txt để chặn bọ tìm kiếm truy cập vào nội dung của bạn, Google vẫn có thể khám phá ra nội dung của bạn và đưa nó vào bảng kết quả tìm kiếm nhờ những cách khác. Ví dụ, thông qua đường link mà các trang web khác trỏ đến trang web đó. Kết quả là, địa chỉ URL của các trang web cũng như văn bản neo của các lien kết trỏ đến các trang web này có thể xuất hiện trong bảng kết quả tìm kiếm. Thêm vào đó, trong khi bọ tìm kiếm của các công cụ tìm kiếm lớn đều tôn trọng chỉ dẫn trong file robots.txt, một vài bọ tìm kiếm khác thì không. Vì file robots.txt chỉ là bảng chỉ dẫn, nên những người có mục đích xấu hoàn toàn có thể bỏ qua chúng và vẫn dò quét Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  46. Ebook SEO VietMoz 2013 47 nội dung website như thường. Vì lý do này, theo chúng tôi cách an toàn nhất là đặt password bảo vệ cho các file hoặc thư mục này Bạn nên sử dụng file này khi muốn ngăn bọ tìm kiếm dò quét một trang web hoặc toàn bộ website. Và do đó, trang web cũng không bị lưu vào cơ sở dữ liệu của máy tìm kiếm. Nhưng bạn không thể sử dụng phương pháp này để gỡ bỏ trang web khỏi CSDL của máy tìm kiếm khi nó đã được lưu vào từ trước. File Robots.txt có thể ngăn chặn truy cập đến cả một thư mục hoặc đến một trang web cụ thể. Cách này cũng hay được sử dụng để ngăn chặn bọ tìm kiếm truy cập vào các file không thuộc định dạng HTML như hình ảnh, file PDFs, file Microsoft Office Meta robots – Chèn thuộc tính “noindex” vào thẻ meta robots để ngăn chặn nội dung xuất hiện trên bảng kết quả tìm kiếm. Khi bọ tìm kiếm nhìn thấy thuộc tính “noindex” trên một trang web, Google bỏ qua trang web đó không đưa nó lên bảng kết quả tìm kiếm, kể cả khi có các trang web khác trỏ link tới nó. Còn nếu nội dung đã tồn tại trong CSDL của Google, họ sẽ gỡ bỏ hoàn toàn những nội dung này. Chú ý, với các máy tìm kiếm khác không phải là Google, tác dụng của thẻ meta này sẽ có khác biệt Lưu ý, vì Google phải dò quét trang web của bạn thì mới biết được trong đó có thẻ meta robots không và nội dung của nó cụ thể như thế nào, có thể xảy ra trường hợp là bạn đã cài đặt thuộc tính noindex trong thẻ meta robots nhưng trang web vẫn xuất hiện trong bảng kết quả tìm kiếm. Điều này là do bọ tìm kiếm chưa quay lại dò quét trang web của bạn kể từ khi bạn cập nhật nội dung thẻ meta robots. Cách tạo file Robots.txt File robots.txt nằm trong thư mục gốc ở website hoặc trong subdomain. Khi viết file robots.txt, việc đầu tiên là xác định rõ nó sẽ nhắm tới loại bọ tìm kiếm nào? Hay loại bọ tìm kiếm nào sẽ phải tuân theo chỉ dẫn trong file này. Đó có thể là Googlebot (của Google), hoặc bọ của những công cụ tìm kiếm khác. Sau khi biết rõ mục tiêu, việc tiếp theo là xác định những nơi nào trên website mà bọ tìm kiếm không được chào đón. Việc này thực hiện bằng cách liệt kê tất cả những thư mục, những trang web mà con bọ không được truy cập vào. Bên cạnh đó, trong file này bạn cũng nên chỉ rõ vị trí của sơ đồ website XML, để máy tìm kiếm có thể dễ dàng tìm tới nó, từ đó nó dễ dàng dò quét toàn bộ website của bạn. Dưới đây là ví dụ của 1 file robots.txt: user-agent: * (Có thể là googlebot, Bingbot, Baiduspider ) Disallow: /register.html Disallow: /assets/ Disallow: /category/ Sitemap: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  47. Ebook SEO VietMoz 2013 48 Cách sử dụng thẻ Meta Robots Bạn chèn thẻ meta robots vào trong phần (là phần mở đầu của mỗi trang web). Dưới đây là ví dụ về một thẻ meta robots Dưới đây là danh sách các câu lệnh thường được sử dụng trong thẻ meta robots 1. index – Trang này cần được index. Mặc định mọi trang web đều được index, nên câu lệnh này là không cần thiết. 2. noindex – Không index trang này, hoặc gỡ bỏ nó khỏi CSDL nếu nó đã được index 3. follow – Khuyến khích máy tìm kiếm đi theo tất cả links trên trang này, Mặc định máy tìm kiếm đã làm việc này, nên câu lệnh này không cần thiết 4. nofollow – Không khuyến khích máy tìm kiếm đi theo bất kỳ links nào trên trang này 5. noarchive – Yêu cầu máy tìm kiếm không được show bản cache của trang web trên bảng kết quả. Câu lệnh này rất ít khi được sử dụng 6. nosnippet – Yêu cầu máy tìm kiếm không được hiển thị thông tin miêu tả về trang trên bảng kết quả Dưới đây là ví dụ về một thẻ meta robots Bài tập: Sử dụng toán tử site để tìm kiếm tất cả những trang web đã được index của 1 website mà bạn quan tâm Thử nhìn một trang web bằng khả năng của máy tìm kiếm – Truy cập vào website Áp dụng với một trang Flash và xem bạn thấy những gì? Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  48. Ebook SEO VietMoz 2013 49 Bài 3: Mã trạng thái HTTP là gì? Chúng được dùng khi nào? Trong bài này, chúng ta sẽ học về: Những mã trạng thái thường gặp nhất Làm thế nào để biết mã trạng thái của trang web của bạn Tài liệu Mã trạng thái chính là biển báo báo cho bọ tìm kiếm biết trang web có phục vụ nó hay không? Khi Googlebot, Bingbot hoặc các máy tìm kiếm khác truy cập vào website, máy chủ web sẽ trả về một số thông tin, trong đó có mã trạng thái. Thông tin này cho bọ tìm kiếm biết nó có thể tiếp tục truy cập vào website hay không, nếu có thì xử lý nội dung trên website như thế nào. Những mã trạng thái phổ biến nhất: 1. 200. Mọi thứ đều ổn, bọ tìm kiếm có thể dò quét và lưu nội dung trang web. 2. 301. Trang web đã được di chuyển vĩnh viễn tới vị trí mới. Bọ tìm kiếm cũng như người dùng sẽ được đưa tới trang web mới. Giá trị của các link mà hiện thời trỏ về trang web cũ cũng sẽ tự động chuyển sang cho trang web mới. Điều này sẽ rất có lợi cho thứ hạng cho trang web mới. 3. 302. Trang web được di chuyển tạm thời đến vị trí mới. Bọ tìm kiếm cũng như người dùng sẽ được đưa tới trang web mới. Máy tìm kiếm không cần gỡ bỏ trang web này khỏi CSDL, đồng thời giá trị của link vẫn được dành cho trang web cũ. 4. 404. Trang không có, không còn tồn tại hoặc không thể truy cập. Máy tìm kiếm sẽ xóa trang web khỏi CSDL và người dùng sẽ nhận được một trang 404 nếu truy cập vào trang web này. 5. 500. Có lỗi máy chủ, cả bọ tìm kiếm và người dùng đều không thể truy cập vào trang web. 6. 503. Trang web tạm thời không phục vụ. Người dùng và bọ tìm kiếm nên quay lại sau. Mã 503 rất hay được dùng trong giai đoạn bảo trì website. Làm thế nào để biết mã trạng thái của website của bạn? Sử dụng công cụ từ các trang web sau: 1. 2. Cài đặt Web Developer Toolbar lên Firefox - dan-cai-dat-SeoQuake-Web-developer-56/ Để kiểm tra mã trạng thái của tất cả các trang trên website của bạn, sử dụng các công cụ dưới đây 1. Screaming Frog (cả miễn phí và trả tiền) Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  49. Ebook SEO VietMoz 2013 50 2. Xenu Link Sleuth Theo kinh nghiệm của chúng tôi, bạn nên sử dụng Screaming Frog. Vì đây là một phần mềm mà bạn có thể cài đặt về máy tính, nhẹ, miễn phí và rất hữu ích. Ngoài mã trạng thái bạn còn nhận được nhiều thông tin giá trị khác về website của mình. Tài liệu hữu ích: Mã trạng thái HTTP : Status-Codes-31/ Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  50. Ebook SEO VietMoz 2013 51
  51. Ebook SEO VietMoz 2013 52 Nếu bạn muốn tìm hiểu sâu hơn về mã trạng thái, truy cập: Bài tập: Sử dụng công cụ SEO để xem mã trạng thái của Mã trạng thái này có gì khác với Mã trạng thái 302 được sử dụng khi nào? Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  52. Ebook SEO VietMoz 2013 53 Bài 4: Đường dẫn URL – Cấu trúc và cách tối ưu Trong bài này, chúng ta sẽ học về: Cấu trúc của địa chỉ URL Subdomains – Tên miền con, tên miền phụ Cách tối ưu địa chỉ URL Other Considerations o SEO-friendly parameters o Controlling Indexed Parameters Website của bạn gọi là chuẩn SEO khi một nội dung chỉ có thể tìm thấy trên duy nhất một địa chỉ URL. Việc này sẽ ngăn chặn trường hợp trùng lặp nội dung, điều sẽ làm giảm giá trị nội dung cũng như những đường link trên website của bạn. 1. Cấu trúc Mọi đường dẫn URL đều bao gồm ít nhất 4 phần 1. Giao thức, ví dụ http, https 2. Tên miền phụ hay còn gọi là subdomain, ví dụ : www 3. Tên miền (domain) 4. Tên miền cấp cao nhất (Top Level Domain (TLD)): .com, .org, etc Ngoài ra còn có những thành phần khác như tên thư mục, tên file 2. Subdomains Subdomain là tên miền phụ hoặc tên miền con và là một bộ phận của một domain lớn hơn. Ví dụ trong các đường dẫn url như: là subdomain của tên miền zing.vn, và zing.vn đến lượt mình lại là tên miền con của tên miền cấp cao nhất .vn Bạn cần nhớ rằng, với máy tìm kiếm subdomain là một website khác và độc lập với website chính. Và do đó, subdomain sẽ không được hưởng lợi lộc gì từ uy tín của domain chính. 3. Cách tối ưu Đường dẫn URL có ảnh hưởng đến thứ hạng website. Để có thứ hạng tốt, địa chỉ URL của bạn: 1. Phải duy nhất 2. Càng ngắn càng tốt 3. Có chứa từ khóa 4. Các từ trong URL nên được phân cách với nhau bởi dấu gạch nối: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  53. Ebook SEO VietMoz 2013 54 1. Dấu gạch nối ví dụ: hang-trang-web-219/ Bạn nên ưu tiên sử dụng dấu gạch nối. Để tìm hiểu sâu hơn về cách tối ưu URL, bạn có thể tham khảo bài viết dưới đây: 4. Các tham số khác trong URL Thỉnh thoảng bạn thấy có dấu # trong địa chỉ URL. Ví dụ: Dấu thăng này được sử dụng khi bạn muốn đưa người dùng đến một vị trí cụ thể trên trang web như phần đầu, phần cuối, hoặc phần giữa Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  54. Ebook SEO VietMoz 2013 55 Bài 5: Trùng lặp nội dung và cách khắc phục Trong bài này, chúng ta sẽ được học về Homepage Canonicalization Giải pháp Canonicalization Camel Casing Subdomains, HTTPS và Relative Linking Mirrored Sites International Sites Tag/Category Pages Phiên bản để in Mobile Tham số URL Các trang tìm kiếm Sự phân trang Tên sản phẩm tương tự Chia nội dung theo khu vực địa lý Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  55. Ebook SEO VietMoz 2013 56 Trùng lặp nội dung là điều thường gặp ở các website.Trùng lặp nội dung xảy ra khi 2 trang web khác nhau có nội dung giống nhau. Thông thường, trùng lặp nội dung là do vô tình và gây ra bởi hệ thống quản trị nội dung (CMS) hoặc máy chủ hosting. Tuy vậy, cũng có những trường hợp người chủ web cố tình tạo ra những nội dung trùng lặp và điều này sẽ ảnh hưởng xấu đến thứ hạng website của họ. Điều bạn cần biết là máy tìm kiếm không phạt bạn do trùng lặp nội dung. Trừ phi phần lớn nội dung của bạn bị trùng lặp một cách có chủ ý, một vài trang web trùng lặp sẽ không khiến bạn bị phạt bởi máy tìm kiếm. Tuy nhiên, nó có thể làm giảm lưu lượng truy cập đến trang web của bạn vì máy tìm kiếm buộc phải lựa chọn trang web nào phù hợp nhất với nội dung tìm kiếm trong số nhiều trang web của bạn. Dưới đây là những trường hợp trùng lặp nội dung hay gặp nhất và cách khắc phục. Trùng lặp ở trang chủ Đây là loại trùng lặp nội dung mà rất nhiều website mắc phải. Đó là khi trang chủ của bạn có thể truy cập từ nhiều hơn một địa chỉ URL 1. domain.com 2. www.domain.com 3. domain.com/index.html 4. www.domain.com/index.html Với máy tìm kiếm, mỗi địa chỉ URL là một trang web riêng biệt. Nếu website bạn xảy ra tình trạng này, và bạn chưa nhận ra nó hoặc chưa biết cách xử lý nó (ví dụ redirect 3 trang về 1 trang chính duy nhất)máy tìm kiếm sẽ không biết nên show địa chỉ nào trong bảng kết quả tìm kiếm. Từ đó, sức mạnh trang chủ của bạn sẽ bị giảm đi. Giải pháp Có vài cách giúp bạn xử lý tình huống này. Cách 1 là thiết lập redirect ở server hosting để đảm bảo sẽ chỉ có một trang chủ duy nhất được trả về. Cách cấu hình cụ thể còn phụ thuộc vào loại server bạn sử dụng. Liên hệ nhà cung cấp dịch vụ hosting của bạn để có câu trả lời thỏa đáng. Cách 2 là thiết lập địa chỉ ưu tiên trong Google Webmaster Tools. Subdomains, HTTPS và Relative Linking Việc sử dụng subdomains nói chung không được khuyến khích vì không thân thiện trong SEO. Tuy nhiên, đôi khi bắt buộc phải có vì yêu cầu hoạt động của doanh nghiệp. Một trong những vấn đề mà subdomain có thể gây ra là việc trùng lặp nội dung. Các trường hợp gây ra trùng lặp nội dung:  Sử dụng liên kết tương đối cùng với subdomain. Hậu quả: Trùng lặp giữa subdomain và domain chính  Sử dụng liên kết tương đối cùng với https. Hậu quả : Trùng lặp giữa phiên bản http và https Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  56. Ebook SEO VietMoz 2013 57 Giải pháp Khi xây dựng các liên kết nội bộ, chỉ sử dụng đường dẫn tương đối thay vì đường dẫn tuyệt đối. Ngoài ra bạn có thể sử dụng canonical để tự trỏ về mình. Cách làm này ít nhất là hiệu quả với Google. Nó không chỉ có tác dụng ngăn ngừa trùng lặp nội dung mà còn có tác dụng ngăn ngừa trường hợp toàn bộ website bị copy mang đi nơi khác mà không được đặt link trỏ về bản gốc. Trang Tag/Thư mục Với các blog, việc sử dụng tag và category có thể gây ra trùng lặp nội dung khi một trang tag/category có nội dung giống với một/nhiều trang tag/category khác. Ví du, bạn viết blog, và có 3 bài về chủ đề làm nội dung như ở dưới đây: Tên bài: Làm thế nào để ngăn chặn trùng lặp nội dung o Tags: trùng lặp nội dung, seo, cách làm, bí kip o Category: SEO, Cách làm, Nội dung Tên bài: Bạn không bị phạt nếu nội dung của bạn bị trùng lặp o Tags: nội dung trùng lặp, hình phạt, seo o Category: SEO, Nội dung Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  57. Ebook SEO VietMoz 2013 58 Tên bài: Làm thế nào để viết được một nội dung tốt o Tags: nội dung, cách làm, bí kíp, sáng tạo o Category: SEO, Nội dung, Cách làm Bạn có thể thấy sự trùng lặp nội dung của các trang tag và category qua bảng dưới đây Làm thế nào để ngăn Bạn không bị phạt nếu nội Làm thế nào để viết chặn trùng lặp nội dung dung của bạn bị trùng lặp được một nội Tag: trùng lặp X X nội dung Tag: seo X X X Tag: cách làm X X Tag: bí kíp X X Tag: hình phạt X Tag: nội dung X Tag: sáng tạo X Category: SEO X X X Category: Cách X X làm Category: Nội X X X dung Giải pháp Giải pháp phụ thuộc vào cách bạn sử dụng tags và categories cũng như số lượng tags và categories bạn sử dụng cho mỗi bài viết. Nếu bạn sử dụng ít categories và nhiều tags (giống như phần lớn mọi người), sử dụng noindex, nofollow cho tất cả các trang tag. Trang categories có thể giúp nội dung của bạn được index đầy đủ. Ngược lại, nếu bạn sử dụng nhiều categories và ít tags, sử dụng noindex và nofollow cho tất cả các trang categories. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  58. Ebook SEO VietMoz 2013 59 Tóm lại, bạn muốn bọ tìm kiếm có thể tìm thấy và đọc hiểu nội dung của bạn và bạn cũng muốn người dùng có thể dễ dàng tìm ra nội dung của bạn theo từng chủ đề mà họ tìm kiếm. Nhưng bạn cũng không muốn có trùng lặp nội dung. Nếu bạn không áp dụng những hướng dẫn ở trên, điều này sẽ xảy ra với 2 trang web sau: and Phiên bản dành cho máy in Đây là tình huống trùng lặp nội dung khá phổ biến nhưng ít người để ý. Chức năng in sẽ tạo ra một địa chỉ URL mới có nội dung gần giống với trang web chính. Ví dụ: 1. www.domain.com/trang-1 2. www.domain.com/trang-1/print Giải pháp Giải pháp đơn giản nhất là đặt thẻ rel=canonical vào trang dành cho việc in và trỏ nó về trang chính. Nếu bạn sử dụng tham số để phân biệt trang in với trang thường, bạn có thể đặt thẻ rel=canonical trên trang chính và trỏ về chính nó. Giờ đây, tất cả những phiên bản khác của trang chính sẽ tự động trỏ về trang chính, trong đó bao gồm cả các phiên bản in ấn. Kết quả là www.domain.com/trang-1/id=print sẽ có một thẻ rel=canonical trỏ về trang chính www.domain.com/trang-1. Thẻ rel=canonical là một phần của header của mỗi trang web, nơi bạn tìm thấy thẻ tiêu đề và thẻ mô tả. Ví dụ: Các trang web có thẻ này sẽ được bọ tìm kiếm đối xử như là bản sao của trang web www.seomoz.org/blog. Từ đây, bọ tìm kiếm có thể biết đâu là phiên bản chính và phiên bản copy. Di động Điều tương tự cũng có thể xảy ra với phiên bản mobile của trang web (phiên bản dành cho các thiết bị di động như smartphone, máy tính bảng). Nếu nội dung giống nhau trong khi địa chỉ URL khác nhau, máy tìm kiếm sẽ bối rối không biết đâu là địa chỉ tốt nhất để cung cấp cho người dùng. 1. www.domain.com/page.html 2. m.domain.com/page.html 3. www.domain.com/m/page.html 2 trang web cuối có nội dung giống nhau, cùng phục vụ cho các thiết bị di động nhưng lại tồn tại trên 2 địa chỉ URL khác nhau. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  59. Ebook SEO VietMoz 2013 60 Giải pháp Có nhiều giải pháp, và bạn có thể lựa chọn cái nào phù hợp nhất với tài nguyên của mình. Giải pháp hoàn hảo nhất là sử dụng duy nhất một địa chỉ URL, và tận dụng tính năng tự động phát hiện trình duyệt (browser identifiers) để trả về những phiên bản web khác nhau với các phong cách CSS khác nhau, tùy thuộc vào thiết bị của người dùng. Theo Wiki, CSS là một loại code, quy định cách trình bày các tài liệu viết bằng ngôn ngữ HTML và XHTML. Nếu không thể làm được theo hướng này, bạn chắc chắn nên sử dụng thẻ rel=canonical trỏ từ trang dành cho mobile về trang chính. Đảm bảo phát hiện trình duyệt chuẩn xác để nếu người dùng sử dụng laptop hoặc máy để bàn truy cập vào địa chỉ URL cho thiết bị di động, họ sẽ được chuyển hướng sang địa chỉ URL chính. Các trang tìm kiếm Nhiều khi người dùng muốn tìm kiếm trên website của bạn. Ví dụ tìm kiếm tất cả những cuốn sách có chủ đề “Thuyết trình” trên website “Bán sách online” của bạn. Trang kết quả trả về có thể giống với trang kết quả khi họ tìm kiếm theo chủ đề “Trình bày”. Điều này sẽ gây ra sự trùng lặp nội dung. Ngoài ra, kết quả tìm kiếm cũng có thể giống với trang thư mục “Trình bày”. Thử tìm kiếm trên mediamart.vn với 2 từ khóa “máy xay” và “máy xay sinh tố”, bạn cũng sẽ thấy những kết quả tương tự. Giải pháp Giải pháp là thực hiện noindex, follow trong meta robot của các trang này. Hoặc sử dụng robots.txt để yêu cầu máy tìm kiếm không dò quét các trang này. Bài viết hay nên đọc: Nội dung trùng lặp: Content-17/ Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  60. Ebook SEO VietMoz 2013 61 Bài 6: Tốc độ site – Tầm quan trọng và cách tối ưu Trong bài này chúng ta sẽ học cách Đo tốc độ tải trang web Giải pháp Lý do lớn nhất để bạn quan tâm đến việc tăng tốc độ cho trang web là vì người dùng cũng như chúng ta thích những trang web tải nhanh. Để tăng lượng khách hàng, bạn cần chú ý đặc biệt đến thời gian tải trang web của bạn. Tốc độ site cũng ảnh hưởng đến thứ hạng website của bạn. Cụ thể: 1. Tốc độ website cũng là một yếu tố (dù không quá quan trọng) mà Google đưa vào để đánh giá thứ hạng trang web. Nếu tất cả các yếu tố khác như nhau, site tải nhanh hơn chắc chắn có thứ hạng cao hơn. Thông số này được đo lường nhờ toolbar data, nghĩa là chúng được đo lường từ chính trình duyệt của người dùng và từ băng thông thực tế mà người dùng sử dụng. Do vậy, những website sử dụng dịch vụ hosting tại Mỹ sẽ không có ưu thế gì so với hosting sử dụng dịch vụ tại Việt Nam. 2. Với cùng một khoảng thời gian, nếu website của bạn tải nhanh hơn, người dùng có thể đọc nhiều trang web hơn, tìm hiểu nhiều nội dung trên web hơn, nhiều khả năng thấy được nội dung ưa thích hơn, từ đó khả năng họ share trên mạng xã hội hoặc link đến trang web của bạn cũng lớn hơn. 3. Con bọ tìm kiếm cũng bị giới hạn thời gian. Đây thực sự là vấn đề với các website lớn. Vì vậy, thời gian tải trang càng nhanh, số lượng trang web được index càng nhiều. Làm thế nào để đo lường tốc độ tải trang Từ khía cạnh kỹ thuật, có 3 yếu tố giúp xác định tốc độ tải trang. 1. Thời gian trả lời:Đây là khoảng thời gian mà server cần để trả lời một yêu cầu. Thông số này rất dễ đo, nhưng không có nhiều ý nghĩa với người dùng và bọ tìm kiếm. Bạn có thể đo lường thông số này nhờ pingdom. 2. Tổng thời gian tải trang:Bao gồm cả thời gian trả lời và thời gian để tải về toàn bộ trang (bao gồm cả hình ảnh, javascript ). Thông số này phụ thuộc rất nhiều vào server và rất được googlebot quan tâm. Bạn có thể sử dụng YSlow. để đo lường thông số này. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  61. Ebook SEO VietMoz 2013 62 3. Tổng thời gian để có được trang web hoàn chỉnh: Bao gồm thời gian tải trang và thời gian tải tất cả các file khác để có được trang web hoàn chỉnh (Ví dụ AJAX). Rất khó xác định chính xác thông số này vì nó phụ thuộc nhiều vào máy tính và trình duyệt của người dùng, nhưng với người dùng đây lại là yếu tố quan trọng nhất. Trong số các công cụ hiện nay, chỉ có Google Analytics làm việc này hiệu quả nhất. Tham khảo bài viết sau để biết cách sử dụng công cụ này tracks page load speed bydefault. Dữ liệu Các website lớn đã thực hiện nhiều công trình nghiên cứu về ảnh hưởng của tốc độ tải trang đến doanh thu của họ. 1. Amazon nhận ra rằng cứ thêm 100ms, họ sẽ mất 1% doanh thu 2. Google nhận ra rằng: cứ thêm 0.5s vào thời gian trả về bảng kết quả, lưu lượng truy cập lại giảm đi 20% Làm gì để rút ngắn thời gian tải trang Bạn cần ngồi lại với đội code và người quản trị hệ thống để tìm ra cách tăng tốc độ tải trang. Nói ngắn gọn, bạn cần cải thiện 3 yếu tố sau: 1. Nếu thời gian trả lời chậm, hoặc thời gian tải về các yếu tố tĩnh của trang web chậm. Hãy nâng cấp server, cho phép caching hoặc sử dụng mạng phân phối nội dung. 2. Nếu thời gian tải các yếu tố tĩnh của trang chậm – giải quyết bằng cách tối ưu code hoặc cho phép caching nhiều hơn nữa. 3. Tốc độ tải toàn bộ trang chậm: điều này thường xảy ra với những trang web phức tạp, có nhiều thành phần. Bạn tối ưu bằng cách tối ưu code hoặc hợp nhất các thành phần bên ngoài. Bạn chắc chắn không nên bỏ qua công cụ đo lường tốc độ và tính điểm của Google pagespeed để xác định điểm yếu của mình cũng như cách khắc phục. Bài tập: Sử dụng pagespeed để phân tích thời gian tải của 1 website So sánh pagespeed của 2 website đang cạnh tranh nhau trên bảng xếp hạng. Tìm xem có sự liên quan nào giữa tốc độ tải trang và thứ hạng website không? Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  62. Ebook SEO VietMoz 2013 63 Bài 7: Sitemap và RSS Feeds – Tầm quan trọng và tại sao? Trong bài này, chúng ta sẽ học về XML hoăc HTML o XML Sitemaps o Định dạng o Cách tạo ra Sitemap o Gửi sitemap cho máy tìm kiếm o HTML Sitemaps Những điều bạn nên tránh Cách tận dụng RSS cho SEO Sitemaps được các SEO và người quản trị website sử dụng để thông báo cho Google về cấu trúc site – cụ thể là những trang web nào hiện có trên website của họ. RSS feeds được sử dụng để thông báo cho người đọc – những người đã đăng ký nhận RSS khi website có nội dung mới. Bài này sẽ giới thiệu với bạn 2 loại sitemaps, XML và HTML, và vai trò của chúng. Bạn cũng sẽ được biết những điều cần tránh khi sử dụng sitemaps. Cuối cùng, chúng tôi sẽ giới thiệu RSS feeds và cách sử dụng chúng cho mục đích SEO cũng như cho hoạt động của doanh nghiệp. XML hay HTML Có 2 loại sitemaps, đó là: 1. XML 2. HTML XML Sitemaps XML sitemaps được xây dựng dựa trên eXtensible Markup Language (XML), hay ngôn ngữ đánh dấu mở rộng - Mục đích chính của XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ thống khác nhau, đặc biệt là các hệ thống được kết nối với Internet. Để tìm hiểu về XML và cách sử dụng nó, hãy ghé thăm W3C W3Schools.com tutorials. XML sitemaps là bản đồ trang web mà bạn làm ra để dành riêng cho máy tìm kiếm. Đây là bản mô tả tổ chức trang web mà qua đây máy tìm kiếm sẽ dễ dàng khám phá website của bạn Định dạng Tất cả các sitemap XML đều bắt đầu với 2 dòng dưới đây, chỉ rõ định dạng của sitemap này là XML cho máy tìm kiếm khỏi nhầm lẫn: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  63. Ebook SEO VietMoz 2013 64 Tất cả các dòng trong sitemap XML đều có định dạng như dưới đây: 2012-01-01 monthly 1.0 Ý nghĩa (bắt buộc) Khai báo địa chỉ URL đầy đủ của trang, bao gồm loại giao thức (http hay https) và gạch chéo. Địa chỉ này không được dài quá 2048 ký tự. (không bắt buộc) Khai báo thời điểm cập nhật gần nhất của trang web. Định dạng ngày tháng là Năm-Tháng-Ngày. (không bắt buộc). Khai báo tần suất cập nhật nội dung của trang: Luôn luôn Hàng giờ Hàng ngày Hàng tuần Hàng tháng Hàng năm Không bao giờ thay đổi Đây là hướng dẫn dành cho bọ tìm kiếm, và hoàn toàn không ảnh hưởng đến tần suất index của bọ tìm kiếm. (không bắt buộc). Khai báo độ ưu tiên của trang web so với các trang web khác trên website. Quản trị web sử dụng thông số này để báo trước cho bọ tìm kiếm biết trong số tất cả các trang web hiện có trên website, trang web nào quan trọng hơn, trang web nào ít quan trọng hơn. Giá trị thay đổi từ 0.0 đến 1.0 với 1.0 là quan trọng nhất. Giá trị mặc định (nếu bạn không thiết lập) là 0.5. Vì đây là chỉ số xác định mức độ quan trọng của trang web này so với trang web khác và chỉ có ý nghĩa trên website của bạn nên nếu bạn đặt mức độ ưu tiên trên tất cả các trang là 1.0 cũng sẽ không làm ảnh hưởng gì đến thứ hạng trang web. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  64. Ebook SEO VietMoz 2013 65 Sitemaps kết thúc với dòng code sau: Công cụ tạo Sitemap Có nhiều công cụ giúp tạo sitemap XML cho website của bạn. 3 công cụ phổ biến nhất là: 1. 2. GsiteCrawler 3. IntelliMapper XML sitemaps cũng có thể tạo bằng tay, nhưng nếu đó là 1 website lớn hoặc một site trung bình nhưng được cập nhật thường xuyên đó sẽ là một công việc buồn tẻ, đơn điệu và tốn nhiều sức. Do đó, bạn nên sử dụng những hệ thống quản trị nội dung hoặc những nền tảng khác có chức năng tự động tạo sitemap và pings máy tìm kiếm (thông báo cho máy tìm kiếm biết website của bạn có nội dung mới hoặc vừa được cập nhật). Thông báo với máy tìm kiếm Sau sitemap XML đã được tạo ra, nó cần được gửi đến công cụ quản trị Website Google Webmaster Tools và Bing Webmaster Tools. Thủ tục này rất đơn giản. Đây là những gì bạn cần làm với Google: 1. Đăng nhập vào tài khoản Google Webmaster Tools của bạn. 2. Tìm đến phần Sitemap, như hình bên: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  65. Ebook SEO VietMoz 2013 66 Sau đó bạn có thể gửi sitemap XML sử dụng nút bấm ở góc trên bên phải của màn hình như hình dưới đây. Sau vài giây, đồ thị sẽ hiển thị cho bạn biết bao nhiêu địa chỉ URL trong sitemap vừa gửi đã được index Bạn nên bổ sung sitemap vào trong file robots.txt với dòng code như sau: Sitemap: Chú ý là tên sitemap không nhất thiết phải là sitemap.xml, vì đôi khi một website có thể có nhiều sitemap, như bạn sẽ thấy dưới đây : Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  66. Ebook SEO VietMoz 2013 67 Website lớn Nếu bạn quản trị một website lớn, bạn cần biết rằng các máy tìm kiếm, cụ thể là Google có giới hạn về kích thước sitemap. Theo this WebmasterWorld Forum post, kích thước tối đa của sitemap là: 1. 50,000 URLs, và 2. 10MB file chưa nén Do đó, các website lớn thường có nhiều sitemap. Đường link đến các sitemap này được đặt trong một file riêng để máy tìm kiếm tiện khám phá và sử dụng. Sitemap: Sitemap: Sitemap: Sitemap: HTML Sitemaps HTML Sitemap là một file chứa tất cả các đường dẫn URL của một domain. Nó được sử dụng để giúp người truy cập dễ dàng tìm ra nội dung họ muốn. Nó cũng được sử dụng để tối ưu hệ thống link nội bộ, điều rất cần thiết trong SEO. Những điều cần tránh Theo cuộc phỏng vấn (this interview), với Duane Forrester của Bing từ tháng 09/2011, Bing có thể không còn tin tưởng một sitemap nếu có trên 1% đường dẫn trong đó có lỗi. Duane nói: Sitemap của bạn phải sạch sẽ. Chúng tôi chỉ cho phép dưới 1% tổng số đường link có lỗi. Lỗi đó có thể là một điều hướng, 1 lỗi 404 hoặc 500. Nếu chúng tôi nhìn thấy con số lỗi quá 1%, chúng tôi sẽ không còn tin vào sitemap đó nữa. Những lỗi trong sitemap bao gồm: 1. Một URL chuyển hướng 301 sang một URL khác 2. Một URL có lỗi 404 3. Một URL có lỗi 500 “Server Not Found” Để kiếm tra sitemap của mình có lỗi không, bạn có thể sử dụng Map Broker. Tải file sitemap của bạn lên và bạn sẽ biết sitemap của mình đạt số điểm bao nhiêu. Hoặc bạn cũng có thể sử dụng Screaming Frog: Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  67. Ebook SEO VietMoz 2013 68 RSS feeds: Cách tối ưu RSS feeds, viết tắt của Real Simple Syndication, tạm dịch chia sẻ tin tức Web đơn giản, thực tế. Đây là cách chia sẻ nội dung phổ biến trên mạng Internet. Nó cho phép người dùng Internet đăng ký với một website để ngay khi web có nội dung mới họ sẽ được thông báo thông qua trình đọc RSS. Thông tin mà người dùng nhận được bao gồm phần tóm lược nội dung trang web và link đến phiên bản đầy đủ của trang web đó. Thông tin này được cung cấp dưới dạng một tệp tin XML được gọi là 1 RSS Feed. Vấn đề chính với RSS feed là đảm bảo máy tìm kiếm sẽ không index nó, vì họ đã tuyên bố là không thích index những nội dung này. Việc này có thể thực hiện như sau: 1. Thực hiện nofollow tất cả các link trên RSS 2. Chèn Disallow: */feed vào file robots.txt. Dòng lệnh này sẽ loại trừ URL của các feed Bài tập: Tìm ra vị trí của sitemap sử dụng câu lệnh sau site:domain.com inurl:sitemap.xml Tìm một ví dụ về HTML sitemap Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn
  68. Ebook SEO VietMoz 2013 69 Bài 8: Những lỗi thường gặp Trong bài này, chúng ta sẽ học về: Blocking site with robots.txt Chặn site do robots.txt Chặn site do Meta Robots Lỗi thẻ Canonical Moving URLs (chuyển hướng 301 về trang chủ) Chaining 301 redirects Moving URLs (302s vs 301s) URLs không tĩnh Not 404ing invalid pages Không có sitemap Về mặt kỹ thuật có rất nhiều lỗi mà một website có thể mắc. Để học hết về những lỗi này cần một thời gian đủ dài. Bài học này chỉ giới thiệu với bạn những lỗi phổ biến nhất để bạn có thể tránh chúng ngay từ đầu. 1.Chặn site do Robots.txt Việc chặn toàn bộ website bằng robots.txt dễ một cách đáng ngạc nhiên. Nếu website của bạn mãi mà không thấy xuất hiện trên bảng kết quả tìm kiếm, việc đầu tiên phải làm là kiểm tra xem trong file robots.txt (nếu có) của website có câu lệnh sau đây không: Disallow: / Nếu có câu lệnh này thì toàn bộ website của bạn đã bị chặn. Bọ tìm kiếm không thể ghé thăm bất kỳ vị trí nào trên website của bạn. 2.Chặn site do Meta Robots Bạn cũng có thể chặn một trang web rất dễ dàng nhờ thẻ meta robots. Nếu trang web của bạn mãi không xuất hiện trong bảng kết quả tìm kiếm hoặc biến mất sau một thời gian xuất hiện trên bảng kết quả tìm kiếm, kiểm tra trong thẻ meta robots của trang web đó có dòng lệnh sau đây không? 3.Lỗi thẻ Canonical Thẻ canonical bắt đầu được đưa vào sử dụng từ năm 2009. Đây là cách mà máy tìm kiếm sử dụng để giải quyết các nội dung trùng lặp. Thẻ này rất được máy tìm kiếm coi trọng, chỉ cần sử dụng sai một chút có thể ảnh hưởng nghiêm trọng đến thứ hạng website, hoặc tồi tệ hơn làm website biến mất hoàn toàn khỏi bảng kết quả tìm kiếm. Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn