Lấy tin tự động từ trang nhaccuatui.com

GB King · 11/5/11

Mình đang muốn làm 1 chương trình winform bằng C#, paste đường link trang nhaccuatui.com vào textbox và lấy được nội dung như tên bài hát, người trình bày, người đăng, số lượt nghe trong Top New để cho vào database nhưng chưa rõ lắm về crawler. Bạn nào có chương trình demo thử cho mình tham khảo được không?

GB King · 11/5/11

Hic, không ai biết sao? 30 chart............

Annoyer · 11/5/11

có chương trình demo nhưng bên java. Mà bạn đã down thư viện spider chưa

GB King · 11/5/11

Annoyer nói: ↑

có chương trình demo nhưng bên java. Mà bạn đã down thư viện spider chưa
Click to expand...

Thư viện spider đó down ở đâu vậy bạn? Mình mới tìm hiểu về crawler nên còn mù mờ lắm.

Annoyer · 12/5/11

Vừa ấn vào gửi trả lời thì gvn lại bị trục trặc! 6

Đây là code bao gồm cả claw và xử lý Url.

GB King · 13/5/11

Đây là đoạn code mình dùng để lấy thông tin về bài hát như người trình bày, người đăng, số lượt nghe
Mã:
var res = from item in xdoc.Descendants(xmlns + "div")
                      where item.Attribute("class") != null && item.Attribute("class").Value == "summary-info"
                      && item.Element(xmlns + "a") != null
                      //select item;
                      select new
                      {
                          TrinhBay = item.Elements(xmlns + "a").ElementAt(0).Value,
                          NguoiDang = item.Elements(xmlns + "a").ElementAt(1).Value,
                          LuotNghe = item.Elements(xmlns + "span").ElementAt(4).Value,
                          ThongSo = item.Elements(xmlns + "span").ElementAt(6).Value
                      };
Nhưng mỗi lần chạy đều báo lỗi "Specified argument was out of the range of valid values.
Parameter name: index" mặc dù sau đó vào db vẫn thấy dữ liệu đã được thêm vào. Vậy làm sao để giải quyết được?

Annoyer · 13/5/11

bạn có chắc là đoạn code này phát sinh lỗi trên ko??
Chỗ này nhìn đi nhìn lại chỉ lọc html thôi, vả lại cũng ko thấy cái param index đâu cả

GB King · 16/5/11

Annoyer nói: ↑

bạn có chắc là đoạn code này phát sinh lỗi trên ko??
Chỗ này nhìn đi nhìn lại chỉ lọc html thôi, vả lại cũng ko thấy cái param index đâu cả
Click to expand...

Lỗi trên mình đã sửa được rồi. Tuy nhiên giờ mình muốn lấy cả link download bài hát mà trang này lại yêu cầu đăng nhập thì làm sao nhỉ?

BurNova · 17/5/11

Ko biết bên C# thế nào chứ mình thường crawl bên obj-C thế này: viết lớp phân tích XML theo các node rồi theo cái đó mà lọc thông tin mình cần thôi.

GB King · 17/5/11

BurNova nói: ↑

Ko biết bên C# thế nào chứ mình thường crawl bên obj-C thế này: viết lớp phân tích XML theo các node rồi theo cái đó mà lọc thông tin mình cần thôi.
Click to expand...

Nhưng cái chính mình đang muốn hỏi là lấy được link download bài hát thì phải log in, cái này đâu có sẵn mà bóc tách được.

GB King · 18/5/11

Ai biết không, giúp mình với :(

Đăng nhập

Lấy tin tự động từ trang nhaccuatui.com

GB King Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

Annoyer Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

Annoyer Mr & Ms Pac-Man

Các file đính kèm:

spider.rar

GB King Mr & Ms Pac-Man

Annoyer Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

BurNova Donkey Kong Lão Làng GVN

GB King Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

Chia sẻ trang này

Đăng nhập

Lấy tin tự động từ trang nhaccuatui.com

GB King Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

Annoyer Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

Annoyer Mr & Ms Pac-Man

Các file đính kèm:

spider.rar

GB King Mr & Ms Pac-Man

Annoyer Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

BurNova Donkey Kong Lão Làng GVN

GB King Mr & Ms Pac-Man

GB King Mr & Ms Pac-Man

Chia sẻ trang này

Tìm kiếm hữu ích