Lấy tin tự động từ trang nhaccuatui.com

Thảo luận trong 'Lập trình & Đồ hoạ' bắt đầu bởi GB King, 11/5/11.

  1. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Mình đang muốn làm 1 chương trình winform bằng C#, paste đường link trang nhaccuatui.com vào textbox và lấy được nội dung như tên bài hát, người trình bày, người đăng, số lượt nghe trong Top New để cho vào database nhưng chưa rõ lắm về crawler. Bạn nào có chương trình demo thử cho mình tham khảo được không?
     
  2. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Hic, không ai biết sao? 30 chart............
     
  3. Annoyer

    Annoyer Mr & Ms Pac-Man

    Tham gia ngày:
    4/3/10
    Bài viết:
    250
    Nơi ở:
    HCMC
    có chương trình demo nhưng bên java. Mà bạn đã down thư viện spider chưa
     
  4. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Thư viện spider đó down ở đâu vậy bạn? Mình mới tìm hiểu về crawler nên còn mù mờ lắm.
     
  5. Annoyer

    Annoyer Mr & Ms Pac-Man

    Tham gia ngày:
    4/3/10
    Bài viết:
    250
    Nơi ở:
    HCMC
    Vừa ấn vào gửi trả lời thì gvn lại bị trục trặc! 6

    Đây là code bao gồm cả claw và xử lý Url.
     

    Các file đính kèm:

  6. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Đây là đoạn code mình dùng để lấy thông tin về bài hát như người trình bày, người đăng, số lượt nghe
    Mã:
    var res = from item in xdoc.Descendants(xmlns + "div")
                          where item.Attribute("class") != null && item.Attribute("class").Value == "summary-info"
                          && item.Element(xmlns + "a") != null
                          //select item;
                          select new
                          {
                              TrinhBay = item.Elements(xmlns + "a").ElementAt(0).Value,
                              NguoiDang = item.Elements(xmlns + "a").ElementAt(1).Value,
                              LuotNghe = item.Elements(xmlns + "span").ElementAt(4).Value,
                              ThongSo = item.Elements(xmlns + "span").ElementAt(6).Value
                          };
    Nhưng mỗi lần chạy đều báo lỗi "Specified argument was out of the range of valid values.
    Parameter name: index"
    mặc dù sau đó vào db vẫn thấy dữ liệu đã được thêm vào. Vậy làm sao để giải quyết được?
     
  7. Annoyer

    Annoyer Mr & Ms Pac-Man

    Tham gia ngày:
    4/3/10
    Bài viết:
    250
    Nơi ở:
    HCMC
    bạn có chắc là đoạn code này phát sinh lỗi trên ko??
    Chỗ này nhìn đi nhìn lại chỉ lọc html thôi, vả lại cũng ko thấy cái param index đâu cả :|
     
  8. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Lỗi trên mình đã sửa được rồi. Tuy nhiên giờ mình muốn lấy cả link download bài hát mà trang này lại yêu cầu đăng nhập thì làm sao nhỉ?
     
  9. BurNova

    BurNova Donkey Kong Lão Làng GVN

    Tham gia ngày:
    3/4/07
    Bài viết:
    303
    Nơi ở:
    Hà Lọi
    Ko biết bên C# thế nào chứ mình thường crawl bên obj-C thế này: viết lớp phân tích XML theo các node rồi theo cái đó mà lọc thông tin mình cần thôi.
     
  10. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Nhưng cái chính mình đang muốn hỏi là lấy được link download bài hát thì phải log in, cái này đâu có sẵn mà bóc tách được.
     
  11. GB King

    GB King Mr & Ms Pac-Man

    Tham gia ngày:
    21/8/08
    Bài viết:
    122
    Ai biết không, giúp mình với :(
     

Chia sẻ trang này